Нужен ли мне графический процессор для стабильной диффузии? Руководство по ПК, стабильная диффузия. Аппаратное обеспечение Тома
Стабильная диффузия
Contents
- 1 Стабильная диффузия
Мы перейдем к некоторым другим теоретическим числам вычислительной эффективности через мгновение, но снова рассмотрим RTX 2080 TI и RTX 3070 TI в качестве примера. Тензорные ядра 2080 года не поддерживают разреженность и имеют до 108 TFLOPS FP16 Compute. RTX 3070 TI поддерживает разреженность с 174 TFLOPS FP16, или 87 TFLOPS FP16 без разреженности. Тот факт, что TI 2080 года превышает 3070 TI, явно указывает на то, что разреженность не является фактором. Та же логика относится к другим сравнениям, таким как 2060 и 3050, или 2070 Super и 3060 Ti.
Нужен ли мне графический процессор для стабильной диффузии?
? Вы пришли в нужное место.
Стабильная диффузия, несомненно, является быстрым и интуитивно понятным инструментом искусства, такого как Dall-E и Midjourney. Его результаты впечатляют, поэтому сейчас в миллионах пользователей есть миллионы пользователей. Однако, если вы хотите использовать его на своем ПК, убедитесь, что требования выполнены, особенно когда речь идет о видеокартах. Говоря об этом, мы поговорим о том, может ли стабильная диффузия работать без графического процессора, или вам все еще понадобится видеокарта, чтобы правильно функционировать.
Графические процессоры или видеокарты – это небольшие технологии, которые серьезно обновит любые игры или творческий профессиональный опыт. Они важны для создания искусства, созданного ИИ, на более коммерческом или профессиональном уровне.
Основные инструменты ИИ
Эксклюзивная сделка 10 000 бесплатных бонусных кредитов
В контенте искусственного искусства на бренде, где бы вы ни создавали. . Один инструмент для искусственного интеллекта, все лучшие модели.
Испытать полную мощность генератора контента ИИ, который дает премиум -результаты в секундах. 8 миллионов пользователей наслаждаются написанием блогов в 10 раз быстрее, без особых усилий создают более высокие посты в социальных сетях или писать более привлекательные электронные письма. Подпишитесь на бесплатную пробную версию. Читать далее
Только $ 0.00015 за слово!
Уинстон детектор ИИ
Уинстон ИИ: самый надежный детектор ИИ. Winston AI-это ведущий инструмент обнаружения контента в отрасли, который помогает проверить контент искусственного интеллекта, сгенерированный с помощью CHATGPT, GPT-4, Bard, Bing Chat, Claude и многих других LLMS. Читать далее
Только $ 0.01 за 100 слов
Оригинальность детектор ИИ
Оригинальность.ИИ является наиболее точным обнаружением ИИ.В рамках набора данных тестирования из 1200 образцов данных он достиг точности 96%, в то время как его ближайший конкурент достиг только 35%. Полезное расширение хрома. Обнаружение по электронной почте, документам Google и веб -сайтам.
*Цены подвержены изменениям. Руководство для ПК поддерживается читателем. Когда вы покупаете ссылки на нашем сайте, мы можем заработать аффилированную комиссию. Узнать больше
Так что вам нужна видеокарта из стабильной диффузии, чтобы она работала? Или может заменить другой? Давай выясним.
Это графический процессор, необходимый для стабильной диффузии?
Да, для стабильной диффузии работать без каких -либо проблем, у вас должен быть графический процессор на своем ПК. На минимум посмотрите на модели NVIDIA 8-10 ГБ. Более того, убедитесь, что у вас есть 16 ГБ с ПК в системе ПК, чтобы избежать нестабильности.
GPU будет работать стабильной диффузией, не сталкиваясь с такими проблемами, как более медленная скорость ответа. Сказать, что стабильная диффузия исключительно работает лучше всего на видеокарте не ошибся. Что касается того, какого GPU для использования мы предлагаем модели NVIDIA RTX 4080 и 4090 с 16 или 24 ГБ VRAM для достижения наилучших результатов. Это действительно мощные кусочки комплекта, которые гарантируют вам быстрый сервис.
Можно ли запустить стабильную диффузию на графическом процессоре AMD?
Да, вы также можете запустить стабильную диффузию на графических процессорах AMD, кроме моделей серии Nvidia. Однако, чтобы использовать AMD, убедитесь, что у вас есть модель выше RX470. Более того, для достижения наилучших результатов убедитесь, что у вас есть еще 8 ГБ или выше, чтобы избежать каких -либо неудобств.
Часто задаваемые вопросы
Может работать стабильная диффузионная работа на процессорах Apple Mac?
Да, стабильная диффузия поддерживает книги Apple Mac. Тем не менее, он поддерживает только последние модели M1 и M1 на основе кремния. Любая модель до того, как это не для лучших результатов. Даже более старая модель M1 и M2 будет в порядке, если она выполнит требования.
Заключение
Наличие графического процессора является обязательным требованием в современном технологическом мире. Попробуйте иметь последнюю и быстрая модель для графических процессоров или других графических опоров. Следовательно, для стабильной диффузии лучше всего иметь графический процессор. Хотя есть несколько способов запустить его без графического процессора, они не так надежны, как могут казаться. Итак, убедитесь, что у вас есть хорошая видеокарта, прежде чем запустить стабильную диффузию для достижения наилучших результатов.
Видеокарта также является хорошей идеей в целом для того, чтобы максимально использовать ваш компьютер. Они улучшают игры и творческий опыт в десять раз. Если вам нужны идеи относительно того, на кого можно пойти, ознакомьтесь с нашим обзором самых лучших видеокарт здесь.
Стабильная диффузия
. Большинство из этих инструментов полагаются на сложные серверы с большим количеством оборудования для обучения, но использование обученной сети с помощью вывода можно сделать на вашем компьютере, используя его видеокарту. Но как быстро являются потребительские графические процессоры для вывода ИИ?
Мы сравнивали стабильную диффузию, популярный создатель изображений ИИ, на последних NVIDIA, AMD и даже Intel GPU, чтобы увидеть, как они складываются. Если вы случайно пытались получить стабильную диффузию и запустить на своем компьюте! – это может быть. Краткое резюме заключается в том, что графические процессоры NVIDIA правят RIPOST, причем большинство программ, разработанных с использованием CUDA и других наборов инструментов NVIDIA. .
В итоге мы использовали три различных стабильных диффузионных проектов для нашего тестирования, в основном потому, что ни один пакет не работал на каждом графическом процессоре. . AMD -графические процессоры были протестированы с использованием NOD.Версия Shark – мы проверили производительность на графических процессорах NVIDIA (как в режимах Vulkan, так и в CUDA) и обнаружили, что она была. не хватает. Получение работы с графическими процессорами Intel было немного сложнее из -за отсутствия поддержки, но стабильная диффузия OpenVino дала нам некоторые очень Основная функциональность.
Отказ от ответственности в порядке. Мы не кодировали ни один из этих инструментов, но мы искали вещи, которые было легко запустить (под Windows), которые также казались разумно оптимизированными. Мы относительно уверены, что тесты NVIDIA 30-й серии выполняют хорошую работу по извлечению близкого к оптимальной производительности-особенно когда включены Xformers, что обеспечивает дополнительное повышение ~ 20% в производительности (хотя при сниженной точности, которая может повлиять на качество). Результаты RTX 40-серийного серия между тем были ниже изначально, но Джордж SV8ARJ предоставил это исправление, где замена DLL Pytorch Cuda дала здоровое повышение для производительности.
Результаты AMD также немного смешанной сумки: RDNA 3 графические процессоры работают очень хорошо, в то время как RDNA 2 графические процессоры кажутся довольно посредственными. Кивок.AI дайте нам знать, что они все еще работают над «настроенными» моделями для RDNA 2, что должно немного повысить производительность (потенциально двойной), как только они доступны. Наконец, на графических процессорах Intel, хотя конечная производительность, по -видимому, прилично сочетается с вариантами AMD, на практике время для визуализации значительно больше – это займет 5–10 секунд, прежде чем наступит фактическая задача поколения, и, вероятно, много Происходит дополнительные фона, которые замедляют его.
Мы также используем различные стабильные диффузионные модели из -за выбора программных проектов. Кивок.Версия акулы ИИ использует SD2.1, в то время как Automatic 1111 и OpenVino используют SD1.4 (хотя можно включить SD2.1 на автоматическом 1111). Опять же, если у вас есть внутреннее знание стабильной диффузии и вы хотите рекомендовать различные проекты с открытым исходным кодом, которые могут работать лучше, чем то, что мы использовали, сообщите нам в комментариях (или просто по электронной почте Jarred).
Наши параметры тестирования одинаковы для всех графических процессоров, хотя нет опции для опции отрицательного приглашения в версии Intel (по крайней мере, не то чтобы мы могли найти). Вышеуказанная галерея была сгенерирована с использованием Webui Automatic 1111 на графических процессорах Nvidia, с более высокими выходами разрешения (которые занимают много, много . Это те же подсказки, но нацеливание на 2048×1152 вместо 512×512, которые мы использовали для наших тестов. Обратите внимание, что настройки, которые мы выбрали, были выбраны для работы над всеми тремя проектами SD; Некоторые варианты, которые могут повысить пропускную способность, доступны только для автоматической сборки 1111, но подробно об этом позже. Вот соответствующие настройки:
Положительная подсказка:
Постапокалиптический стимпанк Сити, разведка, кинематографический, реалистичный, гипер-детальный, фотореалистичный максимальный деталь, объемный свет, (((фокус))), широкоугольный, (((ярко освещен))), ((растительность))), молния , виноградные лозы, разрушение, опустошение, военный завод, руины
Отрицательная подсказка:
(((размытый))), ((туманный)), (((темный))), ((монохромный)), солнце, ((глубина поля)))))
Шаги:
100
Бесплатное руководство классификатора:
15.0
Алгоритм отбора проб:
Некоторый вариант Euler (наследственный на автоматическом 1111, Shark Euler Discrete на AMD)
Алгоритм выборки, по -видимому, не влияет на производительность, хотя он может повлиять на выход. Automatic 1111 предоставляет наиболее варианты, в то время как сборка Intel OpenVino не дает вам никакого выбора.
Вот результаты нашего тестирования серии AMD RX 7000/6000, NVIDIA RTX 40/30 и графические процессоры Intel AR-A-Series. Обратите внимание, что каждый графический процессор NVIDIA имеет два результата, один из которых использует вычислительную модель по умолчанию (медленнее и в черном), а вторая с использованием более быстрой библиотеки «Xformers» из Facebook (быстрее и зеленого).
Как и ожидалось, графические процессоры Nvidia обеспечивают превосходную производительность – иногда по огромным маржам – по сравнению с чем -либо от AMD или Intel. С помощью DLL Fix для Torch на месте, RTX 4090 обеспечивает на 50% больше производительности, чем RTX 3090 TI с Xformers, и на 43% лучшая производительность без XMARMERS. Требуется чуть более трех секунд, чтобы сгенерировать каждое изображение, и даже RTX 4070 Ti может пискнуть мимо 3090 TI (но не если вы отключите Xformers).
Вещи падают довольно последовательным способом с лучших карт для графических процессоров Nvidia, от 3090 до 3050. Между тем, AMD RX 7900 XTX связывает RTX 3090 TI (после дополнительного повторного тестирования), в то время как RX 7900 XT связывает RTX 3080 TI. . Наконец, графические процессоры Intel наступают почти последним, и только A770 удастся опередить RX 6600. Давайте поговорим немного больше о несоответствиях.
Правильная оптимизация может удвоить производительность на картах серии RX 6000. Кивок.. Говоря о кивах.ИИ, мы также провели некоторое тестирование некоторых графических процессоров NVIDIA с использованием этого проекта, и с моделями Vulkan карты NVIDIA были значительно медленнее, чем при автоматической сборке 1111 (15.52 IT/S на 4090, 13.31 на 4080, 11.41 на 3090 TI и 10.76 на 3090 – мы не могли проверить другие карты, так как они должны быть включены в первую очередь).
Основываясь на производительности карт 7900 с использованием настроенных моделей, нам также интересно о картах Nvidia и о том, сколько они могут извлечь выгоду из своих тензоров. На бумаге 4090 более в пять раз превышает производительность RX 7900 XTX – и 2.В 7 раз превышает производительность, даже если мы скидываем нехватку. . Та же самая логика также относится к картам ARC Intel.
ARC -графические процессоры Intel в настоящее время дают очень разочаровывающие результаты, тем более что они поддерживают операции FP16 XMX (MATRIX), которые должны обеспечить до 4x пропускную способность в качестве обычных вычислений FP32. Мы подозреваем, что текущий стабильный проект Diffusion OpenVino, который мы использовали, также оставляет много места для улучшения. Между прочим, если вы хотите попытаться запустить SD на графическом процессоре Arc, обратите внимание, что вам нужно редактировать ‘stable_diffusion_engine.Py ‘File и измените «ЦП» на «графический процессор» – в противном случае он не будет использовать видеокарты для расчетов и требует значительно дольше.
В целом, используя указанные версии, карты NVIDIA RTX 40-й серии являются самым быстрым выбором, за которым следуют карты 7900, а затем графические процессоры RTX 30-й серии. RX 6000-серии подчеркивается, а дуговые графические процессоры выглядят в целом бедными. Вещи могут радикально измениться с обновленным программным обеспечением, и, учитывая популярность ИИ, мы ожидаем, что это только вопрос времени, когда мы увидим лучшую настройку (или найдем правильный проект, который уже настроен, чтобы обеспечить лучшую производительность).
Мы также провели некоторые тесты на устаревшие графические процессоры, в частности, архитектура Nvidia Turing (RTX 20- и GTX 16-й серии) и серии AMD RX 5000. RX 5600 XT не удалось, поэтому мы остановились с тестированием на RX 5700, и Super GTX 1660 был достаточно медленным, поэтому нам не нужно было провести дальнейшее тестирование деталей нижнего уровня. Но результаты здесь довольно интересны.
Во -первых, RTX 2080 TI в конечном итоге опередите RTX 3070 TI. . Что еще более важно, эти цифры предполагают, что оптимизации Nvidia «Sparsity» в архитектуре Ampere вообще не используются или, возможно, они просто не применимы.
Мы перейдем к некоторым другим теоретическим числам вычислительной эффективности через мгновение, но снова рассмотрим RTX 2080 TI и RTX 3070 TI в качестве примера. Тензорные ядра 2080 года не поддерживают разреженность и имеют до 108 TFLOPS FP16 Compute. RTX 3070 TI поддерживает разреженность с 174 TFLOPS FP16, или 87 TFLOPS FP16 без разреженности. Тот факт, что TI 2080 года превышает 3070 TI, явно указывает на то, что разреженность не является фактором. Та же логика относится к другим сравнениям, таким как 2060 и 3050, или 2070 Super и 3060 Ti.
Что касается карт RDNA AMD, то RX 5700 XT и 5700, то есть широкий разрыв в производительности. 5700 XT приземляется прямо перед 6650 XT, но 5700 земель ниже 6600. На бумаге карта XT должна быть на 22% быстрее. . В любом случае, ни один из более старых графических процессоров Navi 10 не особенно эффективен в наших первоначальных стабильных диффузионных критериях.
Наконец, Super на бумаге GTX 1660 должен составлять примерно на 1/5 теоретические характеристики RTX 2060, используя тензоры на последних. Если мы используем производительность шейдера с FP16 (у Тьюринга удваивается пропускная способность на коде шейдера FP16), разрыв сузится только 22% дефицит. Но в нашем тестировании Super GTX 1660 составляет всего около 1/10 скорость RTX 2060.
Опять же, неясно, насколько оптимизируется любой из этих проектов. Также неясно, полностью ли эти проекты используют такие вещи, как тензоры Nvidia или ядра Intel XMX. Таким образом, мы подумали, что было бы интересно взглянуть на максимальную теоретическую производительность (TFLOPS) из различных графических процессоров. Следующая диаграмма показывает теоретическую производительность FP16 для каждого графического процессора (только изучая более поздние графические карты), используя ядра Tensor/Matrix, где это применимо. Результаты NVIDIA также включают дефицит – в основном способность пропускать умножения на 0 для получения до половины клеток в матрице, что предположительно является довольно частым явлением с глубоким обучением рабочих нагрузков.
Эти тензорные ядра на nvidia явно упаковывают удар (серые/черные батончики без редкости), и, очевидно, наши стабильные диффузионные тестирование не совпадает с этими цифрами – даже не близко. Например, на бумаге RTX 4090 (с использованием FP16) на 106% быстрее, чем RTX 3090 TI, в то время как в наших тестах он был на 43% быстрее без xmormers и на 50% быстрее с xformers. Обратите внимание также, что мы предполагаем, что стабильный диффузионный проект, который мы использовали (Automatic 1111), не использует новые инструкции FP8 на графических процессорах ADA Lovelace, которые могут снова удвоить производительность на серии RTX 40.
. Их матричные ядра должны обеспечивать аналогичные характеристики с RTX 3060 TI и RX 7900 XTX, дайте или взять, с A380 вниз вокруг RX 6800. На практике графические процессоры Arc не находятся рядом с этими оценками. Самая быстрая графическая земля A770 между RX 6600 и RX 6600 XT, A750 падает сразу за RX 6600, а A380 составляет примерно одну четвертую скорость A750. Таким образом, они все около четверти ожидаемой производительности, что имело бы смысл, если бы ядра XMX не использовались.
Внутренние соотношения на дуги выглядят правильно, хотя. Теоретическая вычислительная производительность на A380 составляет примерно одну четвертую A750, и именно там он приземляется с точки зрения стабильной диффузионной производительности прямо сейчас. Скорее всего, графические процессоры ARC используют шейдеры для вычислений, в полном режиме FP32 и отсутствуют дополнительные оптимизации.
Другая вещь, которую нужно заметить, состоит в том, что теоретический вычислитель на AMD RX 7900 XTX/XT улучшился по сравнению с серии RX 6000. Мы должны посмотреть, закрывают ли настроенные модели серии 6000.ИИ сказал, что ожидает 2 -кратного улучшения производительности на рДНК 2. Пропускная способность полосы памяти не была критическим фактором, по крайней мере, для целевого разрешения 512×512, которое мы использовали, – модели 3080 10 ГБ и 12 ГБ относительно близко друг к другу.
Вот другой взгляд на теоретическую производительность FP16, на этот раз сосредотачиваясь только на том, что могут делать различные графические процессоры с помощью вычислений шейдеров. Архитектуры AMPERE и ADA от NVIDIA запускают FP16 с той же скоростью, что и FP32, так как предположение FP16 может быть кодировано для использования ядер тензоров. Графические процессоры AMD и Intel, напротив, имеют двойную производительность на расчетах шейдеров FP16 по сравнению с FP32.
Очевидно, что этот второй взгляд на вычислитель FP16 не соответствует нашей фактической производительности лучше, чем диаграмма с тензорными и матричными ядрами, но, возможно, есть дополнительная сложность в настройке вычислений матрицы, и поэтому требуется полная производительность. что -то дополнительное. Что подводит нас к последней таблице.
Этот последний график показывает результаты нашего более высокого разрешения тестирования. Мы не тестировали новые графические процессоры AMD, так как нам пришлось использовать Linux на картах AMD RX 6000-серии, и, по-видимому, серии RX 7000 нуждается в новом ядре Linux, и мы не смогли его работать. Но проверьте результаты серии RTX 40, с заменой Torch DLL.
RTX 4090 в настоящее время на 72% быстрее, чем 3090 TI, без XFormers, и на 134% быстрее с Xformers. 4080 также превосходит 3090 TI на 55%/18% с/без xformers. 4070 TI, интересно, было на 22% медленнее, чем 3090 TI без XMARMERS, но на 20% быстрее с XMARMERS.
Похоже, что более сложное разрешение цели 2048×1152 начинает лучше пользоваться потенциальными вычислительными ресурсами, и, возможно, более длительное время пробега означает, что ядра для тензора могут полностью сгибать их мышцы.
. Мы видим частые обновления проекта, поддержку различных учебных библиотек и многое другое. Мы увидим о пересмотре этой темы в следующем году, надеюсь, с лучшим оптимизированным кодом для всех различных графических процессоров.
Оставаться на переднем крае
Присоединяйтесь к экспертам, которые читают оборудование Тома для внутреннего трека на энтузиасте PC Tech News – и более 25 лет. .
Отправляя свою информацию, которую вы соглашаетесь с условиями и политикой конфиденциальности и в возрасте 16 лет или более.
Джарред Уолтон – старший редактор Tom’s Hardware, фокусирующийся на всем графическом процессе. Он работает техническим журналистом с 2004 года, пишущий для Anandtech, Maximum PC и PC Gamer. От первых S3 Virge ‘3D Decelerators’ до сегодняшних графических процессоров, Jarred не отстает от всех последних графических тенденций и является тем, кто спросит об игре.