NVIDIA представила GauGAN 2 — обновлённую нейросеть, способную генерировать изображения по текстовому описанию

Компания NVIDIA представила GauGAN 2 — обновлённую версию сервиса на базе нейросетей, который позволяет генерировать фотореалистичные изображения на основании (теперь уже) текстового описания. Разработчики использовали более 10 миллионов изображений для «обучения» инструмента.

Первая версия GauGAN была выпущена ещё в 2019-м году, тогда он позиционировался в качестве нейросетевого редактора, позволяющего конвертировать арт в фотореалистичное изображение (вводить текстовое описание ещё не разрешали). Для моделирования процессов сервиса NVIDIA «прогнала» через первую версию графического редактора свыше миллиона изображений из Flickr с примерами различных объектов.

«Тренировка» GauGAN 2 проходила на базе суперкомпьютера NVIDIA Selene. Нейросеть теперь также умеет распознавать связь между словами из текстового описания, продумывать стилистику изображения и формировать предварительные эскизы.

[embedded content]

Все желающие могут опробовать GauGAN 2 на официальном сайте NVIDIA. Чуть ранее производитель видеокарт выпустил редактор Canvas, в основе которого используется нейросеть GauGAN.