Если ИИ еще и научится рисовать, что же тогда останется человеку? Успокаивает, что ИИ рисует, используя уже готовые исходные образцы. Так что полноценным творчеством его работу назвать пока нельзя. Но он быстро учится.
Команда Open.AI обучила искусственную нейронную сеть генерировать изображения по текстовым описаниям. Программу назвали DALL-E — это анаграмма из имени знаменитого художника Сальвадора Дали (Dali) и не менее знаменитого робота WALL-E (героя одноименного мультфильма). То есть что-то среднее между роботом и человеком.
Основой работы DALL-E является нейросеть GPT-3 с 12 миллиардов параметров. Но при обучении используются не только слова и буквы естественного языка, но и изображения. При обучении сеть получает наборы токенов — как текстов (подписи), так и картинок. Причем картинки проходят несколько степеней сжатия и абстрагирования. Фактически это схемы изображений. Такие схемы ассоциированные с текстом и становятся основой того, с чем работает DALL-E.
На изображении могут быть несколько предметов, и сеть учитывает их взаимное расположение (красный кубик лежит на зеленом) и правильно понимает, какие зоны закрыты от взгляда в зависимости от направления.
По каждой подписи можно создать бесконечно много картинок, поэтому сеть кроме генерации изображения выполняет еще и ранжирование. Она уже может рисовать не только плоские картинки 2D, но и трехмерные изображения с учетом теней и перспективы. Например, она может изобразить пуму — при взгляде сверху или прямо, в горах или на солнечной поляне. Может заменить пуму на лису. То есть композиционные вариации достаточно широки, но чтобы нарисовать «Постоянство памяти» DALL-E нужно еще поучиться. До великого тезки ей пока далеко.