Генерация изображений из текста с помощью нейросети ruDALL-E от Сбера

«Нейронная сеть ruDALL-E способная генерировать изображения на основе русскоязычного  текстового описания появилась на платформе ML Space в сервисе SberCloud.  ruDALL-E имеет 12 миллиардов параметров и подходит для создания коммерческих материалов: иллюстраций для рекламы, архитектурного и промышленного дизайна, векторных и стоковых изображений» — из пресс-релиза компании Сбер.

Генерация изображений с помощью нейронной сети позволяет решить две задачи:

  1. Возможность получить ранее не существовавшее персонифицированное изображение на основе точного описания того, что должно быть изображено.
  2. Создание изображений и иллюстраций по запросу в неограниченном объеме и без необходимости приобретать лицензию.

Сеть ruDALL-E обучалась на основе 120 миллионов изображений с соответствующими описаниями, а само обучение заняло 24 256 GPU-дней, но пока результаты ее выдачи далеки от идеала.

Вот, например, что сеть выдает по запросу «деловой человек, работающий на ноутбуке»

Фотография созданная нейросетью

С интерьерами чуть лучше, но артефакты все равно видны. Вот интерьер, сгенерированный ruDALL-E по запросу «шикарная гостиная с зелеными креслами у окна»

Интерьер сгенерированный нейросетью

Сеть способна создавать и иллюстрации.

Вот, что она выдает по запросу «векторная иллюстрация с розовыми цветами»

Иллюстрация сгенерированная нейросетью

 

Как видите, изображения, сгенерированные сетью DALL-E, пока не могут соперничать с контентом, которые загружают на фотостоки авторы, несмотря на обучение на большой выборке и большое количество параметров. Посмотрим, смогут ли авторы улучшить модель, чтобы изображения были более реалистичными.

Кстати, базы фотостоков не были использованы для обучения модели нейросети.

 

PS: А вот одно из изображений сгенерированных сетью, ничего не напоминает (видимо некоторые изображения с фотостоков все-таки попали в обучающую выборку)?

Клоун

Не забудьте подписаться на наш Telegram канал с актуальными новостями о фотостоках и интересной информацией. Коротко и полезно.

[mc4wp_form]

Последнее изменение: 1 февраля 2022 в 20:55.