Imagen — нейросеть Google, которая убьет фотостоки?

Многие уже, наверное, видели, что на днях Google представила свою новую нейросеть, которая генерирует фотореалистичные изображения по словесному описанию. Приведенные результаты работы сети впечатляют. Многие комментаторы даже успели заявить, что развитие ИИ сделает фотостоки бесполезными. Подобные заявления уже звучали, когда сообщество OpenAI представило свою сеть DALL-E, с которой теперь и сравнивают Imagen.

Часто изображения, сгенерированные моделями преобразования текста в изображение, выглядят незавершенными, смазанными или размытыми — проблемы, которые мы наблюдали с изображениями, сгенерированными сетью DALL-E. (Чтобы узнать больше о проблемных местах систем преобразования текста в изображение, ознакомьтесь с этой интересной веткой в Твиттере, в которой рассказывается о проблемах с DALL-E. В ней, среди прочего, подчеркивается склонность системы неправильно понимать подсказки и проблема с генерацией текстов и лиц.)

Google, тем не менее, утверждает, что Imagen производит стабильно более качественные изображения, чем DALL-E 2, основываясь на новом эталонном тесте, созданном для этого проекта под названием DrawBench.

Однако нам будет сложно судить об этом, поскольку Google не сделала модель Imagen общедоступной. Для этого по их словам есть веская причина. Хотя модели преобразования текста в изображения, безусловно, обладают фантастическим творческим потенциалом, у них также есть ряд проблемных применений. Представьте себе систему, которая генерирует почти любое изображение, которое вам нравится, которое используется, например, для фальшивых новостей, розыгрышей или преследования. Как отмечает Google, эти системы также кодируют социальные предубеждения и стереотипы, и их результаты часто носят расистский, сексистский или токсичный характер.

Во многом это связано с тем, как эти системы запрограммированы. По сути, они обучаются на огромном количестве данных (в данном случае: множество пар изображений и подписей, в том числе с фотостоков), которые они изучают на предмет закономерностей и учатся воспроизводить. Но для этих моделей требуется чертовски много данных, и большинство исследователей — даже те, кто работает на хорошо финансируемых технологических гигантов, таких как Google, — решили, что всесторонняя фильтрация этих входных данных слишком обременительна. Таким образом, они собирают огромное количество данных из Интернета, и, как следствие, их модели поглощают (и учатся воспроизводить) всю ненавистную желчь, которую можно найти в Интернете.

Собственный вывод Google заключается в том, что Imagen «не подходит для публичного использования в настоящее время», и компания заявляет, что планирует разработать новый способ оценки «социальных и культурных предубеждений в будущей работе» и протестировать будущие итерации. На данный момент, однако, нам придется довольствоваться оптимистичным выбором изображений компании — королевские еноты и кактусы в солнцезащитных очках.

«Голубая сойка стоит на большой корзине с радужными макаронами»

«Пара роботов ужинает на фоне Эйфелевой башни»

Мозг на ракете летит к Луне

Ростки в виде текста «Imagen», выходящие из книги сказок

Хотя приведенные выше примеры впечатляют и вполне могут составить конкуренцию фотографиям с фотостоков, но нужно понимать, что это специально отобранные изображения для презентации этой сети. А пока нельзя самостоятельно попробовать генерировать изображения с помощью Imagen, надежно говорить о ее качестве невозможно.

Конечно, ИИ развивается очень быстро, но пока даже у таких топовых сетей как Imagen и даже на эталонных изображениях видны артефакты. А обучить и использовать такую сеть будет стоить гораздо дороже, чем купить изображение на сайте фотостока. А векторные иллюстрации нейросети еще очень долго не смогут генерировать.

Так что, я думаю, еще лет 5 авторам на фотостоках нужно больше бояться конкуренции и снижающихся отчислений, а не нейросетей.

Не забудьте подписаться на наш Telegram канал с актуальными новостями о фотостоках и интересной информацией. Коротко и полезно.

Последнее изменение: 29 мая 2022 в 17:35.