ИИ на службе поиска Adobe Stock

Наткнулся на очень интересную статью о том, как в 2019 году с помощью машинного обучения был доработан поиск на Adobe Stock, который позволил сократить влияние позиции, на которой показывается изображение, на его продажи. Такое изменение позволило значительно обновить топ картинок и сделать его более релевантным и актуальным, а так же дало больше шансов на продажи для новых работ.

Представляю перевод этой статьи.

Использование искусственного интеллекта и машинного обучения для преодоления предвзятости позиции в Adobe Stock Search

Огромный объем продуктов, которые могут быть доступны потенциальному покупателю в любой момент времени, может быть как ключевым преимуществом, так и серьезной проблемой в цифровой торговле. В мире, казалось бы, бесконечного выбора, релевантность поиска и рейтинг играют важную роль в представлении разнообразия доступных продуктов и, в конечном итоге, в том, чтобы клиенты выбирали то, что соответствует их потребностям. Клиенты не часто прокручивают результаты поиска слишком далеко или выходят за пределы первой страницы, чтобы найти то, что они ищут. Это еще более важно для нас на Adobe Stock, нашем рынке онлайн-контента с более чем 160 миллионами файлов, поскольку наш уникальный бизнес заставляет нас думать об актуальности и рейтинге немного иначе, чем типичный бизнес в сфере электронной коммерции.

Начнем с того, что наша бизнес-модель предполагает предложение подписки. Клиенты, которые купили подписку, часто возвращаются для выполнения одних и тех же поисковых запросов с разными конечными целями, поэтому контент, отображаемый в верхней части результатов, не всегда должен оставаться неизменным. Кроме того, мы продаем цифровые, а не физические товары, и клиенты часто делают больше, чем просто используют загруженный контент, не внося изменений. Вместо этого многие надеются найти вдохновение от контента, который они могут изменять для конечных потребностей проекта. Наконец, в мире стокового контента, в отличие от традиционной розничной торговли, популярные товары никогда не заканчиваются. Загруженный и утвержденный контент обычно доступен на длительный срок, что еще более важно для обеспечения того, чтобы  клиенты видели разнообразные результаты.

Исследуя топовую выдачу по каждому запросу в Adobe Stock, мы поняли, что они мало меняются во времени. Мы видели, что одни и те же бестселлеры всегда оставались на вершине. Отсутствие динамизма может повредить опыту обеих сторон нашего рынка. Наши конечные пользователи со временем нуждаются в различных высококачественных изображениях. Со стороны авторов, если их недавно загруженные изображения не могут всплыть в верхних строчках поиска, им становится труднее монетизировать свою работу.
Поэтому для наших пользователей было важно улучшить разнообразие результатов, полученных с помощью поискового алгоритма.

Анализ предвзятости позиции

Мы начали с анализа воздействия позиции на продажи, чтобы понять, почему мы не видим большого разнообразия в наших результатах. В качестве метрики сравнения мы использовали показатель download-through-rate (DTR), который представляет собой число загрузок, нормализованное по количеству показов в каждой позиции. На фотостоке Adobe Stock мы показываем 100 изображений на странице, на следующем графике показан DTR для каждой позиции среди первых нескольких страниц.

Поиск на Adobe Stock

Как видно из графика, DTR экспоненциально уменьшается в зависимости от положения в выдаче. Фактически изображения на первой позиции имели более чем в десять раз больше продаж, чем изображения на тридцатой позиции на первой странице, и около половины всех скачиваний происходило в верхней трети первой страницы. Обратите внимание, что периодические всплески на графике частично вызваны разбиением на страницы (первые позиции на второй страницы дают больше продаж, чем последние позиции на первой странице).

Этот экспоненциальный спад может быть объяснен одной из двух причин:

  1. Предвзятость позиционирования, означающее, что клиенты с большей вероятностью покупают изображения в верхних позициях, чем изображения в нижних позициях, независимо от качества и релевантности изображения.
  2. Изображения в верхних позициях превосходят изображения в нижних позициях с точки зрения актуальности и качества.

Мы полагали, что этот экспоненциальный спад был вызван главным образом первой причиной, поскольку мы обнаружили, что релевантность и качество не сильно различаются в топовых результатах. Чтобы подтвердить эту гипотезу, мы реализовали версию алгоритма Standard EM, описанного в статье «Position Bias Estimation for Unbiased Learning to Rank in Personal Search» от Google. При заданном ключевом запросе этот алгоритм машинного обучения определяет изменение взаимодействия клиента с контентом при отображении одного и того же изображения в разных позициях. Мы запустили его на основе данных о покупках и показах в течение одного года. Предвзятость к положению, определенная алгоритмом EM из поведения покупателя, показана на следующем графике. Как мы видим, если мы показываем одно и то же изображение в более низких позициях для того же запроса, продажи значительно снижаются.

Поиск на Adobe Stock

Как показано на графике, мы обнаружили огромную предвзятость позиционирования на Adobe Stock. Наши клиенты, как правило, скачивают изображения в верхней части результатов с ограниченной прокруткой, что аналогично эффекту, наблюдаемому при веб-поиске, где пользователи с большей вероятностью нажимают на ссылки в верхней части результатов поиска. Однако мы не ожидали такого экспоненциального смещения позиции, потому что люди могут обрабатывать изображения намного быстрее, чем описания веб-страниц. Кроме того, как указывалось в недавней исследовательской работе, люди чаще прокручивают результаты и нажимают на элементы, расположенные на более низких позициях на странице на сайтах электронной коммерции, чем это было для веб-поиска. Другие сходства, которые мы обнаружили в веб-поиске, заключались в том, что наши клиенты с большей вероятностью загрузят 100-е изображение (последнее изображение), чем 95-е изображение на первой странице, и если они перейдут на вторую страницу, они с большей вероятностью приобретут изображение в топе на второй странице, чем нижние результаты на первой странице.

Поэтому мы решили попробовать адаптировать методы ранжирования, используемые для веб-поиска, для алгоритма на нашем фотостоке. Как только мы вычислили смещение позиции, мы удалили его из данных обучения и натренировали беспристрастную модель ранжирования. Подобно подходу, описанному в статье «Unbiased Learning-to-Rank with Biased Feedback», мы использовали метод парного обучения ранжированию и внедрили Inverse Propensity Weighting w.

Мы также добавили в рейтинг новую функцию ранжирования, которая называется беспристрастным DTR. Идея заключалась в том, чтобы нормализовать количество покупок не только по количеству показов, но и по позиции каждого показа. Например, если изображение показывается на первой позиции, мы считаем один показ, а если оно отображается на тридцатой позиции, мы считаем его только одной пятой показа, поскольку склонность к покупке в первой позиции в пять раз больше, чем склонность к покупке на тридцатой позиции.

Новый метод ранжирования, разработанный с использованием методов машинного обучения, помог нам увеличить разнообразие наших результатов по сравнению с предыдущим алгоритмом. Половина результатов нового метода по сравнению со старым отличается на первой странице. Более того, поисковая выдача фотостока кажется намного свежее и динамичнее. Одним интересным обновлением, которое мы заметили, стало отражение в результатах поиска одной из наших визуальных тенденций, которую мы предсказали в 2019 году — Creative Democracy. С бОльшим разнообразием результатов мы видим больше ярких цветов и изменений в контенте, чем мы видели раньше:

До

Хипстер

После

Хипстер

Нашим анализом мы надеемся улучшить разнообразие и трендовость контента, которые вы увидите при использовании Adobe Stock. Мы знаем, что существует запрос от клиентов на то, чтобы быстро находить и использовать оригинальные эффектные изображения в кампаниях электронной коммерции, так же как авторы Adobe Stock заслуживают того, чтобы их работы увидели и купили.

Следите за обновлениями в нашей работе.

Не забудьте подписаться на наш Telegram канал с актуальными новостями о фотостоках и интересной информацией. Коротко и полезно.

Последнее изменение: 21 июня 2020 в 06:00.