Как рекомендательные системы работают на цифровых платформах?

Мало что так важно для демократии, как свободный поток информации. Если просвещенные граждане необходимы для демократии, как предположил Томас Джефферсон, то гражданам нужен способ быть информированными. Большую часть современной эпохи эту роль играла пресса, и особенно редакторы и продюсеры, которые контролируют, какие новости публиковать и транслировать.

Тем не менее, поскольку поток информации изменился, распространение и потребление новостей все больше смещаются от традиционных средств массовой информации к социальным сетям и цифровым платформам: более четверти американцев теперь получают новости только с YouTube, а более половины - из социальных сетей. Если когда-то редакторы решали, какие статьи должны получить наибольший охват, то сегодня рекомендательные системы определяют, с каким контентом пользователи сталкиваются на онлайн-платформах и какая информация пользуется массовым распространением. В результате рекомендательные системы, лежащие в основе этих платформ, а также рекомендательные алгоритмы и обученные модели, которые они охватывают, приобрели новое значение. Если точная и надежная информация является источником жизненной силы демократии, то рекомендательные системы все чаще служат ее сердцем.

Поскольку рекомендательные системы стали играть центральную роль в обществе, все большее количество ученых документирует потенциальные связи между этими системами и целым рядом вредных последствий — от распространения языка ненависти до иностранной пропаганды и политического экстремизма. Тем не менее, сами модели остаются плохо понятыми как среди общественности, так и среди политических сообществ, которым поручено их регулировать и контролировать. Учитывая их огромную важность и необходимость информированного контроля, эта статья призвана развеять загадку рекомендательных систем, рассмотрев, как они развивались и как работают современные рекомендательные алгоритмы и модели. Цель состоит в том, чтобы предложить исследователям и политикам основу, на основе которой они смогут в конечном итоге принимать обоснованные решения о том, как их контролировать и управлять.

Предположим, вы управляете социальной сетью или цифровой платформой. Каждый раз, когда пользователи открывают ваше приложение, вы хотите показать им привлекательный контент в течение секунды. Как бы вы представили этот контент?

Самый быстрый и эффективный подход — просто отсортировать контент по времени. Поскольку большинство социальных сетей и цифровых платформ имеют большой каталог контента, самый последний или «свежий» контент с большей вероятностью будет интересным, чем контент, нарисованный наугад. Таким образом, хорошим началом будет простое отображение самых последних элементов в обратном хронологическом порядке. В качестве бонуса этот подход прост в реализации и понятен: ваши пользователи всегда будут иметь четкое представление о том, почему они видят определенный фрагмент контента, и точную мысленную модель того, как ведет себя приложение. Хотя индустрия вышла за их рамки, алгоритмы рекомендаций в обратном хронологическом порядке легли в основу первого поколения каналов социальных сетей, и именно поэтому большинство каналов до сих пор известны как «временные шкалы».

Несмотря на свою простоту, каналы с чисто обратной хронологией имеют огромный недостаток: они плохо масштабируются. По мере расширения платформ количество размещаемого на них контента растет в геометрической прогрессии, а свободное время пользователя — нет. Таким образом, последний добавленный контент будет служить все менее и менее эффективным посредником для наиболее привлекательного контента. Хуже того, пользователи, которые хотят создать широкую аудиторию, будут наводнять платформу новым контентом, стремясь оставаться на вершине лент других пользователей. В результате ваше приложение быстро станет ориентированным на самых активных пользователей, а не на самых интересных. Менее интересный контент – или даже откровенный спам – начнет заполонять временные рамки пользователей.

Чтобы решить эту проблему, вы можете создать жестко запрограммированные правила для определения приоритета самого последнего контента. Например, вы можете написать правило, которое гласит: Если Николь лайкает сообщения от Диа больше, чем от любого другого пользователя, тогда покажите последнюю публикацию Николь Диа за сегодня прежде всего. Или вы можете написать правило, которое гласит: если Николь видео нравится больше, чем любой другой вид контента, то Николь следует сначала показать самое последнее добавленное видео от ее друзей, а затем любой другой контент. Смешивая и сопоставляя эти ручные правила, алгоритмы рекомендаций на основе атрибутов и категорий могут более надежно отображать привлекательный контент, чем чисто обратный хронологический канал.