Как Яндекс.Новости исключили человеческий фактор

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


В воскресенье, 26 марта, в городах России прошли акции протеста, в которых приняли участие тысячи людей. Сообщения с места событий поступали постоянно, и происходящее можно назвать одной из важных тем дня. Многие посчитали, что Яндекс сознательно убирал новостные сюжеты об акциях протеста из топа Яндекс.Новостей, и обвинили нас в цензуре, не особенно разбираясь в происходящем. Это не так: никакого ручного вмешательства быть не может, работа Яндекс.Новостей по-прежнему полностью подчиняется алгоритмам.

Мы чувствуем необходимость объяснить, как именно выглядел топ новостей в течение 26 марта — и почему. Во-первых, различные новости, связанные с антикоррупционными митингами, были на главной Яндекса. Во-вторых, они периодически исчезали и появлялись снова.

Как формируется топ-5 новостей?

Любая тема, которую освещают СМИ, состоит из отдельных новостей. Алгоритм Яндекс.Новостей объединяет похожие новости в сюжеты. Для большой темы о митингах, прошедших по всей России, было сформировано несколько сюжетов, которые касались самых разных аспектов — от оценки количества участников в Москве до задержаний во Владивостоке. Дальше автоматически оценивается вес каждого сюжета. Для этого используется много факторов — состав источников, плотность потока информации, время публикации сообщений, вес других сюжетов на ту же тему. Сюжеты ранжируются по весу, первые пять попадают на главную страницу Яндекса. Топ обновляется и, соответственно, изменяется — вчера это происходило каждые три-четыре минуты.

Что происходило с новостями про митинги?

В момент начала акции — она стартовала на Дальнем Востоке — событие освещали далеко не все СМИ. В результате в первой половине дня сюжеты формировались лишь из сообщений небольших источников, и некоторое время, примерно до 12:15 по Москве, их общего веса не хватало, чтобы вынести тему в топ-5.

Из-за чего сюжеты о протестах пропадали из топ-5?

На это могли влиять другие темы. Несколько раз в течение дня появлялись популярные сюжеты. Например, про Евровидение или помощника депутата, а в Москве — про весенний фестиваль. Их вес был больше, чем вес сюжетов про акции протеста. Более того, в некоторых случаях вес мог быть завышен — в Яндекс.Новостях существует недобросовестная оптимизация, аналогичная поисковой, и мы с ней боремся.

При этом, разумеется, сами новости о митинге никуда не исчезали — они оставались в Яндекс.Новостях и корректно находились поиском.

Может, вы стали как-то по-другому считать вес? Раньше такого не было.

Нет, принципы подсчёта не изменились. Изменился состав источников. В связи с принятием закона о новостных агрегаторах Яндекс.Новости с января 2017 года могут показывать на главной странице, в сюжетах и в тематических рубриках только материалы СМИ, зарегистрированных в Роскомнадзоре. Поэтому количество источников по сравнению с прошлым годом сократилось — это также влияет на вес сюжетов. И если о гололёде в Москве вчера написали практически все городские источники, то о протестах только те, кто решил об этом писать. В таком случае у двух разных сюжетов оказываются неравные шансы на выход в топ.

А вам не кажется, что вес сюжетов о митингах был недостаточен, если они пропадали из топа?

Кажется. Мы признаём, что вчера Яндекс.Новости отставали от картины дня. Скорее всего, дело в том, что алгоритм кластеризации, который склеивает новости в сюжеты, а сюжеты — в темы, не всегда мог объединять в одну тему, например, сообщения о задержаниях во Владивостоке и об аресте Навального в Москве. Иными словами, временами агрегатор мог рассматривать одну большую, сложную и географически обширную тему про протесты как несколько разных тем, что, в свою очередь, могло повлиять на качество работы сервиса. Точно так же алгоритм срабатывает, когда есть много новостей про ДТП с разными людьми в разных городах. Он полагает, что это разные события, и не объединяет их в общий сюжет.

Пока неточная работа алгоритма кластеризации — всего лишь гипотеза; мы по-прежнему разбираемся, как 26 марта сообщения в Яндекс.Новостях собирались в сюжеты и в темы. Если ошибки и правда были, мы будем на них учиться. Однако ситуация в целом непростая — мы агрегатор, и искусственно поднимать ту или иную тему в условиях молчания крупных СМИ, очевидно, не можем.


Источник: yandex.ru

Комментарии: