Лекция «Предвзятый и нечестный искусственный интеллект: почему так получается и как это исправить?»

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


По вчерашней встрече с ВК, немного подгорает.

Врятли у меня дойдут руки до статьи или публичного "линча", поэтому напишу тут.

В общем в рамках мероприятия было выступление про умную ленту, вкратце:

- "стоп слова" - миф

- ранжирование по форматам - миф

- качать ядро - миф

Если не слушать детали выступления, а посмотреть слайды или выжимку, то можно понять что именно так всё и есть.

Так-то оно может и так, но на практике совсем иначе. По пунктам:

1. "Нет стоп слов".

Ранжированием постов занимается умная лента, и она принимает решение, исходя из контекста, например, вложенности (текст + медиа) - нет ли в посте запрещенки. Под запрещенкой может быть призыв к накрутке показателей сайта.

Так вот, когда говорят что "стоп слов" нет - подразумевают что нет слова или фразы, которые однозначно принимаются как сигнал к понижению ранжирования.

На практике же, и на наших тестах и на тестах тех, кто пробовал повторить занижение охвата - хватало и одного слова, который был совершенно вне контекста накрутки, чтоб срезать охваты в разы.

Т.е. в теории - да, стоп слова нет, но ИИ и умная лента и все алгоритмы ранжирования постоянно учатся. С переменными успехами или провалами.

Вывод один - при возможности всё таки избегать слов, фраз или оборотов, которые хоть как-то могут намекнуть на призыв к действию. В противном случае - ваш пост может стать причиной того, что алгоритм доучится на частной ситуации, а вы получите меньше охвата.

2. "У форматов нет приоритета".

В теории или на длинной дистанции - это верно. Нет форматов, которые "бустятся" постоянно, да, факт.

Но при этом время от времени, вне зависимости от других факторов - какие-то форматы "взлетают" по охватам. Я предполагаю что это нужно для того чтоб насильно дообучить ИИ и получить данные по действиям пользователей на определенный формат.

Я понимаю что когда в такие моменты мы (админы сообществ) используем это чтоб дополучить охватов - ВК от этого не в восторге.

Кроме того, я всё таки уверен что если формат показывает не очень хорошие для удержания пользователя в соц сети - его будут вручную понижать. Мы для этого проводили замеры в течении года и видим как один формат на несколько месяцев набирал охвата на старте меньше чем другие посты.

Я не против того чтоб какие-то форматы зарезались, но я бы очень хотел про это заранее знать :) Мы же знаем что репосты или посты со ссылками меньше в вк показываются - но всё равно их используем время от времени.

3. "нет смысла качать ядро для того чтоб были охваты"

Тут я просто промолчу и пересмотрю запись отдельно. как-нибудь.

=====

В целом, лично моё мнение - касательно работы умной ленты и алгоритмов ранжирования ребятам из ВК не хватает ... евангелиста что ли.

То есть нет единого места, куда можно прийти спросить или прочитать что именно сейчас происходит.

ТП ВК говорит одно, в статьях ВК другое, на выступлениях в Хакатое или других профильных мероприятиях от ВК - третье.

В таких условиях, работая с привлечением подписчиков в сообщество мы (админы) находимся в подвешенном состоянии и понимаем что завтра правила могут поменяться и наличие подписки никак не гарантирует охвата по ним, а значит есть соблазн сделать что-то чтоб домонетизировать базу прямо сейчас. Например перелить в инсту, залесть в личку спамом или подкрутить лайки под постом.

PS

Прикрепил видео с одного из мероприятий, где от ВК немного было про работу ИИ.

Кейс1 из видео про то, как ИИ "сам" обучается:

есть алгоритм, который по видео и тексту определяет 18+ контент. так получилось что в порно попал хентай, а хентай похож на аниме. поэтому аниме попал в категорию порно. и все паблики, которые пишут про аниме выпали из поиска :)

Кейс2 из видео:

Т.к. много кто пользует порно спам для вывода трафика из ВК, то контент, который часто для этого пользуется - аналогично, попадает в категорию "порно" и убирается из поиска. По этой причине, например, если написать пост, в котором будет слово "азиатка" - он пропадет из поиска :)

Примеры, которые я написал на видео с 18 минуты 25 секунды.

То есть есть ньюансы :) И ВК дообучается, далеко не всегда автоматически - и сообщения в тех поддержку могут помочь.

Вот я считаю - что доносить надо именно вот так, а не просто есть стоп слова или их нет :)

К сожалению понимаю что есть ньюансы и раскрывая больше тайн про алгоритмы - есть соблазн их обходить :)

Комментарии: