Лекция «Предвзятый и нечестный искусственный интеллект: почему так получается и как это исправить?» |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2019-08-14 17:45 кибер безопасность, изучение социальных сетей, искусственный интеллект По вчерашней встрече с ВК, немного подгорает. Врятли у меня дойдут руки до статьи или публичного "линча", поэтому напишу тут. В общем в рамках мероприятия было выступление про умную ленту, вкратце: - "стоп слова" - миф - ранжирование по форматам - миф - качать ядро - миф Если не слушать детали выступления, а посмотреть слайды или выжимку, то можно понять что именно так всё и есть. Так-то оно может и так, но на практике совсем иначе. По пунктам: 1. "Нет стоп слов". Ранжированием постов занимается умная лента, и она принимает решение, исходя из контекста, например, вложенности (текст + медиа) - нет ли в посте запрещенки. Под запрещенкой может быть призыв к накрутке показателей сайта. Так вот, когда говорят что "стоп слов" нет - подразумевают что нет слова или фразы, которые однозначно принимаются как сигнал к понижению ранжирования. На практике же, и на наших тестах и на тестах тех, кто пробовал повторить занижение охвата - хватало и одного слова, который был совершенно вне контекста накрутки, чтоб срезать охваты в разы. Т.е. в теории - да, стоп слова нет, но ИИ и умная лента и все алгоритмы ранжирования постоянно учатся. С переменными успехами или провалами. Вывод один - при возможности всё таки избегать слов, фраз или оборотов, которые хоть как-то могут намекнуть на призыв к действию. В противном случае - ваш пост может стать причиной того, что алгоритм доучится на частной ситуации, а вы получите меньше охвата. 2. "У форматов нет приоритета". В теории или на длинной дистанции - это верно. Нет форматов, которые "бустятся" постоянно, да, факт. Но при этом время от времени, вне зависимости от других факторов - какие-то форматы "взлетают" по охватам. Я предполагаю что это нужно для того чтоб насильно дообучить ИИ и получить данные по действиям пользователей на определенный формат. Я понимаю что когда в такие моменты мы (админы сообществ) используем это чтоб дополучить охватов - ВК от этого не в восторге. Кроме того, я всё таки уверен что если формат показывает не очень хорошие для удержания пользователя в соц сети - его будут вручную понижать. Мы для этого проводили замеры в течении года и видим как один формат на несколько месяцев набирал охвата на старте меньше чем другие посты. Я не против того чтоб какие-то форматы зарезались, но я бы очень хотел про это заранее знать :) Мы же знаем что репосты или посты со ссылками меньше в вк показываются - но всё равно их используем время от времени. 3. "нет смысла качать ядро для того чтоб были охваты" Тут я просто промолчу и пересмотрю запись отдельно. как-нибудь. ===== В целом, лично моё мнение - касательно работы умной ленты и алгоритмов ранжирования ребятам из ВК не хватает ... евангелиста что ли. То есть нет единого места, куда можно прийти спросить или прочитать что именно сейчас происходит. ТП ВК говорит одно, в статьях ВК другое, на выступлениях в Хакатое или других профильных мероприятиях от ВК - третье. В таких условиях, работая с привлечением подписчиков в сообщество мы (админы) находимся в подвешенном состоянии и понимаем что завтра правила могут поменяться и наличие подписки никак не гарантирует охвата по ним, а значит есть соблазн сделать что-то чтоб домонетизировать базу прямо сейчас. Например перелить в инсту, залесть в личку спамом или подкрутить лайки под постом. PS Прикрепил видео с одного из мероприятий, где от ВК немного было про работу ИИ. Кейс1 из видео про то, как ИИ "сам" обучается: есть алгоритм, который по видео и тексту определяет 18+ контент. так получилось что в порно попал хентай, а хентай похож на аниме. поэтому аниме попал в категорию порно. и все паблики, которые пишут про аниме выпали из поиска :) Кейс2 из видео: Т.к. много кто пользует порно спам для вывода трафика из ВК, то контент, который часто для этого пользуется - аналогично, попадает в категорию "порно" и убирается из поиска. По этой причине, например, если написать пост, в котором будет слово "азиатка" - он пропадет из поиска :) Примеры, которые я написал на видео с 18 минуты 25 секунды. То есть есть ньюансы :) И ВК дообучается, далеко не всегда автоматически - и сообщения в тех поддержку могут помочь. Вот я считаю - что доносить надо именно вот так, а не просто есть стоп слова или их нет :) К сожалению понимаю что есть ньюансы и раскрывая больше тайн про алгоритмы - есть соблазн их обходить :) Комментарии: |
|