Лекция «Предвзятый и нечестный искусственный интеллект: почему так получается и как это исправить?»

2019-08-14 17:45

кибер безопасность, изучение социальных сетей, искусственный интеллект

По вчерашней встрече с ВК, немного подгорает.

Врятли у меня дойдут руки до статьи или публичного "линча", поэтому напишу тут.

В общем в рамках мероприятия было выступление про умную ленту, вкратце:

- "стоп слова" - миф

- ранжирование по форматам - миф

- качать ядро - миф

Если не слушать детали выступления, а посмотреть слайды или выжимку, то можно понять что именно так всё и есть.

Так-то оно может и так, но на практике совсем иначе. По пунктам:

1. "Нет стоп слов".

Ранжированием постов занимается умная лента, и она принимает решение, исходя из контекста, например, вложенности (текст + медиа) - нет ли в посте запрещенки. Под запрещенкой может быть призыв к накрутке показателей сайта.

Так вот, когда говорят что "стоп слов" нет - подразумевают что нет слова или фразы, которые однозначно принимаются как сигнал к понижению ранжирования.

На практике же, и на наших тестах и на тестах тех, кто пробовал повторить занижение охвата - хватало и одного слова, который был совершенно вне контекста накрутки, чтоб срезать охваты в разы.

Т.е. в теории - да, стоп слова нет, но ИИ и умная лента и все алгоритмы ранжирования постоянно учатся. С переменными успехами или провалами.

Вывод один - при возможности всё таки избегать слов, фраз или оборотов, которые хоть как-то могут намекнуть на призыв к действию. В противном случае - ваш пост может стать причиной того, что алгоритм доучится на частной ситуации, а вы получите меньше охвата.

2. "У форматов нет приоритета".

В теории или на длинной дистанции - это верно. Нет форматов, которые "бустятся" постоянно, да, факт.

Но при этом время от времени, вне зависимости от других факторов - какие-то форматы "взлетают" по охватам. Я предполагаю что это нужно для того чтоб насильно дообучить ИИ и получить данные по действиям пользователей на определенный формат.

Я понимаю что когда в такие моменты мы (админы сообществ) используем это чтоб дополучить охватов - ВК от этого не в восторге.

Кроме того, я всё таки уверен что если формат показывает не очень хорошие для удержания пользователя в соц сети - его будут вручную понижать. Мы для этого проводили замеры в течении года и видим как один формат на несколько месяцев набирал охвата на старте меньше чем другие посты.

Я не против того чтоб какие-то форматы зарезались, но я бы очень хотел про это заранее знать :) Мы же знаем что репосты или посты со ссылками меньше в вк показываются - но всё равно их используем время от времени.

3. "нет смысла качать ядро для того чтоб были охваты"

Тут я просто промолчу и пересмотрю запись отдельно. как-нибудь.

=====

В целом, лично моё мнение - касательно работы умной ленты и алгоритмов ранжирования ребятам из ВК не хватает ... евангелиста что ли.

То есть нет единого места, куда можно прийти спросить или прочитать что именно сейчас происходит.

ТП ВК говорит одно, в статьях ВК другое, на выступлениях в Хакатое или других профильных мероприятиях от ВК - третье.

В таких условиях, работая с привлечением подписчиков в сообщество мы (админы) находимся в подвешенном состоянии и понимаем что завтра правила могут поменяться и наличие подписки никак не гарантирует охвата по ним, а значит есть соблазн сделать что-то чтоб домонетизировать базу прямо сейчас. Например перелить в инсту, залесть в личку спамом или подкрутить лайки под постом.

Прикрепил видео с одного из мероприятий, где от ВК немного было про работу ИИ.

Кейс1 из видео про то, как ИИ "сам" обучается:

есть алгоритм, который по видео и тексту определяет 18+ контент. так получилось что в порно попал хентай, а хентай похож на аниме. поэтому аниме попал в категорию порно. и все паблики, которые пишут про аниме выпали из поиска :)

Кейс2 из видео:

Т.к. много кто пользует порно спам для вывода трафика из ВК, то контент, который часто для этого пользуется - аналогично, попадает в категорию "порно" и убирается из поиска. По этой причине, например, если написать пост, в котором будет слово "азиатка" - он пропадет из поиска :)

Примеры, которые я написал на видео с 18 минуты 25 секунды.

То есть есть ньюансы :) И ВК дообучается, далеко не всегда автоматически - и сообщения в тех поддержку могут помочь.

Вот я считаю - что доносить надо именно вот так, а не просто есть стоп слова или их нет :)

К сожалению понимаю что есть ньюансы и раскрывая больше тайн про алгоритмы - есть соблазн их обходить :)

Телеграм: t.me/ainewsline

Источник: vk.com



		Лекция «Предвзятый и нечестный искусственный интеллект: почему так получается и как это исправить?»
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2019-08-14 17:45 кибер безопасность, изучение социальных сетей, искусственный интеллект По вчерашней встрече с ВК, немного подгорает. Врятли у меня дойдут руки до статьи или публичного "линча", поэтому напишу тут. В общем в рамках мероприятия было выступление про умную ленту, вкратце: - "стоп слова" - миф - ранжирование по форматам - миф - качать ядро - миф Если не слушать детали выступления, а посмотреть слайды или выжимку, то можно понять что именно так всё и есть. Так-то оно может и так, но на практике совсем иначе. По пунктам: 1. "Нет стоп слов". Ранжированием постов занимается умная лента, и она принимает решение, исходя из контекста, например, вложенности (текст + медиа) - нет ли в посте запрещенки. Под запрещенкой может быть призыв к накрутке показателей сайта. Так вот, когда говорят что "стоп слов" нет - подразумевают что нет слова или фразы, которые однозначно принимаются как сигнал к понижению ранжирования. На практике же, и на наших тестах и на тестах тех, кто пробовал повторить занижение охвата - хватало и одного слова, который был совершенно вне контекста накрутки, чтоб срезать охваты в разы. Т.е. в теории - да, стоп слова нет, но ИИ и умная лента и все алгоритмы ранжирования постоянно учатся. С переменными успехами или провалами. Вывод один - при возможности всё таки избегать слов, фраз или оборотов, которые хоть как-то могут намекнуть на призыв к действию. В противном случае - ваш пост может стать причиной того, что алгоритм доучится на частной ситуации, а вы получите меньше охвата. 2. "У форматов нет приоритета". В теории или на длинной дистанции - это верно. Нет форматов, которые "бустятся" постоянно, да, факт. Но при этом время от времени, вне зависимости от других факторов - какие-то форматы "взлетают" по охватам. Я предполагаю что это нужно для того чтоб насильно дообучить ИИ и получить данные по действиям пользователей на определенный формат. Я понимаю что когда в такие моменты мы (админы сообществ) используем это чтоб дополучить охватов - ВК от этого не в восторге. Кроме того, я всё таки уверен что если формат показывает не очень хорошие для удержания пользователя в соц сети - его будут вручную понижать. Мы для этого проводили замеры в течении года и видим как один формат на несколько месяцев набирал охвата на старте меньше чем другие посты. Я не против того чтоб какие-то форматы зарезались, но я бы очень хотел про это заранее знать :) Мы же знаем что репосты или посты со ссылками меньше в вк показываются - но всё равно их используем время от времени. 3. "нет смысла качать ядро для того чтоб были охваты" Тут я просто промолчу и пересмотрю запись отдельно. как-нибудь. ===== В целом, лично моё мнение - касательно работы умной ленты и алгоритмов ранжирования ребятам из ВК не хватает ... евангелиста что ли. То есть нет единого места, куда можно прийти спросить или прочитать что именно сейчас происходит. ТП ВК говорит одно, в статьях ВК другое, на выступлениях в Хакатое или других профильных мероприятиях от ВК - третье. В таких условиях, работая с привлечением подписчиков в сообщество мы (админы) находимся в подвешенном состоянии и понимаем что завтра правила могут поменяться и наличие подписки никак не гарантирует охвата по ним, а значит есть соблазн сделать что-то чтоб домонетизировать базу прямо сейчас. Например перелить в инсту, залесть в личку спамом или подкрутить лайки под постом. PS Прикрепил видео с одного из мероприятий, где от ВК немного было про работу ИИ. Кейс1 из видео про то, как ИИ "сам" обучается: есть алгоритм, который по видео и тексту определяет 18+ контент. так получилось что в порно попал хентай, а хентай похож на аниме. поэтому аниме попал в категорию порно. и все паблики, которые пишут про аниме выпали из поиска :) Кейс2 из видео: Т.к. много кто пользует порно спам для вывода трафика из ВК, то контент, который часто для этого пользуется - аналогично, попадает в категорию "порно" и убирается из поиска. По этой причине, например, если написать пост, в котором будет слово "азиатка" - он пропадет из поиска :) Примеры, которые я написал на видео с 18 минуты 25 секунды. То есть есть ньюансы :) И ВК дообучается, далеко не всегда автоматически - и сообщения в тех поддержку могут помочь. Вот я считаю - что доносить надо именно вот так, а не просто есть стоп слова или их нет :) К сожалению понимаю что есть ньюансы и раскрывая больше тайн про алгоритмы - есть соблазн их обходить :) Телеграм: t.me/ainewsline Источник: vk.com Комментарии:

Лекция «Предвзятый и нечестный искусственный интеллект: почему так получается и как это исправить?»

Комментарии: