Проект по анализу использования языка людьми в интернете закрылся, потому что нейросети слишком загрязнили данные

2024-09-26 12:09

компьютерная лингвистика, угроза искусственного интеллекта

Робин Спир, создательница проекта Wordfreq по анализу использования языка людьми в интернете, объявила о его закрытии. По её словам, нейросети слишком сильно загрязнили данные, из-за чего анализ стал невозможен.

Wordfreq — это программа, которая отслеживала, как люди используют более 40 различных языков, анализируя статьи в «Википедии», субтитры к фильмам и передачам, новости, книги и посты в соцсетях, таких как Twitter и Reddit. Система предназначена для оценки меняющихся языковых привычек, сленга и популярной культуры. На странице проекта на GitHub Робин Спир написала, что проект «больше не будет обновляться».

«Генеративный ИИ загрязнил данные. Я не думаю, что у кого-то после 2021 года есть надёжная информация об использовании языка людьми», — написала она.

Спир напоминает, что веб-скрейпинг был важной частью источников данных для проекта, но «теперь весь интернет полон мусора, сгенерированного большими языковыми моделями, который написан никем и ничего не сообщает. Включение этого мусора в данные искажает сведения о частотности употребления слов». В качестве примера она привела то, как ChatGPT злоупотребляет словом «вникать», что резко повысило частоту использования этого конкретного слова, хотя на самом деле люди не стали употреблять его чаще.

Автор проекта признаёт, что в данных для Wordfreq всегда был спам, однако «он был управляемым и часто идентифицируемым». Теперь же большие языковые модели «генерируют текст, который маскируется под настоящий язык, хотя его нет, и всплывают повсюду». Спир добавила, что проект Wordfreq был связан с обработкой естественного языка, но это направление теперь подчинено разработке LLM и генеративного ИИ:

«Область, которую я знаю как “обработка естественного языка”, изменилась. Она вся поглощена генеративным ИИ. Другие методы тоже существуют, но генеративный ИИ высасывает весь воздух в комнате и получает все деньги. Редко можно увидеть исследование в области NLP, которое не зависело бы от закрытых данных, контролируемых OpenAI и Google, двумя компаниями, которых я и так презираю».

Спир также подчёркивает тот факт, что данные веб-скрейпинга стало сложнее добывать, поскольку такие платформы, как Twitter и Reddit, начали взимать плату за доступ к своим API. Спир завершила своё сообщение, сказав, что больше не хочет иметь ничего общего с этой отраслью.

«Я не хочу работать над чем-то, что можно было бы спутать с генеративным ИИ или что могло бы принести ему пользу. OpenAI и Google могут собирать свои собственные чёртовы данные. Надеюсь, им придётся заплатить за это очень высокую цену, и они будут проклинать тот беспорядок, который сами же и устроили».

Источник: habr.com



		Проект по анализу использования языка людьми в интернете закрылся, потому что нейросети слишком загрязнили данные
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2024-09-26 12:09 компьютерная лингвистика, угроза искусственного интеллекта Робин Спир, создательница проекта Wordfreq по анализу использования языка людьми в интернете, объявила о его закрытии. По её словам, нейросети слишком сильно загрязнили данные, из-за чего анализ стал невозможен. Wordfreq — это программа, которая отслеживала, как люди используют более 40 различных языков, анализируя статьи в «Википедии», субтитры к фильмам и передачам, новости, книги и посты в соцсетях, таких как Twitter и Reddit. Система предназначена для оценки меняющихся языковых привычек, сленга и популярной культуры. На странице проекта на GitHub Робин Спир написала, что проект «больше не будет обновляться». «Генеративный ИИ загрязнил данные. Я не думаю, что у кого-то после 2021 года есть надёжная информация об использовании языка людьми», — написала она. Спир напоминает, что веб-скрейпинг был важной частью источников данных для проекта, но «теперь весь интернет полон мусора, сгенерированного большими языковыми моделями, который написан никем и ничего не сообщает. Включение этого мусора в данные искажает сведения о частотности употребления слов». В качестве примера она привела то, как ChatGPT злоупотребляет словом «вникать», что резко повысило частоту использования этого конкретного слова, хотя на самом деле люди не стали употреблять его чаще. Автор проекта признаёт, что в данных для Wordfreq всегда был спам, однако «он был управляемым и часто идентифицируемым». Теперь же большие языковые модели «генерируют текст, который маскируется под настоящий язык, хотя его нет, и всплывают повсюду». Спир добавила, что проект Wordfreq был связан с обработкой естественного языка, но это направление теперь подчинено разработке LLM и генеративного ИИ: «Область, которую я знаю как “обработка естественного языка”, изменилась. Она вся поглощена генеративным ИИ. Другие методы тоже существуют, но генеративный ИИ высасывает весь воздух в комнате и получает все деньги. Редко можно увидеть исследование в области NLP, которое не зависело бы от закрытых данных, контролируемых OpenAI и Google, двумя компаниями, которых я и так презираю». Спир также подчёркивает тот факт, что данные веб-скрейпинга стало сложнее добывать, поскольку такие платформы, как Twitter и Reddit, начали взимать плату за доступ к своим API. Спир завершила своё сообщение, сказав, что больше не хочет иметь ничего общего с этой отраслью. «Я не хочу работать над чем-то, что можно было бы спутать с генеративным ИИ или что могло бы принести ему пользу. OpenAI и Google могут собирать свои собственные чёртовы данные. Надеюсь, им придётся заплатить за это очень высокую цену, и они будут проклинать тот беспорядок, который сами же и устроили». Источник: habr.com Комментарии:

Проект по анализу использования языка людьми в интернете закрылся, потому что нейросети слишком загрязнили данные

Комментарии: