Утекшие данные раскрыли китайскую AI-машину цензуры: Технические подробности

2025-03-27 17:35

В сеть утекли данные, раскрывающие детали разработки в Китае AI-системы для автоматической цензуры контента, признанного "чувствительным" китайским правительством. Утекшая база данных, изученная TechCrunch, содержит 133 000 примеров контента, использованных для обучения этой системы.

Технические детали AI-цензора:

* Обучение на "чувствительном" контенте: Система на базе Large Language Model (LLM) обучается на примерах, включающих жалобы на бедность в сельской местности, новости о коррупции чиновников КПК, и призывы о помощи от предпринимателей, столкнувшихся с вымогательством полиции.

* Цель системы: Автоматическая фильтрация и маркировка контента, "неугодного" китайскому правительству. Предполагаемое основное применение - цензура китайских граждан в сети, но возможно и использование для улучшения цензурных возможностей китайских AI-моделей.

* Преимущества перед традиционной цензурой: В отличие от ручной фильтрации по ключевым словам, AI позволяет значительно повысить эффективность и "гранулярность" контроля информации, выявляя даже скрытые формы "инакомыслия", включая "политическую сатиру" и исторические аналогии, критикующие текущую власть.

* Приоритетные темы для цензуры: Социально-политические темы, способные вызвать общественное недовольство:

** Скандалы, связанные с загрязнением окружающей среды и безопасностью продуктов питания.

** Финансовое мошенничество.

** Трудовые споры.

** "Политическая сатира" и критика "текущих политических деятелей" (даже через исторические аллюзии).

** "Тайваньская политика".

** Военные вопросы: передвижения войск, учения, вооружения.

* Обнаружение "мягкой" оппозиции: Система нацелена на выявление даже неявного несогласия, например, анекдотов, иллюстрирующих "мимолетность власти" через идиому "когда дерево падает, обезьяны разбегаются" (китайская поговорка).

* Упоминания "Тайваня": Слово "Тайвань" (??) упоминается в обучающих данных более 15 000 раз, что подчеркивает фокус на тайваньской тематике.

* Предназначение для "работы с общественным мнением": Датасет помечен как предназначенный для "public opinion work", что указывает на его связь с китайскими государственными органами, вероятно, с Cyberspace Administration of China (CAC), отвечающей за цензуру и пропаганду в интернете.

Утечка данных подтверждает тенденцию использования AI для усиления репрессивных мер. Ранее OpenAI сообщала об использовании китайскими структурами LLM для мониторинга антиправительственных постов и дискредитации китайских диссидентов. В отличие от простых алгоритмов блокировки по ключевым словам, AI позволяет осуществлять более тонкую и масштабную цензуру, постоянно совершенствуясь по мере обучения на новых данных.

-—

Вот это я понимаю, "полный цикл" контроля! ?\_(?)_/?

Источник: vk.com

Утекшие данные раскрыли китайскую AI-машину цензуры: Технические подробности

Комментарии: