В середине XX века лингвисты думали, что раскрыли код человеческой речи! |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-10-13 19:22 В середине XX века лингвисты думали, что раскрыли код человеческой речи! Сегодня — история обманчивого закона в науке о языке. Представьте: вы читаете какой-то текст. Самое частое слово встречается вдвое чаще второго, втрое чаще третьего… и так далее. Звучит, как настоящее статистическое чудо, которое десятилетиями будоражило умы лингвистов, физиков и даже философов. Хотя первые наблюдения этой закономерности были сделаны ещё в 1908 году французским стенографистом Жаном-Батистом Эсту, широкую известность она получила благодаря американскому лингвисту Джорджу Кингсли Ципфу. В середине XX века он систематически исследовал частотные распределения слов в больших текстах и показал: если упорядочить все слова по убыванию частоты их употребления и присвоить каждому ранг (1 — самое частое, 2 — следующее и т.д.), то относительная частота слова с рангом r приблизительно обратно пропорциональна этому рангу: P(r) = C / r, где P(r) — относительная частота слова, а C — константа, которая зависит от языка (для английского языка около 0.1). Эта зависимость и вошла в науку как "закон Ципфа". Эта закономерность проявляется не только в английском, но и во многих других естественных языках, что долгое время воспринималось как свидетельство некоего фундаментального принципа, лежащего в основе языковой структуры. Ципф предположил, что такая закономерность возникает из-за принципа наименьших усилий: говорящий стремится использовать как можно меньше разных слов, а слушающий — чтобы слова были максимально различимы. Однако в 1992 году Вентян Ли показал, что закон Ципфа возникает даже в полностью случайных текстах! Li, Wentian (1992). "Random Texts Exhibit Zipf's-Law-Like Word Frequency Distribution". IEEE Transactions on Information Theory. 38 (6): 1842–1845. Представим, что мы генерируем последовательность символов, выбирая каждый символ независимо из алфавита из M букв и одного символа-пробела. Слова — это любые цепочки букв между пробелами. В таком тексте: Все слова длины L встречаются с одинаковой вероятностью, которая экспоненциально убывает с ростом L. А количество возможных слов длины L экспоненциально растет (M?). Неравенство M/(M ? 1) · (M^(L?1) ? 1) < r(L) ? M/(M ? 1) · (M^L ? 1) описывает связь между длиной слова L и его рангом r(L). Чем длиннее слово, тем сильнее «растягивается» шкала рангов, поскольку количество возможных слов экспоненциально растёт с длиной. Для английского алфавита (M = 26 букв) это даёт ? ? 1.01. Работа Вентяна Ли - это важный урок: не всякая статистическая закономерность указывает на сложную структуру. Иногда она возникает из-за особенностей представления данных — в данном случае из-за перехода от длины слова к его рангу. Это не делает закон Ципфа бесполезным, но заставляет быть осторожнее в интерпретации: его наличие само по себе не доказывает существование скрытых законов языка. Кстати его работа - не единственный контрпример. Идея, что степенные законы могут возникать в случайных процессах, была известна и раньше (например, в работах Мандельброта). Не смотря на то, что для выполнения закона Ципфа не нужен смысл текста, он все равно оказался весьма полезным на практике! Например, он успешно применяется для сжатия текстов: алгоритмы, такие как код Хаффмана, используют частотные характеристики слов — и закон Ципфа помогает оценить, какие слова стоит кодировать короче. Также его используют при построении моделей машинного обучения, где часто учитывают частоту слов. Знание о том, что распределение подчиняется степенному закону, помогает корректно нормировать данные. Кроме того, значительные отклонения от закона Ципфа могут сигнализировать о необычной структуре текста — например, об ограниченной лексике, шифровании или генерации по упрощённым правилам. Источник: vk.com Комментарии: |
|