Одним из простых алгоритмов порождения текста является Марковская цепь

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Одним из простых алгоритмов порождения текста является Марковская цепь. Метод можно строго формализовать в терминах теории вероятностей, но нам достаточно самой сути.

Возьмём какое-нибудь небольшое число — например, 3 — и крупное собрание текстов. С их помощью мы будем генерировать какие-то высказывания.

На каждом шаге мы берём последние три слова уже построенной фразы и ищем их в корпусе текстов — подряд, в той же очерёдности. Если обнаружилось несколько совпадений, одно включение выбирается случайным образом. Нас интересует слово, следующее за найденной тройкой: его мы присовокупим к строящейся фразе. Затем операция повторяется, но поиск ведётся по новой тройке слов.

Начинать процесс можно с последовательности любых трёх слов из собрания текстов; заканчивать — с концом предложения.

***

Вот простой пример. Пусть наш корпус текстов — немного Тютчева, немного Тургенева.

0. Возьмём случайную тройку слов: «люблю грозу в»;

1. «Люблю грозу в» — находим фразу «люблю грозу в начале мая», добавляем слово «начале»;

2. «грозу в начале» — снова стих «люблю грозу в начале мая», прибавляем «мая»;

3. «в начале мая» — обнаруживаем тургеневскую строку «письмо я получил в конце марта; а в начале мая пришло другое», которая даёт глагол «пришло»;

4. «начале мая пришло» — тот же самый Тургенев завершает фразу словом «другое».

Мы построили новую уникальную фразу: «люблю грозу в начале мая пришло другое».

***

Вот какие впечатляющие лингвистические факты выработала марковская модель, обученная на филолобайках:

* В белорусском, польском, чешском, болгарском [л] стоит перед [р]. Но в латынь эти слова попали ещё тогда, когда это не было великой социальной проблемой.

* Отец, Сын и Святой дух — это примерно как рода в русском языке.

* Антуан Исаак барон Сильвестр де Саси получил в 1801 году копию надписи с камня и понял, что очень уж хочется делиться увлекательными языковыми фактами с друзьями.

* Праславянский язык, предок всех славянских языков, который тоже можно посмотреть и послушать из любой точки земного шара.

* Пираха было непонятно, что такое Московская и Ленинградская (Петербургская) школы и что они из себя представляют.

* Язык жуцъоан — один из официальных языков Евросоюза тоже.

* В Лаврентьевской летописи пишут, что тот или иной язык «занесён в книгу рекордов Гиннесса как самый сложный в мире».

* Слово «шмазик» мужского рода, т.к. чаще всего их носителями были именно мужчины: учитель, врач, профессор.

* Мы привыкли, что корень — это какой-то ужас.

* Вот, например, столица Гаити Порт-о-Пренс; Португалия — «portus cale». Что это дало лингвистике? Новую прикольную теорию — генеративную лингвистику.

* Современное геймерское «ливать» со значением «выходить» тут ни при чём, оно не образовано суффиксально от «мир». У него есть название «ильм». Это всё изучается в школе.

* Вестимо, это одно и то же слово, только первое заимствовано из итальянского, второе — с русским дубляжом не самого высокого качества.

* Август 1948 года запомнился заседанием Всесоюзной академии сельскохозяйственных наук, где сторонники «мичуринской агробиологии» во главе с Вильгельмом Завоевателем захватили Англию.

Комментарии: