Здесь могло бы быть два абзаца нытья о несправедливости судьбы и о том, какая ужасная тема мне выпала для заметки |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2026-01-18 11:59 Здесь могло бы быть два абзаца нытья о несправедливости судьбы и о том, какая ужасная тема мне выпала для заметки... Но дедлайн уже сгорел, мои нервы вслед за ним, так что вступления не будет, поехали без прелюдий. В 2013 году в модном американском журнале PNAS вышла оч знаменательная статья (про которую, конечно же, из нас мало кто слышал) - «Automated reconstruction of ancient languages using probabilistic models of sound change». Если вы ничего не поняли, то на простом человеческом цель сего исследования звучала примерно: «вот бы нам восстанавливать формы древних слов, не склоняясь над пыльными архивами с карандашиками, а как-нибудь автоматически». Спонтанные желания в 3 часа ночи выглядят именно так. Для таких же чайников как автор, нужно выдать немного матчасти: чего там они собрались восстанавливать? - Древние языки. Причем те, на которых уже не просто не говорят, а которые в принципе не засвидетельствованы. Зачем? Ну, примерно с той же мотивацией пытаются воскресить мамонтов. Это же п р и к о л ь н о огромный вклад в науку и чрезвычайная важность для исследования процесса эволюции языков/существ! Как это делают? – Собственно так же, как и в биологии. Дело в том, что согласно современным представлениям наши языки эволюционировали от общих предков, словно множество копий одного и того же текста, где каждую копию переписывали с “типовыми ошибками” - мутациями. Иллюстративно (только иллюстративно) мы имеем мировое языковое древо с листьями в виде современных языков, и промежуточными узлами - протоязыками, которых мы не слышали и не записали. Ну а где-то наверху, очевидно есть общий дед-язык, потерянный нами во время строительства одной очень большой башни. Так вот, волшебники-лингвисты давно умеют по упомянутым «типовыми ошибкам» вручную воскрешать эти промежуточные протоязыки. Медленным сравнительным методом, они изучают тонны слов из двух и более современных языков, выявляют закономерности мутаций, проверяют эти закономерности и в конечном счете формируют слова протоязыка. Одна только проблемка у этой магии – в больших семьях, где анализировать приходится десятки или сотни языков, данных становится настолько много, что ручной метод начинает упираться в обидный факт конечности человеческой жизни. Только лингвисты сказали свое мечтательное «вот бы нам автоматизировать…», как откуда-то появились математики, набросились на свежую задачку и протащили свои излюбленные инструменты в гуманитарную область. Вообще, попомните мои слова: математика – как таракан - пугающе вездесущая наука, выползает, где не ждешь. «И пришли они, и облекли все в цифры». Слова, разбитые на последовательности звуков - фонем, превратились в строки символов, над каждым из которых установили правила мутаций (как сложение или деление в математике): замена звука, вставка и выпадение звука. Эту идею авторы честно позаимствовали из вычислительной биологии. Когда биологи восстанавливают предковые последовательности ДНК, они тоже имеют дело со “строками”, которые эволюция постоянно редактирует заменами, вставками и удалениями. Вся дальнейшая сложность заключалась в определении наиболее правдоподобного сценария появления изменений, ведь складывать и умножать все фонемы подряд неразумно. Нужно понять, какая мутация была наиболее вероятна на данном этапе. В ручном методе это очень часто работает на опыте лингвиста «не, ну так развиваться было бы тупо, так что отвечаю, было вот так» (конечно, все не настолько примитивно, но я вам что, лингвист, чтобы пояснять за "регулярные звуковые соответствия"?). А вот если мы подряжаем на вычислительную работу компьютер, он как раз будет сидеть и перебирать миллиарды тупых вариантов протоязыков, наравне и с тем истинным, который мы ищем. В итоге, мы бы имели обезьянок, печатающих Шекспира. Поэтому помимо оцифрования фонем и назначения правил действий с ними, так же задали вероятности того, как “строка-слово” могли превращаться из поколения в поколение вдоль ветвей дерева, а лишние абсурдные ветви языка заранее отрезались методом Монте-Карло и программа не тратила время на них (не спрашивайте, пожалуйста, про метод Монте-Карло, я туда не полезу). В общем-то, все. Что у ребят c этой програмкой получилось сделать: авторы статьи применили систему к 637 австронезийским языкам (а чем больше потомков учитывается, тем потенциально точнее выхлоп). Затем машинный результат сравнили с ручной реконструкцией специалиста Роберта Бласта – легендарного дядьки в своих кругах, который полвека занимался полевой лингвистикой и преподавал на Гавайях. Есть такой термин «расстояние Левенштейна» — сколько замен/вставок/удалений нужно, чтобы превратить один вариант в другой, так вот более 85% машинных реконструкций оказались “в пределах одного символа” от ручной. Круто? Круто. А теперь, что это все вообще значит. Короче (как вы поняли, нифига короче у меня не получилось), у лингвистов появился хороший, удобный софт для быстрого получения статистической картины возможных протоязыков. Считай, CAE-шка для гуманитариев. Причем, в финале авторы очень трезво поставили предохранитель от техно-пафоса: без шарящего лингвиста программа так же топорна, как какие-нибудь ансисы без шарящего инженера. Эксперт всё равно нужен — хотя бы потому, что реальные языки постоянно контактируют, заимствуют слова, выравнивают формы “по аналогии” и вообще ведут себя не как идеальное дерево. Так что математика - эт круто, конечно, но она есть инструмент. Помимо ускорения сравнительного анализа и облегчения работы ученых, автоматическая реконструкция дала способ количественно затестить старую лингвогипотезу. Почему одни звуки меняются охотнее, а другие держатся веками? Обычно это демонстрируют на “гипотезе функциональной нагрузки” (functional load), впервые предложенной в 1955 году. Ее идея в том, что звуки, которые сильнее помогают различать слова, должны реже “схлопываться” или меняться. Так вот в качестве бонуса, в статье сказано, что их реконструкции дают убедительную поддержку этой гипотезе. Но об этом как-нибудь в другой раз (то есть никогда, ребят, сорян). Где-то здесь я выполнил свой долг Тайного Санты. Но есть еще одна мысль, которую хочется как-нибудь аккуратно ввернуть. Почему вообще лингвисты смогли представить звуковые изменения как “моделируемую” штуку? Ведь по сути это просто строгая алгоритмизация уже существующей схемы сравнительного метода, который кто-то когда-то догадался применить в языках. И этот кто-то - Уильям Джонс. В 1786 году сэр Уильям Джонс (юрист вообще-то, а востоковед в качестве хобби) в речи для Азиатского общества сформулировал свою знаменитую мысль о родстве санскрита, греческого и латинского. Да так удачно, что её потом цитировали веками: ни один филолог не сможет изучить их “не поверив”, что они “sprung from some common source, which, perhaps, no longer exists”. Может быть, сама идея родства языков и не принадлежит Джонсу (даже скорее всего так), но с его популярного доклада начинается официальная эра сравнительного языкознания, когда пошла робкая, но верная математизация лингвистики, обрастание этой науки метриками и закономерностями, которые привели впоследствии (через много всяких разных других гипотез и инструментов) к тому, что реализовали авторы статьи 2013 года. А знаете, че самое смешное? Отец сэра Уильяма Джонса, которого звали внезапно - УИЛЬЯМ ДЖОНС – этот тот математик, который тусил с Ньютоном и Галлеем и вообще-то ввел обозначение для числа пи, того символа, что мы привыкли видеть в учебниках. Повлиял ли отец на мышление сына? Мне кажется, что что-то было. P.S. Я говорил, они как тараканы… Причем, пока я не полез в тырнеты, я вообще думал, что это все один и тот же человек. P.P.S. В недельной смерти автора вините моего затейника с волшебной темой по типу «древняя фонетика и численное моделирование» Источник: vk.com Комментарии: |
|