Морфология: Памяти А. А. Зализняка. Часть IV |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2020-08-07 20:00 Всего двадцать лет назад по запросу «как расчесать длинношерстную собаку» поисковые алгоритмы могли не выдать вам нужной статьи: они просто не понимали, что «собаку» и «собака» это одно и то же слово в разных падежах. Чтобы поисковый алгоритм понимал такие запросы, он должен уметь приводить слова к начальной форме — нормализовывать. После нормализации наш запрос выглядит так: «как расчесывать длинношерстный собака». Нормализация нужна для корректной работы поисковых машин, онлайн-переводчиков и других сервисов, использующих в работе распознавание речи. Работая с нормализованными словами, поисковый алгоритм сможет показать нам все статьи, в которых упоминаются разные сочетания этих слов, а онлайн-переводчик может перевести каждое слово по отдельности, образовывать грамматические формы для каждого из них по правилам другого языка и заново собрать из этих слов предложение. Чтобы уметь автоматически нормализовывать слова на любом языке, поисковый алгоритм должен понимать, по каким правилам и законам работает его морфологическая система. Описание морфологии русского языка с его сложными правилами и большим количеством исключений представлялось трудным и совсем не быстрым делом. Поисковики, умеющие обрабатывать русскоязычные запросы, а также навигаторы, голосовые команды и онлайн-переводчики, работающие с русским языком, появились бы на несколько лет позже, если бы не «Грамматический словарь русского языка» А.А. Зализняка. Словарь Зализняка — первое полное описание грамматических форм русского языка, по которому для каждого слова можно построить все его словоформы. Уточним основные термины: Слово — единица языка и словаря, служащая для выражения отдельного понятия (корова) До появления компьютеров и поисковых систем А.А. Зализняк придумал классификацию для ста тысяч русских русских слов — систему, которая позволяла построить парадигму любого слова на основании его исходной словоформы и небольшого количества дополнительных сведений. Например, при помощи грамматического словаря можно проверить, как спрягается глагол опостылеть и склоняется слово дитя. Классификация Зализняка основана на системе индексов, распределяющей все слова русского языка на несколько групп. Индекс каждого слова состоит из цифры и буквы. Цифра индекса 1 — слова с основой на твёрдый согласный (твёрдый, топор, тусклый, комод ) Буква индекса a — ударение всегда на основу (парад, мама, платежный) Работа над словарем длилась 13 лет. А.А. Зализняк на бумажных карточках вручную составил морфологические описания каждого слова русского языка. Первое издание словаря было в 1977 году. В предисловии к четвертому изданию «Грамматического словаря» Зализняк писал: «Нынешним молодым читателям уже трудно представить себе, что эта работа делалась вручную. „Это же немыслимый абсурд — делать такую работу без компьютера“, — доводилось мне слышать. В действительности рабочим инструментом были четыре хлебных лотка, раздобытых в соседней булочной; в каждый входило по 25 тысяч карточек из тонкой бумаги». «Грамматический словарь» Зализняка вскоре стал незаменим для появляющихся компьютерных программ, а особенно — для поисковых алгоритмов. На нем основано автоматическое порождение всех словоизменительных форм в русском интернете. Его концепция используется для описания большинства русских слов в Викисловаре и в компьютерной морфологии Яндекса. Основываясь на словаре Зализняка, Яндекс может не только корректно склонять и спрягать русские слова, но и строить гипотезы о том, как будет изменяться любое незнакомое системе слово. Для таких неизвестных слов — неологизмов, заимствований и т. д. — создается гипотетическая словарная статья, соотносящая слово с разными словарными типами, описанными у Зализняка, и определяющая его словообразовательную модель. Например, если в русском языке приживется английский глагол «to Meghan Markle» — меганмарклить, т.е. уходить от тех, кто тебя не ценит, Яндекс поймет, что это новое слово похоже на слова, имеющие в словаре Зализняка тип спряжения 4а — куролесить, множить — и будет спрягать его по этой же модели (меганмарклил, меганмарклю, буду меганмарклить). Так же работает и языковое чутье автора трека «я крокодил, крокожу и буду крокодить». В этом тексте множество раз содержится неизвестный русскому языку глагол-неологизм «крокодить», спрягаемый, по Зализняку, по тому же самому типу 4а: «Я крокодил, крокожу и буду крокодить Ни нейросети, ни другие механизмы машинного обучения пока не могут описать морфологическую систему естественного языка. Чтобы справиться с этой задачей, им обязательно нужно на что-то опираться. Например, на сто тысяч карточек и на одного человека, приблизившего нас к привычному миру с поисковиком, навигатором и переводчиком. Ксения Костомарова Источники
Источник: m.vk.com Комментарии: |
|