В 90-х и начале 2000-х разработчики стремились научить поисковые системы учитывать морфологию русского языка.

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости

Новостная лента форума ailab.ru


В 90-х и начале 2000-х разработчики стремились научить поисковые системы учитывать морфологию русского языка. Благодаря морфологии любой пользователь мог уже в 1997-м открыть yandex.ru и найти, например, страницу со словом «яблоки» по запросу «яблоко». То есть необязательно было вводить слова в поисковую строку именно в таком числе и падеже, как на искомой странице.

Чтобы это работало, требовалось адаптировать для компьютера правила из словарей, учебников, корпусов. Ключевым источником для инженеров Яндекса и Google послужил «Грамматический словарь русского языка» Андрея Зализняка, впервые изданный ещё в 1977 году. Он не только лёг в основу поисковых систем, но и определил развитие распознавания и синтеза речи, машинного перевода и других алгоритмов. О том, как Андрей Анатольевич составлял свой словарь, рассказывает Борис Иомдин — кандидат филологических наук, популяризатор лингвистики и преподаватель ШАДа:

В словаре Зализняка содержится полная информация обо всём русском словоизменении — из него можно узнать, как склоняется или спрягается каждое слово.

Словари составляются так: сначала формируется словник — список слов, которые войдут в словарь. Зализняк должен был набрать огромный словник: чем больше слов — тем лучше. И дальше каждое слово просклонять или проспрягать, написать полную схему изменения слова и самое сложное — придумать типы словоизменений, как можно лучше обобщив все правила. Потому что если мы наберем 150 тысяч слов и скажем, что у нас есть 150 тысяч типов склонения или спряжения, это будет неудобно, никто таким словарём пользоваться не будет. Если же будет три склонения и два спряжения, как в школе, этого мало: при внимательном всматривании в русский язык оказывается, что далеко не все слова вписываются в эти типы.

Сейчас мы поступили бы так: взяли список слов и отсортировали в компьютере. А как поступил Зализняк в 70-х? Об этом мы узнали из предисловия ко второму изданию словаря. Он пошел в булочную и взял там четыре лотка для хлеба. В них помещалось по 25 тысяч карточек, всего 100 тысяч, на каждой из которых было написано одно слово и вся его парадигма, все формы. Можно было как угодно тасовать, сортировать и создавать эти самые типы.

Многие словари жили в картотечных шкафах. Представим себе хороший толковый словарь. Там есть словник, значение слов, ссылки на синонимы, грамматическая информация и примеры употребления, которые лингвисты называют иллюстрациями. Например, вам нужно найти пять примеров со словом «кактус». Примеров из литературных произведений, потому что в хорошем словаре должны быть примеры из классической литературы. Как эта задача решалась, когда интернета не было? Составлялся список книг, и дальше книги распределялись на иллюстрации — просто разрезались. Каждое слово наклеивалось на карточку, накапливалось какое-то количество примеров. Ими мы и оперировали.

Комментарии: