В 90-х и начале 2000-х разработчики стремились научить поисковые системы учитывать морфологию русского языка. |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2019-10-19 17:20 В 90-х и начале 2000-х разработчики стремились научить поисковые системы учитывать морфологию русского языка. Благодаря морфологии любой пользователь мог уже в 1997-м открыть yandex.ru и найти, например, страницу со словом «яблоки» по запросу «яблоко». То есть необязательно было вводить слова в поисковую строку именно в таком числе и падеже, как на искомой странице. Чтобы это работало, требовалось адаптировать для компьютера правила из словарей, учебников, корпусов. Ключевым источником для инженеров Яндекса и Google послужил «Грамматический словарь русского языка» Андрея Зализняка, впервые изданный ещё в 1977 году. Он не только лёг в основу поисковых систем, но и определил развитие распознавания и синтеза речи, машинного перевода и других алгоритмов. О том, как Андрей Анатольевич составлял свой словарь, рассказывает Борис Иомдин — кандидат филологических наук, популяризатор лингвистики и преподаватель ШАДа: В словаре Зализняка содержится полная информация обо всём русском словоизменении — из него можно узнать, как склоняется или спрягается каждое слово. Словари составляются так: сначала формируется словник — список слов, которые войдут в словарь. Зализняк должен был набрать огромный словник: чем больше слов — тем лучше. И дальше каждое слово просклонять или проспрягать, написать полную схему изменения слова и самое сложное — придумать типы словоизменений, как можно лучше обобщив все правила. Потому что если мы наберем 150 тысяч слов и скажем, что у нас есть 150 тысяч типов склонения или спряжения, это будет неудобно, никто таким словарём пользоваться не будет. Если же будет три склонения и два спряжения, как в школе, этого мало: при внимательном всматривании в русский язык оказывается, что далеко не все слова вписываются в эти типы. Сейчас мы поступили бы так: взяли список слов и отсортировали в компьютере. А как поступил Зализняк в 70-х? Об этом мы узнали из предисловия ко второму изданию словаря. Он пошел в булочную и взял там четыре лотка для хлеба. В них помещалось по 25 тысяч карточек, всего 100 тысяч, на каждой из которых было написано одно слово и вся его парадигма, все формы. Можно было как угодно тасовать, сортировать и создавать эти самые типы. Многие словари жили в картотечных шкафах. Представим себе хороший толковый словарь. Там есть словник, значение слов, ссылки на синонимы, грамматическая информация и примеры употребления, которые лингвисты называют иллюстрациями. Например, вам нужно найти пять примеров со словом «кактус». Примеров из литературных произведений, потому что в хорошем словаре должны быть примеры из классической литературы. Как эта задача решалась, когда интернета не было? Составлялся список книг, и дальше книги распределялись на иллюстрации — просто разрезались. Каждое слово наклеивалось на карточку, накапливалось какое-то количество примеров. Ими мы и оперировали. Комментарии: |
|