В 90-х и начале 2000-х разработчики стремились научить поисковые системы учитывать морфологию русского языка.

2019-10-19 17:20

В 90-х и начале 2000-х разработчики стремились научить поисковые системы учитывать морфологию русского языка. Благодаря морфологии любой пользователь мог уже в 1997-м открыть yandex.ru и найти, например, страницу со словом «яблоки» по запросу «яблоко». То есть необязательно было вводить слова в поисковую строку именно в таком числе и падеже, как на искомой странице.

Чтобы это работало, требовалось адаптировать для компьютера правила из словарей, учебников, корпусов. Ключевым источником для инженеров Яндекса и Google послужил «Грамматический словарь русского языка» Андрея Зализняка, впервые изданный ещё в 1977 году. Он не только лёг в основу поисковых систем, но и определил развитие распознавания и синтеза речи, машинного перевода и других алгоритмов. О том, как Андрей Анатольевич составлял свой словарь, рассказывает Борис Иомдин — кандидат филологических наук, популяризатор лингвистики и преподаватель ШАДа:

В словаре Зализняка содержится полная информация обо всём русском словоизменении — из него можно узнать, как склоняется или спрягается каждое слово.

Словари составляются так: сначала формируется словник — список слов, которые войдут в словарь. Зализняк должен был набрать огромный словник: чем больше слов — тем лучше. И дальше каждое слово просклонять или проспрягать, написать полную схему изменения слова и самое сложное — придумать типы словоизменений, как можно лучше обобщив все правила. Потому что если мы наберем 150 тысяч слов и скажем, что у нас есть 150 тысяч типов склонения или спряжения, это будет неудобно, никто таким словарём пользоваться не будет. Если же будет три склонения и два спряжения, как в школе, этого мало: при внимательном всматривании в русский язык оказывается, что далеко не все слова вписываются в эти типы.

Сейчас мы поступили бы так: взяли список слов и отсортировали в компьютере. А как поступил Зализняк в 70-х? Об этом мы узнали из предисловия ко второму изданию словаря. Он пошел в булочную и взял там четыре лотка для хлеба. В них помещалось по 25 тысяч карточек, всего 100 тысяч, на каждой из которых было написано одно слово и вся его парадигма, все формы. Можно было как угодно тасовать, сортировать и создавать эти самые типы.

Многие словари жили в картотечных шкафах. Представим себе хороший толковый словарь. Там есть словник, значение слов, ссылки на синонимы, грамматическая информация и примеры употребления, которые лингвисты называют иллюстрациями. Например, вам нужно найти пять примеров со словом «кактус». Примеров из литературных произведений, потому что в хорошем словаре должны быть примеры из классической литературы. Как эта задача решалась, когда интернета не было? Составлялся список книг, и дальше книги распределялись на иллюстрации — просто разрезались. Каждое слово наклеивалось на карточку, накапливалось какое-то количество примеров. Ими мы и оперировали.

Телеграм: t.me/ainewsline

Источник: vk.com



		В 90-х и начале 2000-х разработчики стремились научить поисковые системы учитывать морфологию русского языка.
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2019-10-19 17:20 алгоритмы ранжирования В 90-х и начале 2000-х разработчики стремились научить поисковые системы учитывать морфологию русского языка. Благодаря морфологии любой пользователь мог уже в 1997-м открыть yandex.ru и найти, например, страницу со словом «яблоки» по запросу «яблоко». То есть необязательно было вводить слова в поисковую строку именно в таком числе и падеже, как на искомой странице. Чтобы это работало, требовалось адаптировать для компьютера правила из словарей, учебников, корпусов. Ключевым источником для инженеров Яндекса и Google послужил «Грамматический словарь русского языка» Андрея Зализняка, впервые изданный ещё в 1977 году. Он не только лёг в основу поисковых систем, но и определил развитие распознавания и синтеза речи, машинного перевода и других алгоритмов. О том, как Андрей Анатольевич составлял свой словарь, рассказывает Борис Иомдин — кандидат филологических наук, популяризатор лингвистики и преподаватель ШАДа: В словаре Зализняка содержится полная информация обо всём русском словоизменении — из него можно узнать, как склоняется или спрягается каждое слово. Словари составляются так: сначала формируется словник — список слов, которые войдут в словарь. Зализняк должен был набрать огромный словник: чем больше слов — тем лучше. И дальше каждое слово просклонять или проспрягать, написать полную схему изменения слова и самое сложное — придумать типы словоизменений, как можно лучше обобщив все правила. Потому что если мы наберем 150 тысяч слов и скажем, что у нас есть 150 тысяч типов склонения или спряжения, это будет неудобно, никто таким словарём пользоваться не будет. Если же будет три склонения и два спряжения, как в школе, этого мало: при внимательном всматривании в русский язык оказывается, что далеко не все слова вписываются в эти типы. Сейчас мы поступили бы так: взяли список слов и отсортировали в компьютере. А как поступил Зализняк в 70-х? Об этом мы узнали из предисловия ко второму изданию словаря. Он пошел в булочную и взял там четыре лотка для хлеба. В них помещалось по 25 тысяч карточек, всего 100 тысяч, на каждой из которых было написано одно слово и вся его парадигма, все формы. Можно было как угодно тасовать, сортировать и создавать эти самые типы. Многие словари жили в картотечных шкафах. Представим себе хороший толковый словарь. Там есть словник, значение слов, ссылки на синонимы, грамматическая информация и примеры употребления, которые лингвисты называют иллюстрациями. Например, вам нужно найти пять примеров со словом «кактус». Примеров из литературных произведений, потому что в хорошем словаре должны быть примеры из классической литературы. Как эта задача решалась, когда интернета не было? Составлялся список книг, и дальше книги распределялись на иллюстрации — просто разрезались. Каждое слово наклеивалось на карточку, накапливалось какое-то количество примеров. Ими мы и оперировали. Телеграм: t.me/ainewsline Источник: vk.com Комментарии:

В 90-х и начале 2000-х разработчики стремились научить поисковые системы учитывать морфологию русского языка.

Комментарии: