Что делать, если вы родились слишком поздно, чтобы создавать языки программирования, но слишком рано, чтобы развивать искусственный интеллект?

2020-08-30 17:15

Что делать, если вы родились слишком поздно, чтобы создавать языки программирования, но слишком рано, чтобы развивать искусственный интеллект? Вдохновляться примером Татьяны Шавриной, выпуск ОТиПЛ 2016.

— В тот год, когда я поступала, у нас в ходу была шуточка: “Ты родился слишком поздно, чтобы создавать языки программирования, ты родился слишком рано, чтобы развивать искусственный интеллект”. С этой мыслью я начала потихоньку работать с 1-го курса: переводила в Нацкорпусе PDF советских журналов в html. В тот момент казалось, что работа в сфере айти недостижимо далека, и при этом столь же и скучна. ИИ ведь не получится.

На первом курсе больше всего хотела изучать древние языки: ходила на спецкурс по санскриту, грабару, потом еще были, конечно, старослав и латынь. Потом французский, армянский, финский — про языки не могу думать иначе как про фрукты на шведском столе университета.

Введение в специальность же меня просто поглотило. Огромное влияние научных руководителей — В.А.Плунгяна, В.И.Беликова, А.А.Сорокина — вдохновляло во всем разобраться и все разобрать. В лингвистике практически все темы мне интересны: нейролингвистика, психолингвистика, глоттохронология, формальная семантика — в этом плане, я, наверное, довольно поверхностный специалист, зато очень широкоповерхностный. (На работе меня часто спрашивают об этимологии слова/фамилии — у меня возникает 2-3 версии, обычно неправильные.) Да, работа!

Со второго курса я стала работать в проекте Генерального Интернет-Корпуса русского языка — подбирать ресурсы для скачивания, фильтровать материалы, проводить статистические эксперименты, строить модели классификации текстов и т.д. Совмещение работы и учебы в принципе помогало достаточно сильно — где-то чисто психологически (благодаря ОТиПЛу стало ясно, что я не безнадежна в программировании), а где-то и практически (подтягиваются навыки, закрепляются знания и быстрое принятие решений).

Уже во время магистратуры в Школе Лингвистики ВШЭ я дополнительно прошла годовую программу на ФКН по практическому машинному обучению.

Тогда же пришла идея собрать свой собственный корпус, чтобы он был открытый, объемный и полный разнообразной разметки под задачи ML — так получился корпус “Тайга”, открытый корпус для машинного обучения.

После первого года магистратуры я пошла работать на полный день, то есть 60 часов в неделю, как оказалось потом. Прототипировала NLP-инструментарий на питоне в компании 1С, а вечером ехала в магистратуру. Но инженерная наука дается легко, если хоть раз изучал системы правил генеративной грамматики :)

Сейчас я лидер команды исследований и разработки в NLP в Сбербанке, офис Chief Data Science: в команде работают как выпускники школы лингвистики, так и МФТИ, МехМат МГУ, а еще есть писатель. Мы занимаемся большими нейросетевыми моделями — трансформерами, универсальными языковыми моделями. Их интерпретация и построение на их основе более сложных и развитых интеллектуальных систем — сложная задача. Так, например, задача понимания естественного языка (Natural Language Understanding) неотрывна от моделирования механизмов мышления, и создавать инструментарий для оценки языковых моделей приходится с опорой на логику, синтаксис, семантику.

Достаточно долгое время технологии обработки языка (NLP) практически не интересовались фундаментальными проблемами языка (отсюда и известные всем цитаты). Сейчас мы вплотную подошли к рубежу, когда продвижение вперед приносит мультидисциплинарное знание — лингвистика, нейронауки, психология.

Я бы сказала, что cамая большая задача для современного NLP — стать обратно инструментом познания. (Так это уже было с появлением корпусной лингвистики.)

Инженерия — это хорошо, но то, что мы можем узнать из универсальных, многоязычных моделей языка, потенциально более важно.

Поступление на ОТиПЛ было определенно самым дорогим решением в жизни — три года перед этим были подчинены стремлению попасть туда, + 4 года бакалавриата на кафедре, + вся жизнь после ОТиПЛа никогда не будет прежней :)

Мой блог:https://tatianashavrina.github.io/

Хабр:https://habr.com/ru/users/rybolos/posts/

Russian SuperGLUE
http://russiansuperglue.com

Корпуса:

Omnia Russica https://omnia-russica.github.io

Taiga (a lot of trees) https://tatianashavrina.github.io/taiga_site/

Источник: tatianashavrina.github.io

Что делать, если вы родились слишком поздно, чтобы создавать языки программирования, но слишком рано, чтобы развивать искусственный интеллект?

Комментарии: