Что делать, если вы родились слишком поздно, чтобы создавать языки программирования, но слишком рано, чтобы развивать искусственный интеллект?

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2020-08-30 17:15

it новости

Что делать, если вы родились слишком поздно, чтобы создавать языки программирования, но слишком рано, чтобы развивать искусственный интеллект? Вдохновляться примером Татьяны Шавриной, выпуск ОТиПЛ 2016.

— В тот год, когда я поступала, у нас в ходу была шуточка: “Ты родился слишком поздно, чтобы создавать языки программирования, ты родился слишком рано, чтобы развивать искусственный интеллект”. С этой мыслью я начала потихоньку работать с 1-го курса: переводила в Нацкорпусе PDF советских журналов в html. В тот момент казалось, что работа в сфере айти недостижимо далека, и при этом столь же и скучна. ИИ ведь не получится.

На первом курсе больше всего хотела изучать древние языки: ходила на спецкурс по санскриту, грабару, потом еще были, конечно, старослав и латынь. Потом французский, армянский, финский — про языки не могу думать иначе как про фрукты на шведском столе университета.

Введение в специальность же меня просто поглотило. Огромное влияние научных руководителей — В.А.Плунгяна, В.И.Беликова, А.А.Сорокина — вдохновляло во всем разобраться и все разобрать. В лингвистике практически все темы мне интересны: нейролингвистика, психолингвистика, глоттохронология, формальная семантика — в этом плане, я, наверное, довольно поверхностный специалист, зато очень широкоповерхностный. (На работе меня часто спрашивают об этимологии слова/фамилии — у меня возникает 2-3 версии, обычно неправильные.) Да, работа!

Со второго курса я стала работать в проекте Генерального Интернет-Корпуса русского языка — подбирать ресурсы для скачивания, фильтровать материалы, проводить статистические эксперименты, строить модели классификации текстов и т.д. Совмещение работы и учебы в принципе помогало достаточно сильно — где-то чисто психологически (благодаря ОТиПЛу стало ясно, что я не безнадежна в программировании), а где-то и практически (подтягиваются навыки, закрепляются знания и быстрое принятие решений).

Уже во время магистратуры в Школе Лингвистики ВШЭ я дополнительно прошла годовую программу на ФКН по практическому машинному обучению.

Тогда же пришла идея собрать свой собственный корпус, чтобы он был открытый, объемный и полный разнообразной разметки под задачи ML — так получился корпус “Тайга”, открытый корпус для машинного обучения.

После первого года магистратуры я пошла работать на полный день, то есть 60 часов в неделю, как оказалось потом. Прототипировала NLP-инструментарий на питоне в компании 1С, а вечером ехала в магистратуру. Но инженерная наука дается легко, если хоть раз изучал системы правил генеративной грамматики :)

Сейчас я лидер команды исследований и разработки в NLP в Сбербанке, офис Chief Data Science: в команде работают как выпускники школы лингвистики, так и МФТИ, МехМат МГУ, а еще есть писатель. Мы занимаемся большими нейросетевыми моделями — трансформерами, универсальными языковыми моделями. Их интерпретация и построение на их основе более сложных и развитых интеллектуальных систем — сложная задача. Так, например, задача понимания естественного языка (Natural Language Understanding) неотрывна от моделирования механизмов мышления, и создавать инструментарий для оценки языковых моделей приходится с опорой на логику, синтаксис, семантику.

Достаточно долгое время технологии обработки языка (NLP) практически не интересовались фундаментальными проблемами языка (отсюда и известные всем цитаты). Сейчас мы вплотную подошли к рубежу, когда продвижение вперед приносит мультидисциплинарное знание — лингвистика, нейронауки, психология.

Я бы сказала, что cамая большая задача для современного NLP — стать обратно инструментом познания. (Так это уже было с появлением корпусной лингвистики.)

Инженерия — это хорошо, но то, что мы можем узнать из универсальных, многоязычных моделей языка, потенциально более важно.

Поступление на ОТиПЛ было определенно самым дорогим решением в жизни — три года перед этим были подчинены стремлению попасть туда, + 4 года бакалавриата на кафедре, + вся жизнь после ОТиПЛа никогда не будет прежней :)

Мой блог:https://tatianashavrina.github.io/

Хабр:https://habr.com/ru/users/rybolos/posts/

Russian SuperGLUE
http://russiansuperglue.com

Корпуса:

Omnia Russica https://omnia-russica.github.io

Taiga (a lot of trees) https://tatianashavrina.github.io/taiga_site/


Источник: tatianashavrina.github.io

Комментарии: