Шесть проектов молодых исследователей получили финансовую поддержку

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2020-06-26 18:26

наука

В марте 2020 года Центр академического развития студентов ВШЭ провел конкурс, по итогам которого шесть проектов молодых исследователей получили финансовую поддержку. Рассказываем, что происходит с проектами сегодня.

Как вы начали работать в проекте?

Кирилл Семёнов, выпускник школы лингвистики ФГН ВШЭ, координатор проекта: Старшие члены академического сообщества привели меня в этот корпус, когда я был на первом курсе. Тогда корпус был очень маленьким. У меня не было абсолютно никакого опыта в этой сфере, корпус долго подвисал, им никто не занимался, но постепенно собралась достаточно большая компания активных людей. В течение последнего года мы прикладываем много усилий к тому, чтобы развивать корпус. Наша команда – в разное время от 15 до 40 человек – на 90% состоит из студентов. Она условно делится на две группы: это китаисты и программисты. Одним не обязательно знать компетенции других.

Изначально наш проект – это часть проекта, который называется Национальный корпус русского языка (НКРЯ) и который развивается уже лет двадцать совместными стараниями сотрудников Института русского языка РАН и множества других вузов. Идея же создать русско-китайский корпус внутри НКРЯ появилась лет пять назад и курировалась сотрудниками Института русского языка РАН и РГГУ. Сейчас русско-китайский параллельный корпус продолжает тесно сотрудничать с НКРЯ, но имеет собственную программу развития. Люди, которые руководят отделением лингвистики в Вышке, напрямую связаны с создателями корпуса. Они всегда стараются приглашать молодую кровь и подмечать людей, которым интересны китайский язык и компьютерная лингвистика или конкретные части корпусного проекта.

Юлия Кузнецова, студентка отделения теоретической и прикладной лингвистики филологического факультета МГУ: Сейчас я получаю второе высшее образование. По первому я китаист. В проект меня привел Владимир Александрович Плунгян – популяризатор корпусной лингвистики, один из создателей Национального корпуса русского языка. Он читал у нас лекции по введению в специальность и опрашивал новопоступивших студентов, как их занесло на лингвистику. Он узнал, что я неплохо знаю китайский, и посчитал, что я могу быть полезна в проекте русско-китайского корпуса. Проект интересен мне ещё и в корыстных целях: я заканчиваю курсовую работу с использованием данных из корпуса, потому что сейчас он такого размера, который точно позволяет написать курсовую.

Софья Дурнева, выпускница школы лингвистики ФГН ВШЭ: Я учила китайский в школе с пятого класса. В 2016-ом году, когда я была на втором курсе, меня пригласила поучаствовать в проекте, насколько я помню, Екатерина Владимировна Рахилина, руководитель школы лингвистики. Изначально моей задачей было заниматься выравниванием текстов наравне с другими участниками проекта. Тогда мы делали всё вручную и нас было очень мало.

Анастасия Зыбковец, студентка программы «Иностранные языки и межкультурная коммуникация» ВШЭ: Моя обязанность – заниматься SMM. Китайский я знаю пока не на очень высоком уровне, я учу его всего три года, поэтому решила сейчас заниматься соцсетями. Но изучение языка и культуры помогает мне принять решение, какие новости лучше постить.

Почему вы решили подать заявку на конкурс инициативных проектов?

Кирилл: Чтобы сделать что-то действительно значимое для науки и образования, необходима как информационная, так и финансовая поддержка. У нас было несколько попыток эту поддержку получить – в частности, через государственные гранты типа РФФИ (Российский фонд фундаментальных исследовании? – прим.). Наши попытки не увенчались успехом. Проблема была в том, что в подобных системах не очень жалуют молодых ученых и тем более студентов, у которых нет публикаций.

Уже будучи близкими к отчаянию, мы с помощью наших преподавателей набрели на конкурс инициативных проектов. Мы практически заскочили в уходящий поезд, но успели подать свою заявку и выиграли.

На что нужны деньги?

Кирилл: Финансовая поддержка нужна разносторонняя. Это и разработка и поддержание разного программного обеспечения, например, автоматических выравнивателей, которые облегчают жизнь нашим разметчикам, и оплата хранилища на Яндекс.Диске, на котором будут лежать наши тексты.

Анастасия: Еще на рекламу. Первый раз, когда я поняла, что срочно необходимо финансирование, – когда мы работали над логотипом. Это звучит как что-то не столь важное, но это не так: если у тебя есть логотип, тебя узнают, тебя видят, тебя запоминают. Первые финансовые вопросы со стороны продвижения были связаны с дизайнером, который делал нам логотип. Сейчас идёт активная работа над созданием наших страниц в социальных сетях, в дальнейшем мы планируем заниматься их продвижением. Редко бывает так, что кто-то по дружбе и бесплатно репостит записи на стене сообщества, особенно крупные паблики, а как раз они нам и нужны: в них больше людей, которых мы можем заинтересовать.

Юлия: К сожалению, пока в научном мире бесплатное распространение публикаций не актуально, нам нужны деньги на их приобретение. Сейчас мы купили доступ к некоторым статьям из китайской научной базы данных CNKI. Эти статьи нам нужны для того, чтобы понять, как китайское научное сообщество смотрит на корпусную лингвистику, построение корпусов и технические вопросы обработки текстов.

Кому нужны корпуса?

Кирилл: Параллельный корпус – это набор текстов с их переводами на какой-то другой язык – в нашем случае, русские тексты с переводом на китайский и наоборот. Но это не просто большая онлайн-библиотека. Тексты обработаны. Во-первых, они выровнены: каждому предложению на русском языке дан перевод на китайский и наоборот. Во-вторых, они размечены: каждому слову присвоены его грамматические признаки, толкование и так далее. Таким образом, в корпусе можно сделать более хитрый поиск по словам и выражениям, нежели просто в Гугле. В корпусе мы можем задать поиск по сочетаемости какого-нибудь конкретного существительного с любым глаголом или любым прилагательным. Например, с какими прилагательными сочетается слово «отличник»? Какие самые частые существительные, встречающиеся со словом «вопреки»?

Такие корпуса нужны, во-первых, переводчикам, потому что с их помощью легче всего найти информацию о сочетаемости слов. Во-вторых, они нужны изучающим иностранный язык и людям, которые его преподают. Корпусное преподавание иностранного языка, особенно английского, уже довольно распространено. Например, Британский Совет (организация, развивающая сотрудничество в области образования, культуры и искусства между Великобританией и другими странами – прим.ред.) разрабатывает методику подготовки к экзаменам FCE (First Certificate in English – прим.ред.) на основе корпусов английского языка.

Параллельные корпуса полезны и программистам. Это ресурсы, которые они могут использовать в качестве баз данных и обучать онлайн-переводчики, например, Google Translate или Яндекс.Переводчик и другие системы автоматической обработки естественного языка.

Как технически происходит работа над корпусом?

Юлия: Для того, чтобы на основе корпуса можно было проводить хоть сколько-нибудь серьёзные исследования, считается, что в нём должно быть от миллиона словоупотреблений и больше. Для хорошего корпуса их должно быть десять или несколько десятков миллионов. Это наши перспективы на будущее.

Наш корпус содержит только художественную литературу. Отчасти это русская литература, переведённая на китайский, отчасти – китайская, переведённая на русский.

Мы стараемся найти переводчиков или издательства, которые могут нам дать тексты, но они, конечно, не параллельны. Сделать их параллельными и выровнять так, чтобы всем предложениям была назначена пара на русском и на китайском – это уже наша задача.

Мы получаем тексты в совершенно сыром, необработанном виде, и дальше занимаемся выравниванием с использованием специальных приложений. Есть программы, которые позволяют устанавливать соответствия между парами предложений. Единственная проблема в том, что работают они не идеально, поэтому без ручной обработки обойтись не получается. Всё равно нужен человек, который будет смотреть на результаты работы программы и поправлять их при необходимости.

Кирилл: Сейчас мы уже добили объём нашего корпуса до полутора миллионов, и это позволяет нам говорить о том, что мы уже сколько-нибудь стоящий инструмент для исследований.

Повлиял ли карантин на вашу работу?

Кирилл: Мы никогда так успешно не собирались для того, чтобы обсуждать какие-то проблемы. В этом плане Zoom и телеграм-беседы, конечно, рулят. А главный осложняющий фактор, который тормозит любую работу, – это сессии, которые регулярно выпадают почти каждому из нас. А в этом году так получилось, что многие ключевые участники нашего проекта писали дипломы. Поэтому всё было несколько приторможено. Но сейчас, когда всё закончилось, мы можем снова наращивать интенсивность.

Ваш идеальный корпус – какой он?

Кирилл: Первая плоскость – это научная корректность, а вторая – это удобство интерфейса и известность. С точки зрения научной корректности, мы ориентируемся на Национальный корпус русского языка, который является одним из самых лучших и больших корпусов в России. А с точки зрения удобства, интерфейса и известности мы считаем ориентиром Reverso Context. Он называется онлайн-словарем, хотя это чистой воды параллельный корпус. Он пригодится, если ты учишь любой из основных европейских языков. Это очень доступный, удобный, приятный корпусный инструмент, дружелюбный для людей, которые не учились четыре года теоретической лингвистике.

Бонус: ресурсы для изучения китайского языка

  1. Русско-китайский параллельный корпус.
  2. Chinese Pod – платный, но качественный ресурс с видео, аудио и текстами.
  3. BKRS – русско-китайский и китайско-русский онлайн-словарь.
  4. Train Chinese – игра для тренировки правильной последовательности написания иероглифов.
  5. Chinese class 101 – приложение, нацеленное на разговорный китайский язык.
  6. Daily easy Chinese news – приложение с текстами новостей, распределенными на шесть уровней владения языком, по которым китаисты сдают HSK – главный экзамен на знание китайского языка для тех, кто не является его носителем. Слова статьи, которые не соответствуют выбранному уровню, подписаны, чтобы можно было понять текст и пополнить свой словарный запас.
  7. Ознакомиться со списком исследовательских работ о Русско-китайском параллельном корпусе НКРЯ можно здесь.

Источник: m.vk.com

Комментарии: