Проблема ИИ в лингвистике

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Перспективы ИИ видятся очень интересными в лингвистике - большинство из нас регулярно пользуется Google-переводчиком и множество умов работают над его совершенствованием и созданием универсальных алгоритмов для устной и письменной речи.

Иногда предполагают, что ИИ в переводе достигнет уровня человека и даже превзойдёт его. Очень интересный вопрос. Для внятного ответа на него надо условно разделить все тексты на две категории. Тексты первого разряда, назовём их “конкретные”, подразумевают точную связь написанных слов со смыслом. Например в предложениях “человек сел в автомобиль” или “яблоко упало с дерева”- всё предельно понятно и алгоритмы не ошибутся в подборе эквивалента на другом языке. В чём критерий успешности? За каждым словом стоит чётко выделимое и однозначное понятие. Лучше сказать даже иначе - каждый упомянутый объект, действие и их соотношения можно чётко разделить.

А теперь вторая категория текстов. Назовём их “абстрактные”. Пример - отрывок песни Кипелова Ломоносова:

Сбери свои все силы ныне,
Мужайся, стой и дай ответ.
Где был ты, как я в стройном чине
Прекрасный сей устроил свет

Если попробовать перевести его с Google translate, окажется, что алгоритм не понимает что “как” может значит “когда”, что “свет” здесь надо переводить как “мир”, и просто не знает слова “сбери”.

Казалось бы просто не доработали алгоритмы? Всё несколько хуже. Алгоритмы, которые не допустили первых двух ошибок представить ещё можно, хотя задача выглядит на практике почти нереализуемой из-за огромной вариативности контекста и отсутствия иных входных данных. Архаичная лексика таким проектам почти не интересна. Также будет и с любыми формами слов, которые применяются в поэзии и “игнорируют” школьную орфографию. Итог по этим текста будет чуть дальше, сначала переводческая иерархия ценностей (которая полностью перевёрнута в голове посредственных переводчиков):

  1. Понимать смысл переводимого текста.
  2. Владеть языком на который переводишь.
  3. Владеть языком, с которого переводишь.

Алгоритмы условно справляются со второй и третьей задачей, а вот первая полностью за гранью их оперирования. Смыслами оперирует только человек. Перевод, для самого сложного примера, поэтического текста, это именно передача смысла, заложенного автором, в выражениях понятных носителю итогового языка и культуры. Самое важное, эти смыслы, а значит и эти тексты, - абстрактны, и могут быть поняты, а значит и переданы, даже не каждым человеком. Для примера можно посмотреть на подборки переводов Шекспира от разных русских поэтов.

Сначала надо именно понять, а потом изложить так чтобы поняли другие, и чем выше мастерство переводчика, тем меньше буквально виден в переводе оригинальный текст и тем точнее передан смысл. Исходный текст может говорить о природе и подразумевать чувства, говорить о судьбе человека и подразумевать его волю. Это полностью неуловимо для машин. Таким образом абстрактные тексты машине заведомо не подвластны, на выходе будет просто корявый набор слов, за которым можно угадать оригинальную идею, а можно не угадать.

Даже не говоря о машинах, уверен, многие сталкивались с ситуацией при чтении посредственных переводов, например, с английского на русский, когда для верного понимания написанного надо мысленно перевести этот русский текст обратно на английский, и тогда появляется неочевидный сразу смысл.

Какое влияние может оказать распространение ИИ в лингвистике? Примерно такое же, как оказывают упрощённые обучающий программы, сокращение алфавитов, вытеснение “архаизмов”, “пропадание” падежей (например, формы “дядь”, “в лесу”, “задать жару”, “два часа”, “Из лесу”, “не может иметь права”, “чашка чаю”, “ждать письма”, “пойти в лётчики” не описываются школьной системой из шести падежей) и любое другое “упрощение” языка, которое мы можем наблюдать на протяжении многих веков во всех европейских языках. Если грубо объяснить этот процесс - слова становятся максимально связанными с предметами, абстрактные понятия вытесняются и теряется тонкость и многогранность выражения. Что мы имеем в итоге? Как раз тексты, максимально пригодные для ИИ, который только может усилить этот процесс огрубления языка.

Всё сказанное применимо также к распознаванию речи, которая при этом ещё сложнее. Интересно было бы взглянуть на алгоритм обработки смыслов интонаций в контексте того или иного разговора. Это если не касаться роли мимики и жестов, которые также могут значит больше произносимых слов. Как раз умение слышать “возможно”, когда тебе говорят “нет” или понимать ответ когда тебе ничего не отвечают - самое тонкое в устном общении. На данный момент специалисты по распознаванию, как они сами говорят, достигли порога в 85% эффективности, и не могут продвинуться выше уже многие годы. И, увы, не продвинутся, как раз по описанным причинам. Как бы не учили Siri и прочих помощников, для хоть сколько-нибудь эффективного общения с ними нужно самому притворяться машиной, общаться по алгоритмам который совместим с их алгоритмами. Это может и в привычку войти.

Несмотря на сказанное выше нельзя отрицать некоторую нишевую пользу от развития этих технологий. В отдельных случаях они могут быть очень нужны и эффективны. Например, я постоянно общаюсь с Siri и для перевода простых текстов пользуюсь Google Translate, создание которого избавило меня от некоторого объёма простых операций. Главное чтобы мы владели технологиями, а не технологии овладевали нами. Возможен здесь и интересный вариант развития событий, а именно создание какой-то формы универсального метаязыка, который вберёт в себя все нюансы грамматики всех языков и сможет передавать все отношения, например падежей венгерского в безпадёжном английском (у которого всё равно есть конструкции для их выражения) и передать то же в флективности санскрита. Это была бы крайне интересная разработка, но она под силу очень немногим. Возможно это будет что-то похожее на грамматически сложный ифкуиль. Но, и что очень важная оговорка, это будет хорошо работать только с текстами “конкретного” типа. Абстрактное всегда будет неуловимо для машин, хотя к его “уловлению” можно пытаться приблизится, понимая что оно никогда не будет достигнуто полностью. По крайне мере пока люди останутся людьми, и не станут биороботами, которые общаются, мыслят и говорят как машины.

Также стоит упомянуть, что представить себе действительно ценный перевод любого священного текста, да и просто текста со скрытым смыслом, сделанный машиной просто немыслимо. Жить в упрощённом мире (а ведь обычно человек живёт только в тех категориях, которые есть у него в языке, как он их понял) или ценить красоту и глубочайшую силу языка - выбор за каждым. В заключение вспомним слова Данте:

О вы, разумные, взгляните сами,
И всякий наставленье да поймет,
Сокрытое под странными стихами!


Источник: vk.com

Комментарии: