Каким должен быть украинский проект №1 в искусственном интеллекте?

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Алексей Молчановский

Руководитель магистерской программы по компьютерным наукам УКУ по направлению «Науки о данных / Data Science», сооснователь платформы онлайн-курсов Prometheus

Позволю себе высказать такое футуристическое предположение: через 50-100 лет может оказаться, что на планете употребляемыми останутся те языки, которые преодолеют «цифровой барьер»

Технологии искусственного интеллекта (ИИ) становятся двигателем изменений во многих областях от промышленности до сервисных отраслей, от финансов до образования. Более 50 стран мира сегодня декларируют, что развитие ИИ является для них важным и в определенной степени приоритетным направлением. Украина также на уровне государства постепенно начинает свое собственное движение в сторону признания важности ИИ для своего будущего развития. Поэтому возникает вопрос: какими могут быть стратегически важные направления ИИ, которые должно финансировать государство Украина, а точнее, мы с вами — налогоплательщики? Вот аргументы за один из таких потенциальных проектов.

Итак, в течение менее чем десяти лет в мировой отрасли информационных технологий взрывообразно набирает обороты искусственный интеллект. Это не ново — его исследования начались в середине прошлого столетия. С тех пор это направление поднималось на волнах захвата и опускалось до низов разочарований несколько раз (так называемые периоды «зим искусственного интеллекта»). Примерно с 2012 года начинается новая оттепель, к которой привели два основных фактора.

Формы развития и поддержки человеческих языков активно переходят в цифровую плоскость

Во-первых, это появление больших и доступных вычислительных ресурсов. Главным двигателем современных приложений искусственного интеллекта являются искусственные нейронные сети (аrtificial neural networks, ANN), а именно их подвид — глубокие нейронные сети (deep neural networks, DNN). Само название отсылает к пониманию, что их создатели руководствовались аналогиями работы нашего мозга. И хотя первые разработки ANN появились в конце 1950-х, для реальных применений этой технологии необходимы были мощные компьютеры, а точнее графические карты (graphics processing unit, GPU), которые являются главным аппаратным двигателем и позволяют массово распараллелить вычисления внутри нейронных сетей. Поэтому именно DNN, натренированные на мощных современных GPU, позволяют компьютерам синтезировать человеческую речь и музыку, рисовать картины в стилях известных художников и многое другое, с чем мы сейчас ассоциируем технологии искусственного интеллекта в массовом употреблении.

Вторым важным фактором стали данные и возможность накапливать их в почти неограниченных объемах. Искусственные нейронные сети являются подвидом технологий машинного обучения (machine learning, ML), которые в свою очередь являются частью искусственного интеллекта. ML-технологии работают по следующему принципу. Мы показываем системе (или модели, если точнее) определенный набор данных и учим ее корректно реагировать на появление новых, не виданных ею до сих пор, данных подобной природы. Этот процесс называется тренировкой модели. Например, модель для определения лиц людей на фотографиях видела много людей на многих фото, но, очевидно, не всех людей, которые жили, живут или будут жить. Поэтому на виденных ранее примерах она должна научиться определять и новые изображения лиц, которые увидит на новых фотографиях. Для тренировки моделей DNN нужны большие объемы данных (то, что иногда называют big data, хотя здесь есть тонкости терминологии). Эти данные мы, человечество, начали накапливать и эффективно обрабатывать последние 20 лет.

Это вступление, информация из которого известна любому специалисту по искусственному интеллекту, было нужно, чтобы показать важность двух вещей для создания технологий ИИ: вычислительных мощностей и доступа к большим объемам данных (и желательно структурированных).

Теперь перейдем непосредственно к проектоам в области ИИ, имеющих особую ценность для нашей страны. И когда употребляется слово «ценность», то очевидно необходимо определить критерии этой ценности. Также при определении таких ценностных проектов нужно учитывать доступные ресурсы и ограничения. О последних я почти не буду говорить, а вот к ресурсам, кроме упомянутых вычислительных мощностей и качественных (больших) данных, следует добавить таланты (исследователей и инженеров в области ИИ) и, наверное, финансы. С финансами все достаточно понятно: их всегда мало, но в целом известно, где можно найти в случае необходимости. Куда хуже с талантами — на обучение профессионалов уходят годы (если не десятки лет). Для области ИИ крайне важен математический уровень подготовки (если мы говорим о разработке новых технологий). А из недавних новостей мы видим, что уровень математической подготовки в Украине постепенно падает.

Тем не менее, в некоторых исследованиях Украину (вместе с некоторыми другими постсоветскими странами) называют одной из стран, которые имеют отличный потенциал в разработке технологий ИИ в области компьютерного зрения (сomputer vision). Эта отрасль охватывает широкий спектр применения: от фото-фильтров в вашем смартфоне и распознавания лиц ваших друзей в Facebook до систем управления самоуправляемыми автомобилями (self-driving cars) и определения опухолей на рентгеновских снимках. Украина имеет хорошую мировую репутацию в области компьютерного зрения благодаря существованию нескольких десятков хороших физико-математических лицеев и университетских научных школ, а также фундаментальным научным исследованиям, которые велись здесь в советские и более поздние времена.

Может ли какой-то проект в области компьютерного зрения претендовать на позицию главного проекта с ИИ в нашей стране? Вполне вероятно, учитывая имеющиеся хорошие таланты. Но именно здесь проблема заключается в том, что хорошие специалисты вам смогут сгенерировать несколько десятков, если не сотен, потенциально важных для экономического и общественного развития проектов с применением компьютерного зрения: определение мест лесных пожаров и поджогов на полях с помощью спутниковых снимков, анализ рентгеновских снимков, анализ видео с камер наблюдения за транспортными потоками, определение физических повреждений на объектах промышленной инфраструктуры и многие другие. И какой из них выбрать, чтобы направить наши ограниченные финансовые ресурсы? Боюсь, что одного особенного в этом направлении мы не найдем. Также абсолютное большинство этих проектов не имеет привязки к конкретной стране. С одной стороны, это хорошо: если мы создали качественный продукт, то можем его масштабировать на другие рынки (чем и занимаются многие наши успешные стартапы в области компьютерного зрения). С другой стороны, это так же означает, что при необходимости мы можем купить готовое решение в другой стране (и это часто будет дешевле, чем создавать собственное).

Другая хорошая отрасль, в которой мы имеем большой потенциал — это наше сельское хозяйство. IТ-технологиями в агро почти никого не удивишь. В Украине за последние годы появились компании, которые разработают мирового уровня решения в направлении приложений IТ в агро. Эта отрасль потенциально является хорошей для приложений ИИ тем, что здесь с каждым годом появляется все больше и больше данных. Фактически, на каждое поле сельскохозяйственного назначения вы уже можете иметь некий многослойный пирог данных: уровень кислотности почвы, объем удобрений в различных участках поля, точные координаты посаженных семян, вес собранного урожая с высокой разрешительной точностью, не учитывая те же таки спутниковые снимки и метеорологические данные. И я здесь еще не затрагивал задачи логистики и хранения урожая в элеваторах.

Поэтому действительно выглядит так, что потенциал внедрения технологий ИИ в агросекторе очень большой, и здесь тоже можно ожидать появления стартапов, которые смогут предложить качественные продукты и сервисы мирового уровня. Но так же как и с компьютерным зрением, выбор точек приложения усилий достаточно большой, и не очевидно, где именно ставить акценты. На мой взгляд, куда лучше с этим справится частный сектор (который и так постепенно это делает).

Подобные перспективы можно искать и в других отраслях, хотя там Украина имеет мало или вообще не имеет преимуществ по сравнению с другими странами: ИИ в медицине или машиностроении развивается стремительнее в других местах.

И здесь мы подходим к еще одному важному и популярному направлению применения ИИ — это обработка естественного языка (natural language processing, NLP) или компьютерная лингвистика. Примерами применений ИИ в этой области является машинный перевод (всем известный Google Translate построен в основном на технологиях ИИ), системы орфографического и стилистического исправления текста (компания Grammarly с украинскими корнями и мощной командой украинских разработчиков является мировым лидером в этом направлении), автоматические системы текстовой поддержки (чат-боты), генерирование сжатых текстов новостей на основе больших объемов текстов или новостей спортивных событий на основе текстовой трансляции матчей.

Многие из технологий NLP делают нам, конечным пользователям, информацию из иноязычных источников доступной. Например, я не знаю немецкого, но хорошо знаю английский, поэтому важный для меня текст на немецком я переведу Google Translate’ом на английский (и система сделает это сравнительно хорошо). Также есть множество других интересных и специфических решений на основе NLP для английского языка. Они появляются и для других «больших» языков, но их можно найти для украинского. И основная проблема здесь не в том, что у нас нет специалистов (ведь лучшую массовую систему проверки английской орфографии создали украинцы) или вычислительных ресурсов (они доступны всем и сравнительно дешево). Чего нам здесь не хватает — это данных.

Человеческие языки в компьютерной лингвистике разделяются на high-resourse и low-resource, то есть обладающие большими и малыми ресурсами. Здесь в первую очередь имеются в виду различные корпуса: сборники текстов, которые могут (или нет) объединяться определенной тематикой. Очень часто эти корпуса вручную предварительно обрабатываются специалистами, когда они, например, указывают для каждого слова, какой частью речи оно является. Это кропотливая и дорогостоящая работа.

Вспомним поверхностное описание ИИ в начале статьи. Для работы современных ИИ-двигателей нужны большие объемы качественных данных. Если для задач компьютерного зрения нам очень часто не имеет значения в какой стране был создан набор данных для тренировки моделей ИИ (а в последнее время вообще распространяются технологии синтетически созданных наборов данных), то для лингвистических задач это невозможно. Иными словами, нам следует ожидать, что хорошие украиноязычные корпуса для создания современных систем ИИ по компьютерной лингвистике будут созданы в любой другой стране кроме нашей. Хотя по крайней мере еще одно государство может и подумать над созданием таких наборов данных вместо нас, но оттуда нам уже писали словари и искусственно обрубали нашу письменность (и я сейчас не об австрийском генштабе).

Может ли в этой задаче основную роль взять на себя украинский частный сектор? По моему мнению (и это подтверждается общением с отдельными представителями бизнеса), этот проект малоинтересен бизнесу, ведь, во-первых, первоначальные затраты значительны, а горизонт возврата инвестиций далек. А во-вторых, украиноязычный рынок слишком небольшой для устойчивого и инновационного IT-бизнеса в современной Украине (то есть, на этом не заработаешь). Конечно, когда начальный этап будет преодолен, упомянутые корпуса — созданы, а украинские NLP-модели — выложены в открытый доступ, тогда и бизнес подтянется и мы увидим стартапы, которые начнут предлагать цифровые украиноязычные решения качественной проверки орфографии, машинного перевода, генерации текстов новостей и автоматического общения с пользователями в службах поддержки.

Можем ли мы рассчитывать на «решение задачи украинского NLP» крупными иностранными компаниями? Наверное, только частично, пока сами не сделаем первый шаг. Так, хотя большинство украинцев до сих пор пользуется проверкой украинской орфографии, которая встроена в Microsoft Word, но их украинский словарь достаточно давно не обновлялся и Word до сих пор подчеркивает слова, которые появились и закрепились в языке за последние годы или десятилетия. Так же переводчик от Google делает перевод на украинский часто через русский собственно из-за отсутствия достаточных украиноязычных корпусов для тренировки.

Никто другой, кроме украинской нации, не способен поддержать украинский язык. Мы это видим на протяжении всей современной истории нашего государства. В эпоху, когда мир сногсшибательно меняется под влиянием технологий, особенно технологий искусственного интеллекта, формы развития и поддержки человеческих языков активно переходят в цифровую плоскость. Недаром мы гордимся успехами украинской Википедии, которая не так давно преодолела отметку в миллион статей.

Конечно, нельзя утверждать, что еще ничего не сделано в направлении украинского NLP. Есть разные группы энтузиастов и волонтеров, которые работают над наполнением корпусов или созданием украинских NLP-моделей: lang-uk, Брауновский корпус Брук, русско-украинский и англо-украинский онлайн-словари и другие. Но масштаб задачи слишком большой, чтобы это решали лишь отдельные волонтерские группы на деньги или небольшие пожертвования меценатов.

Позволю себе высказать такое футуристическое предположение: через 50-100 лет может оказаться, что на планете употребляемыми останутся те языки, которые преодолеют «цифровой барьер»: на них станут «говорить» компьютеры, смартфоны и другие устройства. Достаточно легко представить себе подростка в 2070 году, который говорит своему деду: «Зачем мне твой украинский, если я не могу сгенерировать на нем текст песни для своей композиции или получить автоматический ответ на свой вопрос?»

Среди других направлений ИИ, которые могут развиваться в Украине, создание украинского NLP является стратегической задачей, даже политикой безопасности (так же, как любая другая поддержка государственного языка). Разработка подобных систем (и подготовительная работа формирования украиноязычных корпусов) — это проект №1 для Украины в области искусственного интеллекта.

И еще. Все вышеизложенное так же касается и работает для крымскотатарского языка.


Источник: nv.ua

Комментарии: