Многоязычие в проектах Европейской Комиссии (Н. В. Браккер, Л. А. Куйбышев, Центр по проблемам информатизации сферы культуры)

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2021-02-06 10:59

цифровизация

Многоязычие в проектах Европейской Комиссии (Н. В. Браккер, Л. А. Куйбышев, Центр по проблемам информатизации сферы культуры)

Одной из ключевых задач инициативы Европейского Союза “i2010. Digital Libraries” является создание Европейской цифровой библиотеки (Europeana ).

Движение к Европейской цифровой библиотеке началось с проектов Gabriel и TEL по созданию Европейской библиотеки , предоставляющей доступ к каталогам Национальных библиотек Европы.

По плану Европейской Комиссии, Европейская цифровая библиотека, функционирующая на базе Европейской библиотеки, должна облегчить доступ к европейским информационным ресурсам и повысить их привлекательность в онлайновой среде. К началу 2008 г. 2 миллиона книг, фильмов, фотографий, рукописей и других материалов по культуре стали доступными через Европейскую цифровую библиотеку. Ожидается, что эта цифра вырастет до 6 миллионов к 2010 г., когда каждая библиотека, архив или музей в Европе потенциально смогут присоединить свои цифровые ресурсы к Европейской цифровой библиотеке.

В настоящее время Европейская библиотека имеет интерфейс на 26 языках, включая русский язык, и предоставляет доступ к каталогам национальных библиотек, цифровым коллекциям, изображениям, аудио и нотам, рукописям, картам, журналам детской литературе, темам диссертаций. В сентябре 2007 г. Российская государственная библиотека присоединилась к Европейской библиотеке и, опосредованно, к Европейской цифровой библиотеке на правах полноправного участника. В январе 2008 года электронный каталог РГБ (OPAC) стал доступен с портала Европейской библиотеки и открыт для поиска .

Программа eContentPlus финансирует проекты по подготовке контента для Европейской цифровой библиотеки, а также проекты, ориентированные на улучшение использования цифровых коллекций и расширение доступа к результатам европейских научных исследований (EDL, TEL Plus , EDLnet, CACAO).

Проект EDL (European Digital Library, сентябрь 2007 г. - февраль 2008 г.) В целом, на момент окончания этого проекта на портале Европейской библиотеки представлено 60 новых коллекций, 52 из которых открыты для поиска по протоколу OAI (Open Archive Initiative), а 38 включают полнотекстовые цифровые ресурсы. Новые коллекции увеличили объем фонда на 24%.

Помимо увеличения объема информационных ресурсов, проект EDL усовершенствовал стандартные механизмы поиска и многоязычные возможности портала Европейской библиотеки, а также создал прототип европейского регистра метаданных, который призван выявить представляющие интерес материалы для поиска в каталогах не только библиотек, но и организаций других типов.

Взаимодействие институтов памяти - основная задача EDLnet - проекта сети Европейской цифровой библиотеки, финансируемого в рамках программы "eContentplus". Эта сеть должна объединять представителей библиотек, архивов (включая архивы аудиовизуальных материалов) и музеев для анализа и обсуждения возможность выработки скоординированного многоязычного подхода к организации онлайнового доступа к материалам всех типов, хранимых «институциями памяти». Такое сотрудничество между доменами архивов, библиотек, аудиовизуальных коллекций и музеев - большой шаг вперед. Фактически, EDLnet - первый проект такого масштаба, призванный создать многоязычный интерфейс для доступа к цифровым артефактам, текстам и СМИ по всему европейскому наследию. Планируется также инициировать проект EDL-local для включения в Европейскую цифровую библиотеку информационных ресурсов по культуре, создаваемых местными сообществами.

Проект CACAO (Cross-language Access to Catalogues And On-line libraries) также финансируется программой "eContentplus". Объединяя лингвистические технологии с существующими информационно-поисковыми системами и технологиями обработки многоязычных ресурсов, CACAO разрабатывает инфраструктуру, которая будет интегрирована в существующие системы OPAC и цифровые библиотеки. В результате пользователь сможет набрать запрос на своём родном языке и получить список документов, написанных на любом другом языке. Технологии CACAO будут интегрированы в Европейскую библиотеку. Кроме того, пять библиотек-партнёров (из Венгрии, Германии, Италии, Франции, Польши) организуют единый пункт многоязычного доступа к своим собственным информационным ресурсам, а также три многоязычных тематических портала (математика, средневековая литература, география).

Проект MICHAEL , идея которого возникла в результате деятельности проекта MINERVA, ставил целью определение общих подходов и разработки модели служб цифрового культурного наследия, которые будут действовать на всей территории Европы, сближать и объединять национальные инициативы в данной области. Был создан многоязычный реестр цифровых коллекций из европейских архивов, библиотек и музеев. Проект был представлен и утвержден в рамках программы eTen Европейской Комиссии и принят к реализации в июне 2004 г., и вместе со своим продолжением, проектом MICHAEL PLUS, станет одним из столпов развивающейся Европейской цифровой библиотеки.

В 2006 г. проект MICHAEL открыл национальные службы во Франции, Италии и Великобритании и планирует открытие аналогичных служб в других государствах-участниках проекта. В декабре 2006 г. начала свою деятельность и транс-национальная служба. На практике каждая страна имеет национальный веб-сайт для своего фонда, и все они представляют собой своего рода "стартовые площадки" для дальнейшей работы Европейской службы MICHAEL; поиск на национальных веб-сайтах осуществляется с помощью протокола OAI-PMH.

MICHAEL занимается созданием многоязычных услуг, необходимых для европейского портала. Эта работа предполагает согласование многоязычных нормализованных словарей и оценку средств многоязычного поиска и машинного перевода, а также выполнение других функций, связанных с многоязычием.

Европейская Комиссия финансирует научно-исследовательские проекты и разработку технологий через Рамочные программы.

Программа «Технологии информационного общества» 6-й рамочной программы научных исследований и технологических разработок, реализация которой завершилась в 2006 году, поддержала разработку ряда проектов по машинному переводу (это проекты LC-STAR , METIS , TC-STAR ).

По разделу «Цифровое наследие» был реализован проект MultiMATCH (Multilingual/Multimedia Access to Cultural Heritage) , целью которого является разработка многоязычной поисковой машины, ориентированной на поиск, организацию и персонифицированную презентацию информации по культурному наследию. Для многоязычного поиска мультимедийной информации используются технологи Semantic WEB.

Финансировался ещё целый ряд проектов научных исследований и технологических разработок, которые включали в себя проблемы многоязычного доступа к информации.

7-я Рамочная программа научных исследований и разработок является следующим шагом на пути создания единого европейского научного пространства, использует опыт предыдущих рамочных программ, и призвана повысить влияние знания на экономику и общество в Европе.

Тематическое направление «Цифровые библиотеки и контент» объявлено одним из приоритетов 7-й Рамочной программы и является частью направления «Технологии информационного общества», которое, в свою очередь, входит в подпрограмму Сотрудничество.

1-й конкурс проектов 7-й Рамочной программы проходил в первой половине 2007 года, по разделу «Цифровые библиотеки» было принято к реализации 6 проектов, из которых по крайней мере один проект фокусно ориентирован на многоязычие. Это проект Treble-CLEF – анализ состояния дел, передовой опыт и сотрудничество в области многоязычного доступа к информации (Evaluation, Best Practice and Collaboration for Multilingual Information Access). Цель этого проекта – экспертиза и консолидация научных исследований в области многоязычного доступа к информации, распространение результатов исследований и технологий в сообществах, занимающихся созданием цифровых библиотек.

Второй проект, непосредственно связанный с проблемами многоязычия, это – IMPACT , улучшение доступа к текстам (Improving Access to Text). Целью проекта является существенное улучшение доступа к историческим текстам, преодоление барьеров, которые стоят на пути массовой оцифровки европейского культурного наследия. В рамках проекта будет предложена инновационная технология оптического распознавания текста (OCR), которая обеспечит высококачественное распознавание исторических документов, газет, книг в переплёте, микрофильмов и машинописных текстов, а также улучшит распознавание не англоязычных текстов.

Технологическим партнёром проекта стала российская компания ABBYY , один из разработчиков программного обеспечения в области распознавания документов (OCR), ввода форм (ICR) и прикладной лингвистики.

По тематическому направлению «Когнитивные системы, взаимодействие, роботы» был принят в реализации проект EMIME (Effective Multilingual Interaction in Mobile Environments) по разработке мобильного устройства, осуществляющего персонифицированный автоматический перевод речи таким образом, что говорящий использует один язык, а слушающий получает сообщение на другом языке, но при этом слышит голос говорящего.

По тематическому направлению «Международное сотрудничество» реализуется проект MEDAR (Mediterranean Arabic Language and speech technology), одной из целей которого является машинный перевод и многоязычный информационный поиск.

По тематическому направлению «Интеллектуальный контент и семантика» осуществляется проект SMARTMUSEUM , в рамках которого будут разработаны многоязычные сервисы для улучшения взаимодействия посетителей с музейными предметами в музее будущего.

В заключение приведём пример многолетнего проекта по организации многоязычного доступа к информации по искусству Франции, с которым успешно сотрудничают специалисты Государственного исторического музея.

Система EROS разработана в Центре по изучению и реставрации музейных коллекций Франции, который собрал огромный объем научной документации по произведениям искусства, а с 1999 года руководит выполнением реставрационных и научных работ музеев Франции.

Система имеет очень широкие и уникальные технические возможности: автоматическое распознавание изображений, картографический поиск, панорамный просмотр объекта, работа с многоспектральным изображением сверхвысокого разрешения, работа с трехмерными моделями, - а также разнообразные запросные средства и форматы получения результатов. Следует особо отметить многоязычный доступ к документу, названному «синтез», информация которого составляется на основе всевозможных научных отчетов, статей и снимков, касающихся конкретного произведения искусства. Объединяя текст и фотодокументы, электронный синтез дает представление об авторе произведения, истории создания предмета, его оригинальных составляющих, материалах и технике, изменениях и повреждениях, реставрационных и консервативных вмешательствах.

Сегодня база EROS работает на 18 языках. Благодаря кодировке UNICODE (UTF-8) многоязычный тезаурус позволяет работать с полным набором знаков разных типов алфавитов, в том числе, русского, японского, арабского.

Участие Государственного исторического музея в европейских проектах N.A.R.C.I.S.S.E. (с 1994 г.) и EROS дало шанс использовать стандартный словарь описания - “Иконографический тезаурус” Ф. Гарнье , который был изучен и переведён на русский язык для описания музейных предметов. Это дало возможность включить русский язык в многоязычную базу данных системы EROS. Русские словари-тезаурусы, которые первоначально составлялись для системы N.A.R.C.I.S.S.E., были дополнены новыми словарями и включены в систему EROS .

Включение русского языка в системы стандартных международных тезаурусов и широкое использование их в учреждениях культуры России - это единственный путь, позволяющий русскоязычному пользователю открыть для себя богатство оцифрованного культурного наследия Европы и предоставить доступ к оцифрованному культурному наследию России иноязычным пользователям.


Источник: vk.com

Комментарии: