Ассоциация больших данных и сбербанк разработают стандарт синтеза данных

2025-01-17 15:38

Ассоциация больших данных и Сбербанк разработали предварительный проект национального стандарта синтеза данных. Он должен повысить доступность, безопасность и качество данных для развития искусственного интеллекта в России.

Стандарт должен описать технологию, по которой будут создаваться «конфиденциальные синтетические данные для развития технологий искусственного интеллекта (ИИ)».

«Соблюдать приватность необходимо на всех этапах процесса синтезирования, который основан на методе дифференциальной приватности. В документе приведены математические доказательства того, что при выполнении рекомендаций стандарта можно синтезировать данные без риска нарушения конфиденциальности. Фактически безопасность обеспечивается через поиск оптимального соотношения между защитой конфиденциальности и качеством получаемых датасетов», - говорится в сообщении.

По словам старшего вице-президента, руководителя блока «Технологии» Сбербанка Кирилла Меньшова, стандарт должен создать условия для дальнейшего развития сферы ИИ в России. Он отметил, что исследователи испытывают нехватку доступных данных и это становится крупным препятствием для внедрения ИИ-технологий в различные отрасли экономики. По его мнению, синтетические данные сыграют большую роль в развитие искусственного интеллекта.

Президент АБД Анна Серебряникова отметила, что новый национальный стандарт обеспечит прозрачность процесса синтезирования, надежность архитектуры и определит критерии качества данных. По ее словам, синтетические данные становятся реальной альтернативой обезличенным, которые сковывают излишние ограничения регуляторов.

«При соблюдении требований приватности синтетические данные не несут в себе риски и открывают прорывной путь к достижению целей по доступности данных, необходимых для обучения искусственного интеллекта. Надеемся, что с внедрением национального стандарта синтеза данных мы сможем обеспечить такие требования и ввести синтетические данные в широкий оборот в нашей стране», - сказала она.

Основу предварительного проекта национального стандарта составляют мировой опыт, актуальные наработки и исследования ассоциации в области риск-ориентированного подхода к обработке данных и возможностей нейросетевых технологий. По его словам, в разработке участвуют представители регулятора, научного сообщества и эксперты компаний - участников ассоциации.

Синтетические данные имитируют настоящие, созданные человеком, но при этом создаются при помощи вычислительных алгоритмов и моделей на основе генеративных ИИ. Они обладают теми же математическими свойствами, что и настоящие, но не содержат информации из них. Компании - разработчики искусственного интеллекта используют их для обучения языковых моделей и тестирования машинного обучения.

Синтетические данные являются практически бесконечным источником информации для обучения ИИ, так как разработчик может создавать их в неограниченном объеме. Они могут использоваться для исследований в областях, наполненных конфиденциальной информацией и защищенных регуляторикой, таких как авторское право, здравоохранение, финансы и т.д. Наконец, синтетические данные могут снизить уровень предвзятости обучаемых моделей ИИ, противопоставив себя предвзятым формулировкам или мнениям, добытым из общедоступных источников.

Напомним, что ранее, в декабре 2024 г., один из создателей ChatGPT и сооснователей OpenAI Илья Суцкевер сказал, что рост вычислительных мощностей для ИИ-моделей обогнал скорость появления данных и что индустрия нейросетей достигла пика в использовании информации.

Источник: vk.com



		Ассоциация больших данных и сбербанк разработают стандарт синтеза данных
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2025-01-17 15:38 искусственный интеллект Ассоциация больших данных и Сбербанк разработали предварительный проект национального стандарта синтеза данных. Он должен повысить доступность, безопасность и качество данных для развития искусственного интеллекта в России. Стандарт должен описать технологию, по которой будут создаваться «конфиденциальные синтетические данные для развития технологий искусственного интеллекта (ИИ)». «Соблюдать приватность необходимо на всех этапах процесса синтезирования, который основан на методе дифференциальной приватности. В документе приведены математические доказательства того, что при выполнении рекомендаций стандарта можно синтезировать данные без риска нарушения конфиденциальности. Фактически безопасность обеспечивается через поиск оптимального соотношения между защитой конфиденциальности и качеством получаемых датасетов», - говорится в сообщении. По словам старшего вице-президента, руководителя блока «Технологии» Сбербанка Кирилла Меньшова, стандарт должен создать условия для дальнейшего развития сферы ИИ в России. Он отметил, что исследователи испытывают нехватку доступных данных и это становится крупным препятствием для внедрения ИИ-технологий в различные отрасли экономики. По его мнению, синтетические данные сыграют большую роль в развитие искусственного интеллекта. Президент АБД Анна Серебряникова отметила, что новый национальный стандарт обеспечит прозрачность процесса синтезирования, надежность архитектуры и определит критерии качества данных. По ее словам, синтетические данные становятся реальной альтернативой обезличенным, которые сковывают излишние ограничения регуляторов. «При соблюдении требований приватности синтетические данные не несут в себе риски и открывают прорывной путь к достижению целей по доступности данных, необходимых для обучения искусственного интеллекта. Надеемся, что с внедрением национального стандарта синтеза данных мы сможем обеспечить такие требования и ввести синтетические данные в широкий оборот в нашей стране», - сказала она. Основу предварительного проекта национального стандарта составляют мировой опыт, актуальные наработки и исследования ассоциации в области риск-ориентированного подхода к обработке данных и возможностей нейросетевых технологий. По его словам, в разработке участвуют представители регулятора, научного сообщества и эксперты компаний - участников ассоциации. Синтетические данные имитируют настоящие, созданные человеком, но при этом создаются при помощи вычислительных алгоритмов и моделей на основе генеративных ИИ. Они обладают теми же математическими свойствами, что и настоящие, но не содержат информации из них. Компании - разработчики искусственного интеллекта используют их для обучения языковых моделей и тестирования машинного обучения. Синтетические данные являются практически бесконечным источником информации для обучения ИИ, так как разработчик может создавать их в неограниченном объеме. Они могут использоваться для исследований в областях, наполненных конфиденциальной информацией и защищенных регуляторикой, таких как авторское право, здравоохранение, финансы и т.д. Наконец, синтетические данные могут снизить уровень предвзятости обучаемых моделей ИИ, противопоставив себя предвзятым формулировкам или мнениям, добытым из общедоступных источников. Напомним, что ранее, в декабре 2024 г., один из создателей ChatGPT и сооснователей OpenAI Илья Суцкевер сказал, что рост вычислительных мощностей для ИИ-моделей обогнал скорость появления данных и что индустрия нейросетей достигла пика в использовании информации. Источник: vk.com Комментарии:

Ассоциация больших данных и сбербанк разработают стандарт синтеза данных

Комментарии: