Как правильно делиться результатами работы с машинным обучением?

2021-10-01 11:41

машинное обучение python, теория программирования

Журнал Nature Methods опубликовал статью о стандартах воспроизводимости результатов машинного обучения. Авторы предлагают разделять научные статьи на три уровня воспроизводимости: бронзовый, серебряный и золотой. Оригинальная статья доступна по ссылке — https://www.nature.com/articles/s41592-021-01256-7

Бронзовый стандарт предполагает, что вы выложили в открытый доступ выборку и модель, а также её исходный код. Это минимальный набор, который необходим для воспроизведения результатов на другом компьютере. Выборку можно выложить на GitHub, Zenodo (https://zenodo.org), если набор данных весит менее 50 Гб или Dryad (https://datadryad.org/), если набор весит более 50 Гб. Что касается выкладывания уже обученной модели в открытый доступ, то здесь авторы подчёркивают: размещение модели в репозитории на GitHub не соответствует бронзовому стандарту, выкладывать модели стоит в специальных коллекциях (например, биологи могут использовать Sfaira или Kipoi). Ещё одной важной особенностью «бронзы» является открытый исходный код модели и анализа — авторы статьи предполагают, что это позволит другим исследователям лучше понять специфику вашей модели, проще запустить процесс анализа на своём компьютере или выявить допущенные ошибки.

Серебряный стандарт требует также установки зависимостей одной командой, описания условий, в которых обучалась модель, а также должны быть детерминированы случайные элементы. Авторы статьи называют «пакетным морским боем» попытки угадать, пакеты какой версии использовались при работе с моделью и анализом. Установка зависимых пакетов одной строкой должна ускорить настройку окружения для обучения модели на других ПК. В этом могут помочь менеджер управления зависимости Packrat (https://rstudio.github.io/packrat/) для RStudio и пакетный менеджер Conda (https://conda.io/) для Python.

Наконец, золотой стандарт предполагает, что весь анализ может быть запущен с помощью одной команды. Такая форма представления результата гарантирует запуск от предварительной обработки выборки до финальных этапов в роде выгрузки таблиц, создания инфографики и её аннотирования. В пример авторы приводят такие системы, как Snakemake или Nextflow, которые позволяют создавать правила для выполнения всех этапов анализа.

Также в статье отдельное внимание уделяется работе с закрытыми или же конфиденциальными данными: например, использованию в модели дифференциальной приватности, которая делает невозможным извлечение конфиденциальных данных из тестовой или финальной выборок. Кроме того, авторы советуют грузить выборки на репозитории GitHub с доступом по приглашениям — это позволит вам управлять доступом к данным. А если вы работаете с датасетами ИНИД в режимах доступа «Продвинутый» или «ML-разработчикам», то вы можете дать ссылку на набор данных на нашем сайте — помимо защиты данных, платформа обеспечивает ещё и полную совместимость ПО, окружения и технических характеристик машин.

Источник: www.nature.com



		Как правильно делиться результатами работы с машинным обучением?
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2021-10-01 11:41 машинное обучение python, теория программирования Журнал Nature Methods опубликовал статью о стандартах воспроизводимости результатов машинного обучения. Авторы предлагают разделять научные статьи на три уровня воспроизводимости: бронзовый, серебряный и золотой. Оригинальная статья доступна по ссылке — https://www.nature.com/articles/s41592-021-01256-7 Бронзовый стандарт предполагает, что вы выложили в открытый доступ выборку и модель, а также её исходный код. Это минимальный набор, который необходим для воспроизведения результатов на другом компьютере. Выборку можно выложить на GitHub, Zenodo (https://zenodo.org), если набор данных весит менее 50 Гб или Dryad (https://datadryad.org/), если набор весит более 50 Гб. Что касается выкладывания уже обученной модели в открытый доступ, то здесь авторы подчёркивают: размещение модели в репозитории на GitHub не соответствует бронзовому стандарту, выкладывать модели стоит в специальных коллекциях (например, биологи могут использовать Sfaira или Kipoi). Ещё одной важной особенностью «бронзы» является открытый исходный код модели и анализа — авторы статьи предполагают, что это позволит другим исследователям лучше понять специфику вашей модели, проще запустить процесс анализа на своём компьютере или выявить допущенные ошибки. Серебряный стандарт требует также установки зависимостей одной командой, описания условий, в которых обучалась модель, а также должны быть детерминированы случайные элементы. Авторы статьи называют «пакетным морским боем» попытки угадать, пакеты какой версии использовались при работе с моделью и анализом. Установка зависимых пакетов одной строкой должна ускорить настройку окружения для обучения модели на других ПК. В этом могут помочь менеджер управления зависимости Packrat (https://rstudio.github.io/packrat/) для RStudio и пакетный менеджер Conda (https://conda.io/) для Python. Наконец, золотой стандарт предполагает, что весь анализ может быть запущен с помощью одной команды. Такая форма представления результата гарантирует запуск от предварительной обработки выборки до финальных этапов в роде выгрузки таблиц, создания инфографики и её аннотирования. В пример авторы приводят такие системы, как Snakemake или Nextflow, которые позволяют создавать правила для выполнения всех этапов анализа. Также в статье отдельное внимание уделяется работе с закрытыми или же конфиденциальными данными: например, использованию в модели дифференциальной приватности, которая делает невозможным извлечение конфиденциальных данных из тестовой или финальной выборок. Кроме того, авторы советуют грузить выборки на репозитории GitHub с доступом по приглашениям — это позволит вам управлять доступом к данным. А если вы работаете с датасетами ИНИД в режимах доступа «Продвинутый» или «ML-разработчикам», то вы можете дать ссылку на набор данных на нашем сайте — помимо защиты данных, платформа обеспечивает ещё и полную совместимость ПО, окружения и технических характеристик машин. Источник: www.nature.com Комментарии:

Как правильно делиться результатами работы с машинным обучением?

Комментарии: