18 млн изображений и 11 000 классов: Tencent опубликовала крупнейший размеченный датасет |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2019-01-15 17:05 большие данные big data, реализация нейронной сети, распознавание образов Компания Tecent выложила в открытый доступ датасет Tencent ML-Images с 11 тысячами классов и 18 миллионами изображений, каждое из которых содержит в среднем 8 меток. На GitHub доступна предобученная модель распознавания изображений ResNet-101, которая достигла впечатляющей точности — 80.73% на тестовом датасете ImageNet. Зачем нужны multi-labelled датасеты? В задачах обучения визуальному представлению глубокие сверточные нейронные сети (CNN) часто обучаются на изображениях, которые содержат только одну метку (label), как например в датасете ImageNet. При этом большинство изображений содержит несколько объектов. Например, на одном фото могут быть трава и корова. В одном случае изображение будет помечено только тегом «трава», а в другом только тегом «корова», что затем вызовет ошибки в распознавании. Один тег не может описать все содержимое одного изображения и часть полезной визуальной информации теряется во время обучения. Датасеты с несколькими метками решают эту проблему. Датасет Tencent ML-Images ML-Images — крупнейший набор изображений с несколькими метками с открытым исходным кодом. В него входят 18 миллионов изображений и 11 тысяч категорий объектов. До недавнего времени самым большим открытым набором изображений с несколькими метками был Google Open Images, который включает в себя 9 миллионов изображений и более 6 тысяч категорий объектов. Таким образом, Tencent ML-Images может стать новым стандартом для исследователей в области компьютерного зрения. Датасет объединяет изображения из наборов Open Images и ImageNet. Разработчики построили семантическую иерархию и сопоставили описания обоих датасетов, чтобы получить единые определения для тегов и классов. Для проверки датасета разработчики обучили модель ResNet-101 V2 и проверили её на тестовых изображениях из набора ImageNet. Результаты показаны на таблице ниже. Обучение ResNet-101 Обучение ResNet-101 на датасете Tencent ML-Images занимает 90 часов и 60 эпох с использованием распределенного обучения. Сеть обеспечит надежную поддержку визуальных задач при обработке изображений и видео и улучшит точность классификации, обнаружения и распознавания объектов, семантической сегментации. Больше информации о датасете и обучении ResNet-101 здесь. Ссылка на GitHub в подвале статьи. Источник: neurohive.io Комментарии: |
|