Нейросеть для орнитологов Perch 2.0 помогла распознать морских животных |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-09-05 11:46 И сделала это лучше специализированных моделей Елизавета Чистякова
Google Deepmind выпустила обновленную версию нейросети для биоакустики Perch 2.0. В отличие от предыдущей версии, Perch 2.0 может распознавать не только птиц, но и других животных. Представленная модель обходит все биоакустические модели на бенчмарках BirdSet и BEANS, а при трансферном обучении превосходит даже специализированные модели для классификации звуков подводных жителей, хотя обучалась почти исключительно на наземных животных. Модель опубликована в открытом доступе, препринт статьи доступен на arXiv.org. Для оценки здоровья экосистем ученые нередко отслеживают численность популяций индикаторных видов. Часто в качестве индикаторов выбирают птиц — не только потому, что они выделяются на фоне других животных яркой вокализацией, но и потому что обитают почти везде. Особенно удобно стало отслеживать популяции птиц сегодня — когда на помощь орнитологам пришли системы пассивного акустического мониторинга и биоакустические классификаторы на основе нейросетей. К примеру, ученые из Корнелльского университета разработали мобильные приложения BirdNet и Merlin Bird Id, с помощью которых любой человек может распознавать птиц в округе и делиться информацией о местоположении видов с орнитологами. Помимо этого появилось модели, предназначенные для специалистов — например, Perch от Google Deepmind, которая уже помогла обнаружить новую популяцию австралийских странников неподалеку от Мельбурна. С помощью нее же орнитологи отслеживают популяции гавайских цветочниц, находящиеся под угрозой исчезновения. Теперь группа исследователей из Google Deepmind под руководством Тома Дентона (Tom Denton) представила улучшенную версию своей биоакустической модели — Perch 2.0. В отличие от предыдущей версии, которая обучалась на данных 10932 различных видов птиц (датасет Xeno-Canto), Perch 2.0 обучалась на данных 14795 классов птиц, млекопитающих, рептилий, насекомых и прочих животных, а также антропогенных шумов (датасеты Xeno-Canto, iNaturalist, Tierstimmenarchiv и FSD50K). Иной стала и архитектура модели. В первой версии Perch для классификации видов пятисекундный фрагмент аудиозаписи сначала преобразовывался в лог-мел-спектрограмму, которая затем подавалась на вход сверточной нейросети EfficientNet-B1 на 7,8 миллиона параметров. Модель ставила в соответствие спектрограмме векторное представление (эмбеддинг), которое затем встроенный линейный классификатор использовал для определения вероятностей принадлежности к каждому из классов (видов). В новой версии для создания эмбеддингов использовалась сверточная нейросеть EfficientNet-B3 на 12 миллионов параметров, а помимо линейного классификатора модель обзавелась на выходе двумя дополнительными модулями. ![]() Tom Denton et. al / ArXiv, 2025 Первый модуль — прототипный классификатор, который для каждого из 14795 классов выбирает 4 вектора-прототипа, отражающих характерные звуковые паттерны вида. Затем на основе сходства с прототипами модуль вычисляет вероятности элементов обучающей выборки принадлежать к каждому из классов и передает их обычному линейному классификатору для обучения. В результате более простой линейный модуль, предназначенный для использования на практике, учится анализировать данные подобно более сложной модели. Второй модуль — линейный классификатор, который по пятисекундному фрагменту самостоятельно обучается определять, из какой аудиозаписи он вырезан. Модуль обучается на сильно сжатых данных и параллельно обучает модель для эмбеддингов лучше различать уникальные детали в аудиозаписях. В итоге нововведения помогли Perch 2.0 обойти топовую нейросеть Audio ProtoPNet-5 по метрике ROC-AUC, сохранив при этом небольшие размеры и доступность для широкого круга пользователей. Авторы отдельно отмечают, что создали Perch 2.0 таким образом, чтобы она могла хорошо работать в специфических случаях: например различать звуки отдельных особей или голоса молодняка. Ученые продемонстрировали это с помощью трансферного обучения (с помощью эмбеддингов от Perch 2.0 обучался другой классификатор) на малом количестве данных морских существ (16 примеров на вид) и сравнили со специализированными моделями. В результате, хотя датасеты для обучения Perch 2.0 практически не содержали данных о морских видах, модель обогнала топовую Surf Perch в тестах. Подробнее об устройстве нейросетей можете почитать в нашем материале «Зоопарк алгоритмов». Источник: m.vk.com Комментарии: |
|