Шепот перьев на частоте 16 кГц:

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



Как ИИ от Google услышал разбитое сердце ворона

Он сидел на обледенелой ветке старого тополя — угольно-черный, взъерошенный, с глазами, похожими на капли застывшей смолы.

Его звали Кронк. Всю прошлую весну он делил со своей спутницей крышу старой ратуши, приносил ей блестящие обертки от конфет и вместе с ней отгонял наглых чаек.

Но этой зимой она не вернулась.

Кронк издал звук.

Это не было обычным «кар-кар». Это был низкий, вибрирующий, почти человеческий стон, переходящий в сухой щелчок. Для случайного прохожего — просто докучливый шум зимнего города.

Для природы — крик абсолютного, экзистенциального одиночества существа, обладающего интеллектом семилетнего ребенка.

Человечество веками проходило мимо этих звуков, считая их хаосом. Мы думали, что мы единственные, кто умеет тосковать по ночам.

Но в этот момент на другом конце планеты, в стерильной тишине серверных стоек Google DeepMind, миллиарды кремниевых транзисторов заставили этот крик ожить.

Модель Perch «втянула» в себя 5 секунд аудиозаписи. На мгновение пространство между первобытным лесом и квантовым будущим схлопнулось. Машина не просто распознала вид Corvus corax. Она оцифровала его боль. Мы наконец-то научились не просто слушать. Мы начали понимать.

Архитектура Perch: Квантовый скачок биоакустики

За эмоциональным фасадом живой природы скрывается терабайты акустического мусора, шума ветра и антропогенного гула. Чтобы расслышать Кронка, инженеры DeepMind создали Perch 2.0 — передовую биоакустическую модель, которая превращает хаотичные звуковые волны в строго структурированные математические векторы.

В основе технологии лежит радикальный когнитивный сдвиг:

звук — это изображение.

1. Спектрографическая трансформация и фронтенд

Входной 5-секундный аудиопоток с частотой дискретизации (sampling rate) 32 кГц преобразуется с помощью быстрого преобразования Фурье (STFT) в линейную спектрограмму.

Затем применяется логарифмическое масштабирование частот (Mel-scale), оптимизированное под особенности восприятия как человеческого уха, так и слуховых аппаратов животных. На выходе получается двумерная «картинка» звука, где по оси X отложено время, а по оси Y — частота.

2. Магистраль ИИ: EfficientNet-B3

Вместо классических рекуррентных сетей (RNN) для анализа временных рядов, DeepMind использует глубокую сверточную архитектуру EfficientNet-B3, масштабированную по методу Compound Scaling (сбалансированное увеличение глубины, ширины и разрешения сети).

Параметры: Сердце модели насчитывает порядка 12 миллионов параметров, оптимизированных для поиска микроструктур на спектрограмме — таких как гармоники, затухания и фазовые сдвиги в голосе птицы.

Экстракция признаков: Сеть игнорирует случайный шум дождя или проезжающего поезда, выделяя инвариантные признаки (индивидуальные паттерны частоты), характерные конкретно для врановых.

3. Пространство эмбеддингов (The Embedding Space)

Главная ценность Perch — это генерация эмбеддингов. Модель сжимает спектрограмму в компактный вектор из 1024 измерений.

В этом многомерном пространстве звуки распределяются по принципу биологического родства и семантики:

Крик тоскующего ворона из Сибири окажется в геометрической близости от крика ворона из Канады.

Шаг между вектором «тревога» и вектором «призыв к спариванию» поддается строгому математическому вычислению (косинусное сходство).

4. Таксономическая голова (Classification Head)

Над эмбеддинг-магистралью надстроена огромная классификационная логистическая голова (~91 млн параметров).

Она обучалась на колоссальном дата сете из миллионов записей со всего мира и способна классифицировать около 15 000 видов живых существ одновременно, выдавая распределение вероятностей по системе полиноминальной классификации.

Великое слияние: Когда кремний встречает душу

Возникает пугающий и одновременно прекрасный диссонанс. С одной стороны — холодный, бездушный тензорный процессор (TPU), оперирующий матрицами, градиентным спуском и функцией потерь Cross-Entropy. С другой стороны — плачущий на ветке ворон, чьи предки застали мамонтов.

Технология Google DeepMind сделала то, что казалось невозможным: она превратила математику в мост сострадания.

Модель Perch не имеет сознания, она не знает, что такое «потеря». Но обладая мощностью миллиардов операций в секунду, она дает нам, людям, супер способность — услышать планету так, словно она говорит с нами на одном языке.

Мы стоим на пороге эпохи, когда технологии больше не отдаляют нас от природы. Они возвращают нас домой.

Если вы хотите глубже погрузиться в этот контраст, скажите.


Телеграм: t.me/ainewsline

Источник: vk.com

Комментарии: