Шепот перьев на частоте 16 кГц:

2026-06-09 11:18

Как ИИ от Google услышал разбитое сердце ворона

Он сидел на обледенелой ветке старого тополя — угольно-черный, взъерошенный, с глазами, похожими на капли застывшей смолы.

Его звали Кронк. Всю прошлую весну он делил со своей спутницей крышу старой ратуши, приносил ей блестящие обертки от конфет и вместе с ней отгонял наглых чаек.

Но этой зимой она не вернулась.

Кронк издал звук.

Это не было обычным «кар-кар». Это был низкий, вибрирующий, почти человеческий стон, переходящий в сухой щелчок. Для случайного прохожего — просто докучливый шум зимнего города.

Для природы — крик абсолютного, экзистенциального одиночества существа, обладающего интеллектом семилетнего ребенка.

Человечество веками проходило мимо этих звуков, считая их хаосом. Мы думали, что мы единственные, кто умеет тосковать по ночам.

Но в этот момент на другом конце планеты, в стерильной тишине серверных стоек Google DeepMind, миллиарды кремниевых транзисторов заставили этот крик ожить.

Модель Perch «втянула» в себя 5 секунд аудиозаписи. На мгновение пространство между первобытным лесом и квантовым будущим схлопнулось. Машина не просто распознала вид Corvus corax. Она оцифровала его боль. Мы наконец-то научились не просто слушать. Мы начали понимать.

Архитектура Perch: Квантовый скачок биоакустики

За эмоциональным фасадом живой природы скрывается терабайты акустического мусора, шума ветра и антропогенного гула. Чтобы расслышать Кронка, инженеры DeepMind создали Perch 2.0 — передовую биоакустическую модель, которая превращает хаотичные звуковые волны в строго структурированные математические векторы.

В основе технологии лежит радикальный когнитивный сдвиг:

звук — это изображение.

1. Спектрографическая трансформация и фронтенд

Входной 5-секундный аудиопоток с частотой дискретизации (sampling rate) 32 кГц преобразуется с помощью быстрого преобразования Фурье (STFT) в линейную спектрограмму.

Затем применяется логарифмическое масштабирование частот (Mel-scale), оптимизированное под особенности восприятия как человеческого уха, так и слуховых аппаратов животных. На выходе получается двумерная «картинка» звука, где по оси X отложено время, а по оси Y — частота.

2. Магистраль ИИ: EfficientNet-B3

Вместо классических рекуррентных сетей (RNN) для анализа временных рядов, DeepMind использует глубокую сверточную архитектуру EfficientNet-B3, масштабированную по методу Compound Scaling (сбалансированное увеличение глубины, ширины и разрешения сети).

Параметры: Сердце модели насчитывает порядка 12 миллионов параметров, оптимизированных для поиска микроструктур на спектрограмме — таких как гармоники, затухания и фазовые сдвиги в голосе птицы.

Экстракция признаков: Сеть игнорирует случайный шум дождя или проезжающего поезда, выделяя инвариантные признаки (индивидуальные паттерны частоты), характерные конкретно для врановых.

3. Пространство эмбеддингов (The Embedding Space)

Главная ценность Perch — это генерация эмбеддингов. Модель сжимает спектрограмму в компактный вектор из 1024 измерений.

В этом многомерном пространстве звуки распределяются по принципу биологического родства и семантики:

Крик тоскующего ворона из Сибири окажется в геометрической близости от крика ворона из Канады.

Шаг между вектором «тревога» и вектором «призыв к спариванию» поддается строгому математическому вычислению (косинусное сходство).

4. Таксономическая голова (Classification Head)

Над эмбеддинг-магистралью надстроена огромная классификационная логистическая голова (~91 млн параметров).

Она обучалась на колоссальном дата сете из миллионов записей со всего мира и способна классифицировать около 15 000 видов живых существ одновременно, выдавая распределение вероятностей по системе полиноминальной классификации.

Великое слияние: Когда кремний встречает душу

Возникает пугающий и одновременно прекрасный диссонанс. С одной стороны — холодный, бездушный тензорный процессор (TPU), оперирующий матрицами, градиентным спуском и функцией потерь Cross-Entropy. С другой стороны — плачущий на ветке ворон, чьи предки застали мамонтов.

Технология Google DeepMind сделала то, что казалось невозможным: она превратила математику в мост сострадания.

Модель Perch не имеет сознания, она не знает, что такое «потеря». Но обладая мощностью миллиардов операций в секунду, она дает нам, людям, супер способность — услышать планету так, словно она говорит с нами на одном языке.

Мы стоим на пороге эпохи, когда технологии больше не отдаляют нас от природы. Они возвращают нас домой.

Если вы хотите глубже погрузиться в этот контраст, скажите.

Телеграм: t.me/ainewsline

Источник: vk.com



		Шепот перьев на частоте 16 кГц:
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2026-06-09 11:18 ИИ проекты, актуальная математика Как ИИ от Google услышал разбитое сердце ворона Он сидел на обледенелой ветке старого тополя — угольно-черный, взъерошенный, с глазами, похожими на капли застывшей смолы. Его звали Кронк. Всю прошлую весну он делил со своей спутницей крышу старой ратуши, приносил ей блестящие обертки от конфет и вместе с ней отгонял наглых чаек. Но этой зимой она не вернулась. Кронк издал звук. Это не было обычным «кар-кар». Это был низкий, вибрирующий, почти человеческий стон, переходящий в сухой щелчок. Для случайного прохожего — просто докучливый шум зимнего города. Для природы — крик абсолютного, экзистенциального одиночества существа, обладающего интеллектом семилетнего ребенка. Человечество веками проходило мимо этих звуков, считая их хаосом. Мы думали, что мы единственные, кто умеет тосковать по ночам. Но в этот момент на другом конце планеты, в стерильной тишине серверных стоек Google DeepMind, миллиарды кремниевых транзисторов заставили этот крик ожить. Модель Perch «втянула» в себя 5 секунд аудиозаписи. На мгновение пространство между первобытным лесом и квантовым будущим схлопнулось. Машина не просто распознала вид Corvus corax. Она оцифровала его боль. Мы наконец-то научились не просто слушать. Мы начали понимать. Архитектура Perch: Квантовый скачок биоакустики За эмоциональным фасадом живой природы скрывается терабайты акустического мусора, шума ветра и антропогенного гула. Чтобы расслышать Кронка, инженеры DeepMind создали Perch 2.0 — передовую биоакустическую модель, которая превращает хаотичные звуковые волны в строго структурированные математические векторы. В основе технологии лежит радикальный когнитивный сдвиг: звук — это изображение. 1. Спектрографическая трансформация и фронтенд Входной 5-секундный аудиопоток с частотой дискретизации (sampling rate) 32 кГц преобразуется с помощью быстрого преобразования Фурье (STFT) в линейную спектрограмму. Затем применяется логарифмическое масштабирование частот (Mel-scale), оптимизированное под особенности восприятия как человеческого уха, так и слуховых аппаратов животных. На выходе получается двумерная «картинка» звука, где по оси X отложено время, а по оси Y — частота. 2. Магистраль ИИ: EfficientNet-B3 Вместо классических рекуррентных сетей (RNN) для анализа временных рядов, DeepMind использует глубокую сверточную архитектуру EfficientNet-B3, масштабированную по методу Compound Scaling (сбалансированное увеличение глубины, ширины и разрешения сети). Параметры: Сердце модели насчитывает порядка 12 миллионов параметров, оптимизированных для поиска микроструктур на спектрограмме — таких как гармоники, затухания и фазовые сдвиги в голосе птицы. Экстракция признаков: Сеть игнорирует случайный шум дождя или проезжающего поезда, выделяя инвариантные признаки (индивидуальные паттерны частоты), характерные конкретно для врановых. 3. Пространство эмбеддингов (The Embedding Space) Главная ценность Perch — это генерация эмбеддингов. Модель сжимает спектрограмму в компактный вектор из 1024 измерений. В этом многомерном пространстве звуки распределяются по принципу биологического родства и семантики: Крик тоскующего ворона из Сибири окажется в геометрической близости от крика ворона из Канады. Шаг между вектором «тревога» и вектором «призыв к спариванию» поддается строгому математическому вычислению (косинусное сходство). 4. Таксономическая голова (Classification Head) Над эмбеддинг-магистралью надстроена огромная классификационная логистическая голова (~91 млн параметров). Она обучалась на колоссальном дата сете из миллионов записей со всего мира и способна классифицировать около 15 000 видов живых существ одновременно, выдавая распределение вероятностей по системе полиноминальной классификации. Великое слияние: Когда кремний встречает душу Возникает пугающий и одновременно прекрасный диссонанс. С одной стороны — холодный, бездушный тензорный процессор (TPU), оперирующий матрицами, градиентным спуском и функцией потерь Cross-Entropy. С другой стороны — плачущий на ветке ворон, чьи предки застали мамонтов. Технология Google DeepMind сделала то, что казалось невозможным: она превратила математику в мост сострадания. Модель Perch не имеет сознания, она не знает, что такое «потеря». Но обладая мощностью миллиардов операций в секунду, она дает нам, людям, супер способность — услышать планету так, словно она говорит с нами на одном языке. Мы стоим на пороге эпохи, когда технологии больше не отдаляют нас от природы. Они возвращают нас домой. Если вы хотите глубже погрузиться в этот контраст, скажите. Телеграм: t.me/ainewsline Источник: vk.com Комментарии:

Шепот перьев на частоте 16 кГц:

Комментарии: