Сходил тут в обновленный CS Space в ПОМИ (олды вспомнят computer science club) на лекцию Сергея Николенко по AI Safety

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Сходил тут в обновленный CS Space в ПОМИ (олды вспомнят computer science club) на лекцию Сергея Николенко по AI Safety. Спойлер: всё очень плохо. В смысле, лекция-то отличная, а вот по предметной области исследования очень сильно отстают от того, что нужно для безопасного применения ИИ. Хайлайты: prediction markets ожидают AGI (artificial general intelligence) к 2030-му, в прошлом июне предсказание было на 2033. В некоторых задачах LLM могут быть до смешного некомпетентными, что не помешает им превзойти человеческий уровень в других задачах, которых хватит для катастрофического эффекта. Внутри ИИ-модели обучаются Бог знает на что, а всякий reinforcement learning with human feedback (RLHF) даёт этому неизвестно чему человеческое лицо, которое очень легко убрать. Ещё было про то, как компания начала с разработки безопасного открытого ИИ, а потом забила на первые два пункта (да, это про OpenAI). Много технических штук про reward hacking и связанные вещи, и про то, какой кучей способов современные ИИ-модели можно сломать. Прекрасная фраза про то, что "пока что модели верят, что мы не читаем chain of thought, но это ненадолго". Очень интересные результаты про то, что внутри LLM сущетсвует reinforcement learning, который туда никто не закладывал - он сам появился в процессе обучения. Ну и самое прекрасное - то, как большую языковую модель дообучили писать плохой программный код, и она стала плохой во всех смыслах слова: стала давать карикатурно злые советы и полюбила нацистов.

Последнее, правда, может быть и хорошей новостью для AI alignment: если есть какой-то общий "злой вектор" внутри модели, который можно обучать и в обратную сторону. А может быть и очень плохой новостью, если любой шаг в сторону от good-aligned модели ломает ей кучей разных способов.

Друг, который работает в разработке ИИ, спросил, есть ли по итогам доклада ощущение, что мы в полной жопе. Когда я ответил, что да, есть, сказал, что живет с этим осознанием года полтора минимум

В общем, через пару дней на сайте будет запись лекции, всем хоть как-то имеющим отношение к ИИ рекомендую. https://csspace.io/open-lecture/2025-AGI

PS: Лет десять назад над Юдковским и его постами про василиска было принято смеяться, а теперь, в эпоху LRM, как-то уже не очень смешно


Источник: csspace.io

Комментарии: