*Learning without training* — как Google предлагает переосмыслить обучение моделей без градиентов |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-07-28 12:19 Разбираем свежую и очень необычную статью от Google. Мы знаем: если добавить в prompt несколько примеров — модель начинает лучше справляться с задачей, даже без дообучения. Это называется *in-context learning (ICL)*. Но вот вопрос: *почему это работает?* До сих пор точного ответа не было. В новой работе авторы предлагают нестандартную гипотезу: *веса модели всё-таки меняются — но не так, как мы привыкли*. Не через обучение и обратное распространение ошибки, а прямо внутри трансформера — за счёт механики `self-attention` и `MLP`. Суть: 1) Примеры в промпте изменяют активации. `Self-attention` пересчитывает эмбеддинги так, что они теперь зависят от контекста. Это известный «контекстный сдвиг». 2) Дальше — самое интересное: MLP превращает этот сдвиг в *ранг-1 обновление весов* первого слоя. То есть влияние prompt-а эквивалентно тому, как если бы к весам `W` прибавили простую корректировку. Главное: Если вручную внести эту ранк?1 правку в веса — модель *без* промпта будет давать те же ответы, что и модель *с* промптом. И всё это — во время инференса, без обучения, без градиентов, без изменения параметров модели. Это открывает путь к «обучению без обучения» — где веса можно изменять на лету, прямо во время работы. И, возможно, строить совсем новые архитектуры ИИ. Полная статья тут (https://arxiv.org/pdf/2507.16003) Источник: arxiv.org Комментарии: |
|