Я заставил LLM писать Rust полгода. Вот что они стабильно ломают |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2026-05-18 11:00 Полгода я использовал Claude, GPT и Cursor как основной инструмент для написания Rust-кода в проде. Не как «помощник для бойлерплейта», а как полноценного второго разработчика на монолите примерно в 80 тысяч строк (бэкенд обработки потоковых данных, tokio, sqlx, немного unsafe в hot path). Доля сгенерированного кода в коммитах последних шести месяцев около 40%, остальное это правки, рефакторинг и места, куда модель я не пускаю. За это время накопилась коллекция ошибок, которые модели делают с пугающей регулярностью, и которые проходят cargo build, проходят cargo test, иногда даже проходят cargo clippy, и при этом являются либо UB, либо логически некорректным кодом, либо тем самым «работает на моей машине». Я не буду писать, какая модель лучше. К моменту публикации статьи рейтинг устареет. Я расскажу про категории ошибок, которые воспроизводятся у всех топовых моделей весной 2026 года, и которые упираются не в качество обучающих данных, а в фундаментальные слепые пятна архитектуры трансформеров применительно к системе типов Rust. Цифры, которые буду приводить дальше, получены так: я завёл бенчмарк из 50 типовых задач (написать функцию, отрефакторить, добавить фичу), прогонял каждую через четыре модели в течение полугода, и руками классифицировал ошибки. Это не academic-level статистика, но порядки величин показывает. Почему именно Rust ломает LLM С Python модель угадывает по контексту почти всегда. С Go угадывает почти всегда. С Java и TypeScript промахивается на сигнатурах, но компилятор это ловит. Rust отличается тем, что значительная часть его корректности живёт в местах, которые модель физически не видит в окне контекста: в коде вызывающей стороны, в трейтах из другого крейта, в drop-порядке, в lifetime-связях между параметрами функции и её возвращаемым значением. Трансформер генерирует токены последовательно, и его внимание распределено по тексту, который ему дали. Borrow checker рассуждает о графе заимствований во времени. Эти две модели мира пересекаются только частично, и в местах непересечения происходят интересные ошибки. Категория первая. Lifetime laundering Самая частая ошибка, которую я видел у всех моделей. В моём бенчмарке она воспроизводится в 34 из 50 задач, где функция возвращает ссылку. Выглядит так: Это валидный код. Теперь просим модель добавить кеширование: Компилируется. Изолированный тест проходит. Является ловушкой замедленного действия. Чтобы увидеть в чём беда, надо посмотреть на вызывающий код: Один лайфтайм Правильная сигнатура должна разделить два лайфтайма ( Категория вторая. Send и Sync, которых там нет Просите модель сделать «структуру, которую можно шарить между потоками». Получаете: Код компилируется. Тесты проходят. В проде это deadlock на любой нагрузке, где задачи начинают вытесняться рантаймом между потоками. Clippy ловит это правилом Модели путают Категория третья. Drop order и RAII-капканы Просим отрефакторить под обработку ошибок с откатом. Модель делает так: Вроде разумно. Только предположим, что Я отдельно проверял: если в промпте явно указать «используется sqlx 0.7», результат становится заметно лучше, но всё равно не идеальным. Модель помнит API, но не помнит контракты Drop. Категория четвёртая. Unsafe, который выглядит безопасно Это самая опасная категория. Просим написать быстрый парсер, который читает заголовок из байтового буфера: Если Я собрал 40 примеров unsafe-кода, который мне сгенерировали разные модели за полгода, и прогнал через Miri умеет ловить такие вещи, но мало кто его гоняет в CI, потому что он медленный (10x к обычным тестам в моём проекте) и не поддерживает FFI. После полугода я всё равно его включил для всех файлов с Категория пятая. Async cancellation Эту категорию я хочу разобрать подробнее, потому что она самая болезненная и наименее обсуждаемая. Модели плохо понимают, что фьючи в Rust отменяемы в любой точке Если этот future вызывается через В моём бенчмарке из 12 задач, где требовалось написать обработчик с таймаутом или race-конструкцией, ни одна модель ни разу не упомянула cancel safety сама. Когда я спрашивал «эта функция cancel-safe?», модели в половине случаев уверенно отвечали «да», и приводили неправильное обоснование. В одном случае Claude написал «функция cancel-safe, потому что все await-точки идемпотентны», что одновременно неверно и звучит правдоподобно. Корень проблемы в том, что cancel safety это свойство, которое нигде не выражено в типах. Когда я пишу сигнатура не отличается от cancel-safe и не-cancel-safe варианта. Borrow checker не помогает. Clippy не помогает. Документация tokio помогает, но её надо читать, и для каждой используемой функции отдельно. Например, Чтобы LLM это понимала, ей нужна не просто сигнатура, а полный контекст вызывающего кода. А его модель не видит, потому что он живёт в другом файле, иногда в другом крейте, иногда вообще в библиотечном Лечится это так. Во-первых, любую функцию, которая может оказаться внутри Этот код тоже не идеален ( Это место, где Rust почти достроил мост, но не достроил. Язык даёт инструмент ( Категория шестая. Семвер-конфликты в blanket impl Модели любят предлагать Допустим, в crate A есть: Crate B зависит от A и пишет: В момент написания crate A не имел impl для Модель не знает, как ваш крейт используется снаружи, поэтому охотно предлагает blanket impl там, где должен быть explicit impl для конкретных типов. В моём опыте это вторая по болезненности категория после async cancellation, потому что ошибка проявляется не на CI вашего крейта, а на CI потребителей через несколько месяцев. Правило, которое я для себя вывел: blanket impl в публичном API допустим только если трейт sealed (закрыт от внешних реализаций), и в любом другом случае надо писать impl поштучно. LLM сама это правило не применяет, надо проверять глазами. Категория седьмая. Allocator и большие массивы на стеке Один мегабайт на стеке, возвращаемый по значению. В debug-сборке это stack overflow с большой вероятностью. В release rustc на 1.84 умеет делать NRVO в большинстве случаев, но это не гарантия: достаточно одного промежуточного Связанная ошибка: модель часто пишет LLM это знает, если спросить прямо («аллоцируй в куче без промежуточного стека»), и не знает по умолчанию. Цена ошибки маленькая (заметна сразу), но в proc-макросах и code-gen, где массив создаётся внутри сгенерированного кода, отлов занимает час. Промпты, которые реально работают За полгода я вывел несколько шаблонов, которые статистически снижают количество ошибок в моём бенчмарке. Делюсь. Первое, всегда указывайте версии крейтов и async-рантайм в начале промпта. Не «напиши обработчик HTTP», а «напиши обработчик HTTP, axum 0.7, tokio 1.35, sqlx 0.7 с postgres». В моём бенчмарке это снизило количество ошибок категории 2 (Mutex) с 46% до 19%. Второе, явно требуйте обозначить cancel safety каждой async-функции. Промпт «для каждой async-функции добавь комментарий cancel-safe или not cancel-safe и обоснуй» работает заметно лучше, чем «напиши cancel-safe код». Первый заставляет модель пройтись по каждой функции, второй она игнорирует. Третье, для unsafe требуйте отдельный блок с safety invariants. Промпт «перед каждым unsafe-блоком напиши Четвёртое, для нетривиальных lifetime-сигнатур требуйте показать пример вызывающего кода. Это вынуждает модель выйти из локальной оптимизации и проверить, что сигнатура осмысленна снаружи. У меня это закрыло почти все ошибки категории 1. Пятое, не давайте модели проектировать trait-иерархии без явного контракта. Сначала вы пишете trait-определения и документацию, потом модель пишет реализации. Если попросить модель спроектировать трейты «с нуля под задачу X», результат стабильно хуже среднего человеческого. Что я в итоге поменял в процессе Перестал давать модели маленькие изолированные задачи. Чем меньше контекста, тем больше она оптимизирует локально и тем чаще ломает архитектурные инварианты. Включил miri в ночной CI для всего unsafe-кода. Это медленно, но один пойманный UB окупает неделю миришной тормозни. Если у вас есть FFI, можно использовать Добавил Завёл правило: любой код от модели, где есть Полностью отказался от того, чтобы доверять модели проектирование trait-иерархий. Это место, где она ошибается стратегически, и где правки потом стоят дорого. Что из этого следует LLM это полезный инструмент для Rust, но он не заменяет понимания языка. Он усиливает того, кто понимает borrow checker, async cancellation и unsafe-контракты, и опасен для того, кто не понимает. Парадокс в том, что чем сложнее язык, тем больше выигрыш от модели на рутине, и тем больше потери от модели на тонких местах. Главный вывод полугода такой. Через год rustc будет в CI у каждого, кто всерьёз пользуется LLM, и не потому что разработчик так захотел, а потому что без него код от модели становится финансовым риском. Языки с богатой системой типов перестают быть «сложнее, чем Python», и становятся «безопаснее в эпоху LLM, чем Python». Если этот сдвиг произойдёт, Rust выиграет не благодаря маркетингу memory safety, а благодаря тому, что компилятор отрабатывает за code reviewer там, где у других языков code reviewer нет вообще. Те ошибки, которые я описал в статье, это то, что осталось после фильтра компилятора. Десять лет назад я бы сказал, что таких ошибок не бывает. Сейчас они стабильно генерируются раз в неделю на одном разработчике. Если у вас есть свои примеры, где модель уверенно сломала Rust, поделитесь в комментариях. Я веду коллекцию и однажды сделаю из неё отдельный пост с разбором каждого случая. Жду замечаний и предложений в комментариях, спасибо за прочтение статьи! P.S. Rust сегодня исполняется 11 лет ?? С версии 1.0 многое изменилось, но история языка всё ещё пишется. От первого стабильного релиза до сегодняшнего дня Rust вырос в топовый язык, сформированный аккуратным дизайном и крутым сообществом, которое постоянно поднимает планку качества в разработке ПО. Телеграм: t.me/ainewsline Источник: uproger.com Комментарии: |
|