В этом дайджесте мы собрали 50 знаковых научных работ в области ИИ за последние годы. Подборка охватывает десять ключевых направлений разработки нейросетей: от промтинга и проектирования бенчмарков до файнтюнинга и компьютерного зрения.
Материал будет полезен как для опытных ИИ-инженеров, которые хотят прокачать свои навыки разработки, так и тем, кто только начинает свое знакомство с нейросетями и находится в поисках точки входа в ту или иную тему.
Оглавление
Передовые LLM
Бенчмарки и тесты
Промтинг, In-Context Learning и Chain of Thought
Генерация с дополненной выборкой (RAG)
Агенты
Генерация кода
Компьютерное зрение
Голос
Генерация изображений и видео
Файнтюнинг
С чего начать
Передовые LLM
Научные статьи по GPT1, GPT2, GPT3, Codex, InstructGPT и GPT4 от разработчиков из OpenAI. Здесь вряд ли нужны дополнительные пояснения. По GPT3.5, 4o, o1 и o3 вместо таких статей компания выпускала уже презентации и системные карты.
Научные работы по LLaMA 1, Llama 2, Llama 3 помогут в понимании передовых открытых моделей. Если вас интересует именно эта категория LLM, можете также почитать про Mistral 7B, Mixtral и Pixtral.
Статьи по DeepSeek V1,Coder,MoE,V2, V3. Передовая лаборатория открытых моделей.
Статья по Apple Intelligence. Эта система теперь есть на всех Mac и iPhone.
Кроме того, можно и использовать другие LLM и учиться на них, это очень объемная тема.
В частности, недооцененными рабочими лошадками оказались модели семейства BERT: из этих постов о ModernBERT и ColBERT можно почерпнуть много полезного.
MATH — компиляция задач с математических соревнований. Передовые лаборатории делают упор на FrontierMath и сложные разделы MATH: MATH level 5, AIME, AMC10/AMC12.
IFEval— ведущий бенчмарк, проверяющий навык следования инструкциям, а также единственный внешний бенчмарк, принятый на вооружение Apple. MT-Bench тоже можно считать разновидностью IFEval.
Челлендж ARC AGI— знаменитый бенчмарк для «IQ-теста» навыков к абстрактному рассуждению, который долгое время не теряет актуальности.
Выше мы уже упоминали статью о GPT3, в которой рассматривается In-Context Learning (ICL) — концепция, близкая к промтингу. Для более полного понимания темы стоит также разобраться в инъекциях промтов (например, о них писали Лилиан Венг и Саймон Виллсон).
The Prompt Report — обзор научных статей о промтинге (здесь можно послушать подкаст на эту тему).
Автоматический промтинг(automatic prompt engineering) — становится все очевиднее, что люди ужасно справляются с zero-shot prompting и что LLM могут улучшить самостоятельный промтинг. Самую любопытную реализацию такого подхода можно найти в исследовательской статье/фреймворке DSPy.
В 2024 году RAG стала одной из основных технологий в разработке ИИ, поэтому советуем изучить по ней как можно больше отраслевых ресурсов. Вероятно, наиболее ценными образовательными ресурсами будут LlamaIndex (курс) и LangChain (видео). Еще RAG часто сравнивают по эффективности с Long Context — вот неплохое исследование на эту тему.
Статья по ReAct(подкаст) — ReAct стал началом длинной серии исследований LLM, использующих внешние инструменты и вызывающих функции, в том числе Gorilla и BFCL Leaderboard. Из исторического интереса можно изучить Toolformer и HuggingGPT.
MemGPT— одна из примечательных методик эмуляции долговременной памяти агентов, применяемая в ChatGPT и LangGraph. Сегодня ее используют для всех систем агентов: от MetaGPT до AutoGen и Smallville.
Voyager— разработанный Nvidia способ реализации трех компонентов когнитивной архитектуры (curriculum, skill library, sandbox) для повышения производительности. Если хотите погрузиться в эту тему, рекомендуем также ознакомиться с работой Agent Workflow Memory.
Материал Anthropicна тему создания эффективных агентов — отличный обзор за 2024 год с упором на важность chaining, маршрутизации, параллелизации, оркестрации, оценки и оптимизации. См. также статьи Лилиан Венг (бывшей сотрудницы OpenAI), Сунью Яо (теперь работающего в OpenAI) и Чипа Хуэна.
Генерация кода
The Stack — открытый датасет-близнец The Pile с упором на код, с которого начинается родословная прекрасных открытых датасетов по генерации кода, таких как The Stack v2 и StarCoder.
HumanEval/Codex — этот бенчмарк перестал быть вызовом для современных архитектур, но он остается ключевым для понимания принципов работы с моделями в области генерации кода. Сегодня в этой сфере более знаменит SWE-Bench, но он затратен и оценивает агентов, а не модели. Современные аналоги этого бенчмарка — Aider, Codeforces, BigCodeBench, LiveCodeBench и SciCode.
Статья по AlphaCodeium — Google выпустила AlphaCode и AlphaCode2 , хорошо справляющиеся с задачами программирования. Рассматриваемый в статье метод Flow Engineering позволяет существенно повысить эффективность любой базовой модели.
CriticGPT— как известно, LLM способны генерировать код, имеющий проблемы с безопасностью. OpenAI обучила для их выявления CriticGPT, а Anthropic использует разреженные автоэнкодеры, чтобы отслеживать, почему LLM совершает такие ошибки.
Работы по компьютерному зрению, не связанные с LLM, по-прежнему актуальны: здесь, например, следует ознакомиться с научной работой поYOLO(теперь он имеет версию 11, но его родословную следует иметь в виду). При этом все более важную роль начинают играть трансформеры (наглядный пример — статья DETRs Beat YOLOs).
Статья по CLIP— первом успешном ViT. На данный момент его вытеснили BLIP/BLIP2 и SigLIP/PaliGemma, но о нем все равно стоит знать.
Бенчмарк MMVP (LS Live) — выполняет количественную оценку важных проблем CLIP. Также обратите внимание на мультимодальные версии MMLU (MMMU) и SWE-Benc.
Статья по Whisper— популярной модели Алека Рэдфорда по распознаванию речи. Whisper v2, v3, distil-whisper и v3 Turbo имеют открытые веса, но научных работ по ним не найти.
Статья по NaturalSpeech— одному из ведущих подходов к преобразованию текста в речь. Недавно выпущена v3.
AudioPaLM — последний пример размышлений Google о голосовых технологиях до того, как PaLM превратился в Gemini.
Здесь мы рекомендуем не ограничиваться изучением наработок крупных лабораторий и копнуть чуть глубже — попробуйте Daily, Livekit, Vapi, Assembly, Deepgram, Fireworks, Cartesia, Elevenlabs и так далее. Также почитайте обзор State of Voice 2024.
Генерация изображений и видео
Работа по Latent Diffusion — по сути, статья о Stable Diffusion. См. также статьи о SD2, SDXL, SD3 (сейчас многие из этих исследователей работают над BFL Flux).
Обзор Sora от OpenAI — нейросеть для преобразования текста в видео. Как обычно, никаких научных работ на эту тему, за исключением статьи о DiT (та же команда), но это все равно один из важнейших релизов года, имеющий множество конкурентов с открытыми весами наподобие OpenSora (обзор от Лилиан Венг).
Статьи по LoRAи QLoRA— самом популярном способе бюджетного файнтюнинга моделей, как локальных, так и 4o (подтверждено вэтом подкасте). В образовательных целях также можно познакомиться с проектом FSDP+QLoRA.
Мы рекомендуем изучить заметки по Unsloth и статью How to fine-tune open LLM от HuggingFace, чтобы получить более полное представление о процессе. Очевидно, что это бесконечно глубокая тема: файнтюнинг может быть как прикладной задачей для инженеров, так и переходить в научные исследования, где создаются новые подходы и методы.
С чего начать
Столь объемный список может выглядеть пугающе для новичка. Мы рекомендуем сконцентрироваться на разделах, которые представляют для вас наибольший интерес, и постараться придерживаться намеченного плана.
Можете выработать собственный подход к обучению или использовать руководство «Как читать научные публикации за час». Пару полезных советов на данную тему также есть в этом треде, а здесь вы найдете дневник одного из читателей с полезными заметками по ключевым статьям из этой подборки. Если вы хотите заниматься изучением в компании единомышленников, можете также присоединиться к Discord-серверу Latent Space.
Вспомнили научную работу, которую обязательно стоило включить в этот список? Делитесь предложениями в комментариях!