RAG не умер, он повзрослел

Каждые полгода RAG хоронят из-за длинного контекста. Умерла лишь наивная версия, а гибридные пайплайны только окрепли.

Каждые полгода кто-нибудь хоронит RAG. Мол, окна контекста доросли до миллиона токенов, зачем возиться с векторными базами и чанками. Прошёл ещё один цикл, а RAG жив, здоров и стал сложнее. Умерла лишь наивная его версия.

Что именно устарело

Наивный RAG выглядел так: порезал документы на куски, посчитал эмбеддинги, на запрос достал топ-5 по косинусной близости, склеил и отправил в модель. Для маленького корпуса это было переусложнение, проще закинуть всё в контекст. Для большого корпуса схема оказывалась слишком грубой: похожие по эмбеддингу куски часто не те, что реально отвечают на вопрос.

Вот эта прямолинейная схема и посыпалась. На смену пришли гибриды. Плотный векторный поиск скрещивают с классическим полнотекстовым по BM25, добавляют реранкер, который переупорядочивает кандидатов, подтягивают к найденному чанку соседние для контекста. Retrieval стал многоступенчатым.

Гибрид победил

Разберём по деньгам, почему связка живёт. Средняя цена запроса через RAG составляет доли цента. Тот же запрос, где в модель залит весь корпус, обойдётся на порядки дороже, потому что вы платите за каждый входной токен на каждом обращении. При миллионах запросов разница между центом и десятью центами превращается в бюджет отдела.

Победившая архитектура выглядит так: RAG вытаскивает из огромного корпуса релевантные 50-200 тысяч токенов, а дальше их разжёвывает модель с длинным контекстом. Так работают NotebookLM, Deep Research в Gemini и почти все серьёзные поисковые ИИ-продукты. Одно не заменяет другое, они дополняют друг друга.

Куда всё движется

Дальше — агентный retrieval. Вместо одного прохода «запрос, выборка, ответ» в пайплайн встраивают агента, который сам решает, что искать, переформулирует запрос, ходит за данными в несколько итераций и проверяет, хватает ли ему фактов. Поиск превращается в маленький цикл рассуждения.

И это разумно. Данные компании живут в базах, вики, тикетах и почте. Они меняются ежечасно, их нельзя запечь в веса модели. Retrieval остаётся мостом между статичной моделью и живыми данными. Мост перестраивают, но сносить его никто не собирается.

RAG не умер, он повзрослел

Что именно устарело

Гибрид победил

Куда всё движется

Как ужать модель без потери качества