[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"$f2reQ6OgwHXNYssSSVbrW70zAOlQkC3kqMKt4gfYZ4rk":3},{"article":4,"related":18},{"title":5,"slug":6,"dek":7,"body":8,"cover":9,"type":10,"reading_minutes":11,"published_at":12,"category":13,"author":15},"RAG не умер, он повзрослел","rag-ne-umer-on-povzroslel","Каждые полгода RAG хоронят из-за длинного контекста. Умерла лишь наивная версия, а гибридные пайплайны только окрепли.","Каждые полгода кто-нибудь хоронит RAG. Мол, окна контекста доросли до миллиона токенов, зачем возиться с векторными базами и чанками. Прошёл ещё один цикл, а RAG жив, здоров и стал сложнее. Умерла лишь наивная его версия.\n\n## Что именно устарело\n\nНаивный RAG выглядел так: порезал документы на куски, посчитал эмбеддинги, на запрос достал топ-5 по косинусной близости, склеил и отправил в модель. Для маленького корпуса это было переусложнение, проще закинуть всё в контекст. Для большого корпуса схема оказывалась слишком грубой: похожие по эмбеддингу куски часто не те, что реально отвечают на вопрос.\n\nВот эта прямолинейная схема и посыпалась. На смену пришли гибриды. Плотный векторный поиск скрещивают с классическим полнотекстовым по BM25, добавляют реранкер, который переупорядочивает кандидатов, подтягивают к найденному чанку соседние для контекста. Retrieval стал многоступенчатым.\n\n## Гибрид победил\n\nРазберём по деньгам, почему связка живёт. Средняя цена запроса через RAG составляет доли цента. Тот же запрос, где в модель залит весь корпус, обойдётся на порядки дороже, потому что вы платите за каждый входной токен на каждом обращении. При миллионах запросов разница между центом и десятью центами превращается в бюджет отдела.\n\nПобедившая архитектура выглядит так: RAG вытаскивает из огромного корпуса релевантные 50-200 тысяч токенов, а дальше их разжёвывает модель с длинным контекстом. Так работают NotebookLM, Deep Research в Gemini и почти все серьёзные поисковые ИИ-продукты. Одно не заменяет другое, они дополняют друг друга.\n\n## Куда всё движется\n\nДальше — агентный retrieval. Вместо одного прохода «запрос, выборка, ответ» в пайплайн встраивают агента, который сам решает, что искать, переформулирует запрос, ходит за данными в несколько итераций и проверяет, хватает ли ему фактов. Поиск превращается в маленький цикл рассуждения.\n\nИ это разумно. Данные компании живут в базах, вики, тикетах и почте. Они меняются ежечасно, их нельзя запечь в веса модели. Retrieval остаётся мостом между статичной моделью и живыми данными. Мост перестраивают, но сносить его никто не собирается.",null,"longread",2,"2026-07-03T06:52:46.000Z",{"name":14},"Инфраструктура",{"name":16,"role":17,"bio":9},"Редакция asiclub","редакция",[19],{"title":20,"slug":21,"reading_minutes":11,"published_at":22,"category":23},"Как ужать модель без потери качества","kak-uzhat-model-bez-poteri-kachestva","2026-06-23T01:52:47.000Z",{"name":14}]