Миллион токенов в контексте и его пределы

Окна разрослись до миллиона токенов, но закинуть в модель весь архив часто оказывается самым дорогим способом решить задачу.

Окна контекста разрослись до миллиона токенов, а кое-где заявляют и два. Звучит так, будто RAG и вся возня с чанками больше не нужна: залил в модель весь корпус и спрашивай. На практике всё интереснее.

Что реально даёт большое окно

Миллион токенов вмещает примерно книгу на 700 страниц, которую модель держит в голове разом. Для задач с небольшим статичным набором документов это удобно: кинул десяток PDF, задал вопрос по всему сразу, получил ответ с перекрёстными связями. Никакого пайплайна, никакой индексации. Юрист загружает договор со всеми приложениями и спрашивает про пункт о неустойке, и модель сама сведёт его с определениями из начала. Аналитик кидает годовой отчёт целиком и просит собрать цифры по кварталам.

Но у медали две стороны. Во-первых, деньги. Стоимость инференса растёт линейно от входных токенов, и если пихать в модель весь архив на каждый запрос, платить придётся за прочтение архива каждый раз. Разница с точечной выборкой доходит до сотен раз.

Во-вторых, качество. Модель, формально читающая миллион токенов, на деле хуже находит нужное в середине окна, чем в начале и в конце. Феномен потерянного в середине никуда не делся, он лишь отодвинулся дальше. Чем длиннее контекст, тем выше шанс, что важный факт утонет. Модель охотно процитирует то, что лежит в начале и в хвосте, и промолчит про середину, а именно там часто прячется нужный пункт.

Когда длинное окно уместно

Оно выигрывает на маленьком корпусе, статичных данных, глубоком разовом анализе и там, где можно потерпеть задержку и заплатить больше. Один договор целиком, один research-отчёт, одно код-ревью крупного PR — идеальные кейсы.

Как только корпус растёт, данные меняются каждый час, а запросов миллионы, условия ломаются. Тогда возвращается выборка релевантного куска перед отправкой в модель. Большое окно остаётся мощным инструментом, но не универсальным. Класть в него всё подряд значит выбрать самый дорогой способ решить задачу, которую точечный поиск закрыл бы копейками.

Миллион токенов в контексте и его пределы

Что реально даёт большое окно

Когда длинное окно уместно

Модели учатся видеть и слышать

Как большие модели учат маленькие