[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"$fW6pPKx6e2OyRQ63bKBsH8M9pTxCj5eML5BrRo3-Y3dU":3},{"article":4,"related":18},{"title":5,"slug":6,"dek":7,"body":8,"cover":9,"type":10,"reading_minutes":11,"published_at":12,"category":13,"author":15},"Куда падает цена за миллион токенов","kuda-padaet-cena-za-million-tokenov","За три года цена вопроса упала примерно в тысячу раз. Разбираемся, откуда берётся дешевизна и почему праздник замедляется.","Считать ИИ в рублях за подписку давно устарело. Сегодня всё меряют ценой за миллион токенов. Она сводит стоимость железа и пропускную способность в одно число, по которому можно сравнивать модели и провайдеров.\n\nИ это число рушится с космической скоростью. В конце 2022-го прогнать модель уровня GPT-4 стоило около 20 долларов за миллион токенов. К началу 2026-го сопоставимое качество отдают примерно за 40 центов. Падение в тысячу раз за три с небольшим года.\n\n## Откуда берётся дешевизна\n\nТри источника. Первый — железо: аренда H100 в облаке устаканилась в районе 3 долларов за час, а новые ускорители дают больше токенов на тот же ватт. Второй — софт: квантизация в FP8 на H100 идёт из коробки в vLLM и добавляет от 1,3 до 2 раз пропускной способности при потере качества меньше 2% на инструктивных моделях. Третий — архитектура: Mixture-of-Experts и дистилляция ужимают поведение большой модели в модель поменьше.\n\nНо линейку цен держит не одна оптимизация. Дорогие флагманы никуда не делись: топовая модель по-прежнему стоит в разы, а то и в десятки раз дороже мелкой. Разрыв между входными и выходными токенами тоже никуда не ушёл: на выходе токены традиционно кратно дороже.\n\n## Что это значит для продукта\n\nПраздник замедляется. Ежегодные падения в 10 раз, которые мы видели с 2021-го, к 2027-му ужмутся до 3-5 раз, а дальше и вовсе до полутора-двух. Лёгкие оптимизации закончатся. Но полтора-два раза в год всё равно значат, что через полтора года ценник вдвое ниже, и на дистанции набегает изрядно.\n\nОтсюда простое правило для тех, кто строит продукт. Не завязывайтесь на одну модель. Маршрутизируйте запросы: рутину на дешёвую модель, сложное на дорогую. Кэшируйте промпты: один и тот же системный промпт незачем гонять через модель сто раз, заплатите за него однажды. Режьте лишний контекст, потому что за каждый входной токен вы платите на каждом запросе. Экономика инференса стала отдельной инженерной дисциплиной, и игнорировать её теперь дорого.",null,"analysis",2,"2026-07-05T15:52:46.000Z",{"name":14},"Экономика ИИ",{"name":16,"role":17,"bio":9},"Редакция asiclub","редакция",[19,24,29],{"title":20,"slug":21,"reading_minutes":11,"published_at":22,"category":23},"Где ИИ реально приносит деньги бизнесу","gde-ii-realno-prinosit-dengi-biznesu","2026-07-02T06:52:47.000Z",{"name":14},{"title":25,"slug":26,"reading_minutes":11,"published_at":27,"category":28},"Российский рынок ИИ растёт вопреки ограничениям","rossijskij-rynok-ii-rastyot-vopreki-ogranicheniyam","2026-06-30T11:52:47.000Z",{"name":14},{"title":30,"slug":31,"reading_minutes":11,"published_at":32,"category":33},"Сколько стоит обучить большую модель","skolko-stoit-obuchit-bolshuyu-model","2026-06-25T16:52:47.000Z",{"name":14}]