Главная / Аналитика / Экономика ИИ
Экономика ИИ

Сколько стоит обучить большую модель

Один прогон флагмана стоит десятки, а то и сотни миллионов. При этом та же способность год спустя достаётся в разы дешевле.

Редакция asiclub2 мин25 июня

Цифры за обучение флагманских моделей давно перешли из области инженерии в область большой политики бюджетов. Один тренировочный прогон топовой модели обходится в десятки, а по верхним оценкам в сотни миллионов долларов. И это только один запуск из многих.

Из чего складывается счёт

Основная статья — вычисления. Тысячи ускорителей молотят неделями и месяцами, а каждый час их работы стоит денег: и аренда, и электричество, и охлаждение. Умножьте цену часа GPU на тысячи карт и на месяцы, и получите порядок величины.

Дальше идёт то, что в смету попадает не сразу. Данные надо собрать, очистить, разметить и отфильтровать, а это отдельный дорогой конвейер. Неудачные прогоны, которые пришлось выбросить, тоже оплачены. Плюс зарплаты редких инженеров, которые всё это ведут. Публичная цифра «столько стоил трейн» обычно занижена: она про финальный успешный запуск, а не про весь путь к нему. Прибавьте эксперименты, которые не взлетели, бесконечный подбор гиперпараметров и месяцы работы дата-инженеров ещё до первого прогона. Реальная смета кратно толще красивой цифры из пресс-релиза.

Куда движется тренд

Тут интересный разлом. С одной стороны, фронтир дорожает: чтобы выжать следующий прирост качества, нужно кратно больше вычислений. С другой стороны, та же способность год спустя достаётся радикально дешевле. То, что вчера тянул только гигант с сотнями миллионов, сегодня повторяют командой поменьше за долю бюджета.

На удешевление работают сразу несколько сил. Архитектуры вроде Mixture-of-Experts считают не всей моделью сразу. Дистилляция переливает поведение большой сети в маленькую. Железо и софт для обучения год от года эффективнее.

Вот и получается парадокс. Гонка на самом верху становится дороже и доступна горстке игроков. А всё, что чуть ниже фронтира, дешевеет так быстро, что порог входа для остальных падает. Обе тенденции идут одновременно, и именно их столкновение задаёт форму всего рынка.