Как большие модели учат маленькие
Маленькую модель выучивают на ответах большой. Приём стал стандартом отрасли и развернул рынок в сторону эффективности.
Не каждую задачу нужно решать флагманом. Классифицировать тикеты, разметить отзывы, вытащить сущности из текста — тут гигантская модель избыточна и разорительна. Но где взять маленькую, которая справляется почти как большая? Её выучивают у большой. Приём называется дистилляцией.
Как это устроено
Идея простая до наглости. Берём большую модель-учителя, прогоняем через неё гору примеров и записываем её ответы. Потом на этих парах «вопрос и ответ учителя» тренируем маленькую модель-ученика. Ученик копирует поведение учителя, а не учится с нуля на сырых данных. Так в модель на 7-13 миллиардов параметров переливают повадки сети, которая на порядки крупнее. Часто учитель отдаёт не готовый ответ, а целое распределение вероятностей по вариантам, и ученик перенимает и сам выбор, и оттенки уверенности за ним.
Выигрыш ощутимый. Готовый ученик крутится на одной видеокарте и обходится в 5-20 раз дешевле за токен, чем учитель. Отвечает быстрее, памяти ест меньше, а на своей узкой задаче почти не уступает большому донору.
Где это в реальном мире
Приём стал стандартом отрасли. Открытые релизы вроде DeepSeek-R1, Qwen и других прямо описывают, как дистилляцией выводили младшие модели своих семейств из старших. Компании берут дорогой флагман, дистиллируют его под свой домен и катят в прод дешёвого специалиста.
Есть и оборотная сторона. Ученик наследует и сильные стороны учителя, и его ошибки с искажениями. И тонкий тут вопрос про чужие модели: обучение на ответах closed-source сетки упирается в лицензии, и вокруг этого уже кипят споры, кто у кого списал.
Общая логика рынка развернулась. Ещё недавно все гнались за «побольше параметров». Сейчас лозунг сменился на эффективность. Умная маленькая модель, обученная у правильного учителя, во многих продуктовых сценариях бьёт огромную по совокупности цены, скорости и удобства.