Главная / Аналитика / Железо
Железо

Чем считают ИИ помимо видеокарт Nvidia

На обучении Nvidia вне конкуренции. А вот за инференс уже борются специализированные чипы и собственный кремний гиперскейлеров.

Редакция asiclub2 мин27 июня

Nvidia держит рынок обучения мёртвой хваткой, и в ближайшее время это не изменится. Но с инференсом всё иначе. Тут гонять модель нужно дёшево, быстро и в огромном объёме, и на этом поле появились соперники.

Кто бросает вызов

Специализированные чипы под инференс делают ставку на скорость выдачи токенов. Groq со своими LPU и Cerebras с их гигантским кристаллом показывают сотни и тысячи токенов в секунду на одном запросе, там где обычная видеокарта выдаёт десятки. Для чат-интерфейсов и агентов, где важна отзывчивость, это ощутимо.

Гиперскейлеры пилят свой кремний. У Google свои TPU, у Amazon Trainium и Inferentia, чтобы не зависеть от одного поставщика и сбить себестоимость. Своя вертикаль от чипа до дата-центра позволяет не платить наценку за чужой бренд. К ним подтягиваются AMD с линейкой Instinct и волна стартапов, режущих архитектуру прямо под трансформеры. Выбор у покупателя впервые за годы стал настоящим.

Где настоящая экономия

Железо решает не в одиночку. Ключевая метрика — цена за миллион токенов, а она складывается из стоимости часа GPU и того, сколько токенов чип успевает выдать. Аренда H100 устаканилась около 3 долларов в час, но апгрейд на новые ускорители часто окупается: больше токенов на тот же ватт. Считать надо не ценник карты, а стоимость выданного токена: дорогой ускоритель с вдвое большей пропускной способностью нередко выходит дешевле в пересчёте на работу.

Дальше в игру вступает софт. Квантизация в FP8 добавляет от 1,3 до 2 раз пропускной способности почти без потери качества. Батчинг запросов, спекулятивное декодирование, грамотное распределение памяти под KV-кэш — всё это выжимает из одной карты кратно больше.

Мораль простая. Гнаться за самым мощным чипом бессмысленно, если ты недогружаешь его на 30%. Побеждает тот, кто считает токены на доллар и держит железо под нагрузкой, а не тот, у кого в стойке стоит самая дорогая коробка.