Как запустить языковую модель на своём компьютере

Ноутбук с 16-32 ГБ памяти тянет вменяемого ассистента без облака и платы за токены. Практический разбор, с чего начать.

Гонять модель локально стало реально даже без серверной стойки. Ноутбук с 16-32 ГБ памяти уже тянет вполне вменяемого ассистента. Данные не уходят в облако, за токены никто не берёт денег, интернет не нужен. Разберём, как подступиться.

С чего начать

Самый лёгкий вход — Ollama или LM Studio. Ставишь одну программу, она сама качает модель и поднимает локальный сервер, совместимый с привычным API. Через пять минут в терминале уже отвечает 7B-модель. Для тех, кто хочет контроля, есть llama.cpp напрямую и vLLM для более серьёзной нагрузки. Проще стартовать с Ollama: одна команда в терминале качает модель и поднимает её, а дальше дёргаешь тем же форматом запросов, что и облачные сервисы.

Модель выбирают под объём памяти. Грубая прикидка: модель на 7-8 миллиардов параметров в 4-битной квантизации просит примерно 5-6 ГБ, для 13B нужно около 9-10, а 70B требует уже за 40 ГБ и хорошей видеокарты. Начинать стоит с чего-то из семейств Qwen, Llama или Mistral в квантизации Q4, где удачно сходятся качество и аппетит.

Про квантизацию и железо

Квантизация ужимает веса с 16 бит до 8, 4, а то и меньше. Модель худеет в разы, а качество проседает удивительно мало: на 4 битах потери обычно в пределах пары процентов на бытовых задачах. Именно она сделала локальный запуск массовым.

Железо решает скорость. На Apple Silicon работает быстро из коробки, потому что единая память отдаётся и процессору, и графике. На ПК всё упирается в видеокарту: чем больше VRAM, тем крупнее модель влезет целиком. Если модель не помещается в видеопамять, часть уходит в оперативную, и скорость падает в разы.

Чего ждать по качеству? Локальная 7-8B не заменит топовый флагман на сложных рассуждениях. Но с суммаризацией, черновиками, разбором текста, простым кодом и работой с личными данными она справляется отлично. А главное, всё остаётся на вашей машине. Бонус для разработчика: можно спокойно скармливать модели свой код и документы, не думая, куда они утекут и кто их прочитает.

Как запустить языковую модель на своём компьютере

С чего начать

Про квантизацию и железо

Открытые модели догнали закрытые