Локальная LLM или API: что запускать на VPS
чтение · 5 мин
Оба подхода работают на одном и том же VPS, но компромиссы у них разные. Локальные модели дают фиксированные расходы и полную приватность; API-модели дают frontier-возможности без железа. Вот как выбрать.
Ключевые моменты
Модель расходов
Локальная модель стоит фиксированную ежемесячную плату за VPS вне зависимости от объёма использования. API берёт оплату за токены — дёшево при лёгком использовании, но растёт с объёмом. Тяжёлые и предсказуемые нагрузки выгоднее локально; всплесковое или низкое потребление — выгоднее через API.
Приватность
С локальной моделью данные никогда не покидают сервер — идеально для чувствительного кода или регулируемых данных. С API запросы уходят провайдеру; выбирай эндпоинты в ЕС и минимизируй персональные данные, если это важно.
Возможности
Frontier-модели API (Claude Opus, GPT, Gemini) всё ещё лидируют в сложных рассуждениях и большом контексте. Модели с открытыми весами (Llama, DeepSeek, Qwen, Mistral) превосходны и быстро прогрессируют, и часто их более чем достаточно для узких задач.
Железо
Небольшие открытые модели (до ~8B) работают на CPU обычного VPS. Моделям побольше нужен GPU. API-моделям вообще не нужно специальное железо — только доступ к сети.
Когда что выбирать
Выбирай локально ради приватности, фиксированного бюджета и офлайн-контроля. Выбирай API ради максимальных возможностей и нулевого управления железом. Многие конфигурации используют оба варианта: дешёвая локальная модель для рутины, frontier-API для сложного.
Частые вопросы
Можно ли запустить оба варианта на одном VPS? +
Да. Частый паттерн — направлять простые запросы на небольшую локальную модель, а сложные на frontier-API, удерживая расходы низкими без потери возможностей.
Нужен ли GPU небольшим локальным моделям? +
Нет — модели примерно до 8B параметров работают на CPU приемлемо. GPU становится нужен только для более крупных моделей или высокой пропускной способности.
Что дешевле? +
Зависит от объёма. Высокое и стабильное использование обычно дешевле на локальной модели с фиксированной платой; лёгкое или непредсказуемое — обычно дешевле на API с оплатой за токены.
Связанные гайды
Запускай что угодно — или оба варианта
VPS, где хватит места локальным моделям и пропускной способности для API-запросов.
Посмотреть тарифы VPS →