Прогресс не стоит на месте и мне так же пришлось начать работать с ИИ. Но т.к. мне, как и многим, а особенно в бизнесе, не хочется делиться своими данными, то приходится искать варианты запуска ИИ на слабеньком, по сравнению с гигантами, ПК…
С течением времени появились разные системы позволяющие это сделать. Да и сами ИИ агенты тоже стали поменьше весить и конечно требовать ресурсы. Что же касается ресурсов, то тут всё просто — нужно побольше VRAM, RAM и помощнее процессор. К сожалению, из-за этой технологии цены на видеокарты, оперативку и SSD диски взлетели в несколько раз.
Чтобы не было вопросов о том на чём я запускаю, то вот мой конфиг:
- видео: GeForce 4060 8Gb
- RAM: DDR4 — 64Gb
- CPU: Ryzen 7 5700X 8-Core
- SSD: NvME KINGSTON SNV3S1000G — не самый быстрый, но для нас сойдёт:

Как написано в заголовке, экспериментировать будем с LM Studio и возьмём её с официального сайта — https://lmstudio.ai/download.

Весит всего-то 568 метров. Скачали и запускаем установку. В установке нет ничего особенного — постоянно жмём далее, пока не установится. Единственный нюанс, при установке для всех пользователей нужны будут права администратора. Ну и сразу запускаем…

Жмём «Get Started» и следом.. «Skip for now» — не будем ставить по умолчанию gemma-3-4b… А на следующем экране включаем «Turn on Develop Mode» оставляя включенным автостарт.

Ну вот, первый запуск произведён. Жмём на шестерёнку и ставим Русский язык.

К сожалению, руссификация не полная, но что есть то и будем есть…
Ну и… Для начала, больше никаких настроек не меняем. Но ведь нам нужно какую-то модель установить? Для этого жмём иконку робота с лупой слева вверху:

И в поиске выбираем нужную модель. Но сперва некая информация по их именованию:
Qwen3.5 35B-A3B-GGUF
- Qwen3.5 — В начале идёт имя модели и её версия:
- 35B — сколько миллиардов (billion) записей — от этого зависит сколько памяти (видео и оперативной) будет требоваться.
https://habr.com/ru/articles/922340 есть небольшой набор параметров:

Или по характеристикам:


Т.е. мой ПК где-то между минимумом и оптимальным… Не весело… Ну, значит выбираем что-нибудь в районе 10B.

Если попытаемся взять больше, чем можем съесть, то.. нам не запретят, но предупредят:

Аналогично и с моделями от энтузиастов, но в иконках:


Но есть ещё небольшой нюанс (так написано тут: https://habr.com/ru/articles/922340/)
Чем выше цифра после Q — тем точнее модель, но тем тяжелее она запускается. Q8 — сохраняет наибольшее качество, но требует больше VRAM. Q2 и Q3 — слишком шакалье сжатие. Оптимальный компромисс — Q4_K_M или Q5_K_M.
Так что выбираем нужный нам (приемлемый) вариант:

Процесс загрузки можно посмотреть в правом верхнем углу:

И да, можно искать специфические модели заточенные под сто-то конкретно (например под Roblox):

Ну вот, дождались! Скачалось и теперь можно нажать на человечка для начала переписки.

Но прежде чем писать, нам нужно выбрать модель из кучи загруженных, нажав сверху на «Выберите модель для загрузки».

Пока что она единственная и выбирать не из чего… В параметры пока что не лезем (мы же и так выбрали подходящую модель). Ну и проверим что всё работает:


Т.е. мы добились своего — ИИ агент работает локально. Естественно что несколько медленнее чем облачный, да и явно будет несколько глупее.
Общайтесь теперь с ИИ сколько угодно и совершенно бесплатно.