Már annyi nagy nyelvi modell van körülöttünk, mint szúnyog a nyári estéken, Korábban nem volt nagy véleményem a technológiáról, mert nem láttam, hogy mi újat tudna nyújtani nekem. Igazából most sem vagyok rácuppanva, de mondjuk úgy, nyitottabb lettem, és kíváncsi lettem, milyen lehetőségek vannak benne. (Vibe coding-ot meg a hasonló hülyeségeket most hagyjuk.)
Amire én kíváncsi vagyok, mit tudok kezdeni egy LLM-el, amit nem nagy cégek akarnak rámtukmálni drága előfizetésért, és olyan szolgáltatásokkal karöltve, amire nincs szükségem. Egy lokális modellre van szükségem, amit én irányítok.
Ez nem is olyan bonyolult, van rá számtalan módszer. Nyilván egy lokális verzió nem fog versenyre kelni egy kereskedelmi verzióval, de nem is ez a lényeg, hanem a maximális kontroll.
LM Studio
A legegyszerűbb választás az LM Studio. Egy grafikus felhasználói felülettel ellátott program. Fut Windows-on, Linuxon, még az én öreg Slackware-emen is. Klikkeléssel letölti a modellt is (gpt-oss-20b), amit használni akarunk, és már meg is kérdezhetjük, milyen kövér az asszony.
Előnye, hogy könnyen tudunk fájlokat hozzáadni (akár képet is), a szöveg gazdagon formázható, amitől szép lesz a válasz is.

Ollama
Az Ollama egy parancssoros nagy nyelvi modell futtató környezet a Meta-tól, de nyílt forráskódú. Megy Linuxon, Mac-en és Windows-on is, tudja használni a GPU-t is. Először el kell indítani a szolgáltatást:
ollama start
Ezután le kell tölteni a modellt. Van lehetőség felhő alapú futtatásra is, de most a lokális elhetőségeket akarom bemutatni.
ollama pull gemma3:270m
Ez az egyik legkisebb modellt fogja letölteni, ami kb. 300Mb tárhelyet foglal. Utána már használhatjuk is.
ollama run gemma3:270m
Megjelenik a prompt, mi meg írhatunk. Ez egy nagyon kis modell, viszont gyorsan generál rövid válaszokat. Például ha megkérdezem tőle, hogy ki fedezte fel a DNS-t, akkor azt válaszolja, hogy Martin Griffith, aki a Berkley egyetemen dolgozott. James Watson pedig a Watson-Watson vakcina kifejlesztője. Rendkívül tanúságos.
llama.cpp
Mint már sejthetitek, ez a legmelósabb. Teljesen nyílt forráskódú, nekünk kell lefordítani. Csak CPU-n is elzakatol, de ha van Cuda, akkor GPU-n futó változatot is fordíthatunk. Először letöltjük GitHub-ról:
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
mkdir build
cd build
Utána fordíthatjuk a programot. Ha van 10 felesleges processzormagunk, akkor a -j 10 opcióval gyorsíthatjuk a folyamatot.
cmake -B build -DGGML_CUDA=ON ..
cmake --build build --config Release -j 10
A program a GGUF formátumú modelleket tudja használni, de nincs semmi ellenőrzés benne, ezért előfordulhat, hogy rossz modell esetén a szokásosnál is hülyébb válaszokat generál. Például én először a stabilityAI stable-code-3b modellel próbálkoztam, és nagyon furcsán viselkedett a program. Elkezdett írni egy választ, majd végtelen ciklusban ismételgette az utolsó mondatot. De lássuk, hogyan is lehet használni:
llama.cpp -hf ggml-org/gemma-3-1b-it-GGUF
Letölti a HuggingFace-ről a kívánt modellt. A fájl Linux esetén a .cache/llama.cpp/ könyvtárban lesz. Ha használni akarjuk, akkor -m opcióval tehetjük meg.
llama.cpp -m ggml-org_gemma-3-1b-it-GGUF_gemma-3-1b-it-Q4_K_M.gguf --offline
Igen, a fájl neve kicsit megváltozik.
A fent bemutatott három módszer mindegyikével képesek leszünk saját környezetben futtatni nagy nyelvi modelleket. Az egyetlen limitáció a hardver vagy az internet sávszélességünk, amikor letöltjük a modellt. Utána ha felfordul a CloudFlare, akkor is tudunk hallucinációkon röhögni.














