LLMs, marketinski receno vestacka inteligencija (nije)

coja · January 31, 2025, 9:50pm

Trebalo je ranije da otvorim ovaj thread, al eo ga sad, uz hype-a oko Deepseeka.

ChatGPT, Perplexity, Coopilot i ostali toolovi su pokrenuti na tudjem serveru, ako koristite neki od tih toolva imajte na umu da time pomazete proprietary software-u i pritom ugrozavate svoju privatnost, moguce je da se loguje i svaki vas prompt, tako da pazite i sta pisete. Poslednji put kad sam pogledao za registraciju na ChatGPT-u je potrebno ostaviti broj telefona.

Alternativa je da se lokalno pokrene LLM, pa bih probao jednostavno da objasnim kako poceti i koje su opcije.

Ollama - meta-in open source program koji pokrece LLM-ove (github) , jednostavno za instalaciju
Llama.cpp - malo kompikovanije, za mnoge OS je potrebno buildati ga llm gen guide
PocketPal - za mobilni, iz nekog razloga nije na F-Droidu, voditi racuna da ne sprzite fon, moj se pregreva

Clients

Spisak UI klienata
Open web ui - msm da ima najvise feature-a
Oatmeal - terminal user interface (TUI)

Instalacija

ollama download ili install preko skripte, neki package manageri na linuxu ga vec imaju (znm za pacman)
llama.cpp build guide, pre-built install

Sigurnija opcija je pokrenuti ih unutar virtualne masine ili containera (lxc, docker,…).

Modeli

Ollama modeli se instaliraju preko komande koja se moze naci kod njih na sajtu, odabere se velicina modela i copy paste u terminal
Llama.cpp je malo kompilovaniji, potrebno je skinuti model i onda ga gadjati komandom readme iz repoa

Na pitanje kako odabrati model, nisam siguran sta pravi odgovor, zavisi od jacine masine na kome se pokrece, kolko sam skapirao, radi valjda na 2 nacina,

obradu vrsi CPU (procesor), a model se smesta u RAM (memoriju)
obradu vrsi GPU (graficka karta), a model se smesta u VRAM (memoriju) od GPU

Nzm da li se memorije kombinuju i nisam siguran sta se desava ako model zauzima vise nego model, ali u tom slicaju modeli odgovraju drasticno sporije. Vodeci se ovime, jasno je da modeli mogu da se pokrenu na vecini masina, pogledati da li je vas GPU podrzan, instalirati nesto dodatno za podrsku ako treba, ako ne onda na CPU.
Dobra stvar je spremiti jedan na laptopu i imati “search engine”, za slucajeve ako se nadjete negde bez internet konekcije.

Preporuku za modele, birati tako da zauzima manje memorije nego sto masina ima slobodnog rama/vrama, da bi islo brzo, ako vam to nije bitno, nego preciznost odgovora, onda neki veliki i cekanje.

Modeli koje sam pokretao i valjaju (ovo se menja drasticno, posto izlaze novi non stop)

General (chat modeli)

Deepseek 14b (9GB) i 32b (20GB)
Mistral
Mistral-small - 24b (14GB)
Dolphin Mistral - 7b (4.1GB)
Llama3.1 - 7b (4.9GB)
LLama3.2 - 3b (2GB)

Instruct modeli

Ovi modeli su vise direktni sa odgovorima, “rade po instrukciji”

Mistral Small Instruct

Code modeli

probao sam par code modela, ali nisam nasao neki koristan, za python ih ima najvise tu se vrv moze naci neki koji je bolji od ovih generalnih
codellama
deepseekcoder

IDE assistenti (kao coopilot)

Continue - VSCodium client
ollama.nvim - NeoVim plugin
oatmeal.nvim - NeoVim chat bot

Image reasoning modeli

Llama 3.2 vision - prihvata sliku u promptu, moze procitati tekst sa slike OCR, meni je radilo kad prompt glasi “Can you do OCR on this image”

Disclaimer:

Modeli cesto haluciniraju, izmisle odgovor, dosta informacija moze biti netacno itd

Modeli odgovaraju u zavisnosti od podataka na kojima su trenirani. Obratite paznju kad je model izasao. Proveru mozete odraditi sa nekim desavanjem u svetu, tipa pitati ko je trenutni predsednik odredjene drzave, koja je poslednja verzija nekog software-a, itd.

Neki modeli razumeju i odgovaraju i na srpskom

Subreddit r/LocalLLaMA

Ispravite me ako negde gresim, dopunite… pa bi mozda mogli ovo da pretvorimo u wiki stranu. GL&HF

venmo · February 1, 2025, 2:01pm

Super post! Ja koristim llama.cpp i najbolje mi se pokazala, ne znam ni sam zasto. Jeste malo komplikovaniji proces instalacije jer mora kompilacija, ali nije to toliko strasno. Ono sto mi se svidja kod nje je to kada se kompajlira u bin/ folderu ima i llama-server i onda odmah moze da se koristi veb interfejs.

llama-server -m model.gguf, i onda localhost:8080 i to je to, moze i sistemski prompt da se namesti isto, lepo izgleda takodje.

Isto napomena, za llama.cpp treba da se koriste modeli u .gguf formatu. Ovo je query za gguf modele sa hugginface, a tamo se i ostali modeli mogu naci, hugginface mu dodje kao neki github za modele. Nisam upoznat sa nekom alternativom odakle skinuti modele, pretpostavljam da ima po torrentima isto.

I ovo sve radi zacudjujuce brzo i na slabijem hardveru, meni na laptopou sa 8gb rama i ne bas jakim procesorom daje oko 5 tokena/sec i kvalitetne odgovore. Od modela sam koristio llama-3b-instruct i qwen-2.5b-instruct.

Sad ne znam koji model lepo radi na srpskom da moze da prevodi recimo, ovo do sada sam sve na engleskom probao.

venmo · February 16, 2025, 9:03pm

Jel probao neko RAG, rag omogucava da ubacimo svoje dokumenta “unutar” llm-a i da llm odatle pruza odgovore. Lokalno mislim naravno

seraphi · February 17, 2025, 10:50am

Probao sam rag sa llama3 langchain i chromadb. Prilicno dobro radi sa pdf i txt koji cak i nisu bili lepo sredjeni.

venmo · February 17, 2025, 3:41pm

a jesi koristio nesto gotovo, ili su sam pisao kod i postavljao sve ?

venmo · February 25, 2025, 6:50am

Pokrenuli su llm na wind98, pentium 2 350mhz, 128mb rama, opisan je proces kako su to odradili.

Ovi exlobas se inace bave “demokratizacijom” ai pa ima zanimljivih stvari. Pominju BitNet, ovo su neke dobre stvari koje bitnet donosi(iz teksta gore):

The advantages are striking:

   - A 7B parameter BitNet model needs only 1.38GB of storage - small enough to fit on most hardware, even decades-old PCs (the PC we used had a 1.6GB Hard Drive)
   - It's CPU-first: Microsoft's BitCPP can generate 52 tokens/second on an M2 Ultra CPU and 18 tokens/second on an Intel i7
   - Even more impressive: a 100B parameter BitNet can run on a single CPU at human reading speed (5-7 tokens/second)
    It's energy efficient: more than 50% more efficient than full-precision models

sve u svemu, zanimljivo, msm da je lokalno pokretanje llm-ova jako bitno stvar da se moze obzirom da su se llm-ovi bas popularizovali u zadnje vreme

coja · March 1, 2025, 11:11pm

@disu1950
Ovaj post je o lokalnim LLM-ovima, sto u prevodu znaci da se modeli izvrsavaju na lokalnom racunaru i ne vrse nikakvu komunikaciju preko interneta, osim downloada softwera i samog modela, sto smanjuje rizik da se komunikacija prisluskuje, loguje, tj belezi negde jos, presretne ili nesto tome slicno.
Deepseek i Gemini o kojima govoris izvrsavaju se na tudjem serveru i na taj nacin se ugrozava privatnost, sto pokusvamo da izbegnemo izvrsavajuci ih na svojim masinama.
Moje ocekivanje je da ce se iz promptova raditi profiling, izvlaciti interesovanje koristnika i koristiti na svakojake nacine, najucestaliji je da ce se plasirati reklame.

Tipa, pitas ih koja je razlika izmedju QLED i OLED, random se zanimalo i vec sutra krenes da dobijes reklame o raznim tv-ovima i monitorima.

coja · April 13, 2025, 8:36pm

Komande za update vec skinutih ollama modela

coja · April 13, 2025, 9:14pm

lista modela sa kojima se igram

coja · April 18, 2025, 8:12pm

coja · April 27, 2025, 7:48pm

Mobile apps, koji se mogu povezati na ollama i llama.cpp API.
Sa port forwardom i API kljucem… ili sigurnije sa hostovanim VPN-om, na fonu mozete imati pristup svojim modelima kao da ste kod kod kuce

coja · May 28, 2025, 11:46am

Jednostavan tutorial za build llama.cpp i skidanje modela sa huggingface

coja · May 28, 2025, 8:18pm

txrpe · August 27, 2025, 7:48am

Zanimljiv repozitorijum :^D bas smo juce pricali pre eventa o sistemskim promptovima.

coja · August 27, 2025, 10:49pm

coja · August 28, 2025, 9:52am

atari · August 28, 2025, 11:00am

@coja Koji lokalni model ti generise najbolji kod i/ili daje najsmislenije odgovore na coding related pitanja? Ili dva razlicita modela za ova dva use case-a?

coja · August 28, 2025, 11:25am

Trenutno za coding koristim qwen3-coder:30b, najzadovoljniji sam odgovorima.
A za regularna pitanja llama.3.1:8b, gemma3, mistral-small:22b (rade ok za oba)
Svi sem llama3.1 su malo veci modeli i rade na GPU, llama3.1 mi je bio najudobniji za CPU

txrpe · September 1, 2025, 10:19am

System prompt Tumanka - chat bot-a manastira Tumane xD

venmo · September 1, 2025, 10:21pm

legendo