LLMs, marketinski receno vestacka inteligencija (nije)

Trebalo je ranije da otvorim ovaj thread, al eo ga sad, uz hype-a oko Deepseeka.

ChatGPT, Perplexity, Coopilot i ostali toolovi su pokrenuti na tudjem serveru, ako koristite neki od tih toolva imajte na umu da time pomazete proprietary software-u i pritom ugrozavate svoju privatnost, moguce je da se loguje i svaki vas prompt, tako da pazite i sta pisete. Poslednji put kad sam pogledao za registraciju na ChatGPT-u je potrebno ostaviti broj telefona.

Alternativa je da se lokalno pokrene LLM, pa bih probao jednostavno da objasnim kako poceti i koje su opcije.

  • Ollama - meta-in open source program koji pokrece LLM-ove (github) , jednostavno za instalaciju
  • Llama.cpp - malo kompikovanije, za mnoge OS je potrebno buildati ga
  • PocketPal - za mobilni, iz nekog razloga nije na F-Droidu, voditi racuna da ne sprzite fon, moj se pregreva

Clients

Instalacija

Sigurnija opcija je pokrenuti ih unutar Virtualne Masine ili dockera.

Modeli

  • Ollama modeli se instaliraju preko komande koja se moze naci kod njih na sajtu, odabere se velicina modela i copy paste u terminal
  • Llama.cpp je malo kompilovaniji, potrebno je skinuti model i onda ga gadjati komandom readme iz repoa

Na pitanje kako odabrati model, nisam siguran sta pravi odgovor, zavisi od jacine masine na kome se pokrece, kolko sam skapirao, radi valjda na 2 nacina,

  • obradu vrsi CPU (procesor), a model se smesta u RAM (memoriju)
  • obradu vrsi GPU (graficka karta), a model se smesta u VRAM (memoriju) od GPU

Nzm da li se memorije kombinuju i nisam siguran sta se desava ako model zauzima vise nego model, ali u tom slicaju modeli odgovraju drasticno sporije. Vodeci se ovime, jasno je da modeli mogu da se pokrenu na vecini masina, pogledati da li je vas GPU podrzan, instalirati nesto dodatno za podrsku ako treba, ako ne onda na CPU.
Dobra stvar je spremiti jedan na laptopu i imati “search engine”, za slucajeve ako se nadjete negde bez internet konekcije.

Preporuku za modele, birati tako da zauzima manje memorije nego sto masina ima slobodnog rama/vrama, da bi islo brzo, ako vam to nije bitno, nego preciznost odgovora, onda neki veliki i cekanje.

Modeli koje sam pokretao i valjaju (ovo se menja drasticno, posto izlaze novi non stop)

General (chat modeli)

Instruct modeli

Ovi modeli su vise direktni sa odgovorima, “rade po instrukciji”

Code modeli

  • probao sam par code modela, ali nisam nasao neki koristan, za python ih ima najvise tu se vrv moze naci neki koji je bolji od ovih generalnih
  • codellama
  • deepseekcoder

IDE assistenti (kao coopilot)

Image reasoning modeli

  • Llama 3.2 vision - prihvata sliku u promptu, moze procitati tekst sa slike OCR, meni je radilo kad prompt glasi “Can you do OCR on this image”
Disclaimer:
  • Modeli uglavnom haluciniraju, izmisle odgovor, dosta informacija moze biti netacno itd
  • Modeli odgovaraju u zavisnosti od podataka na kojima su trenirani. Obratite paznju kad je model izasao. Proveru mozete odraditi sa nekim desavanjem u svetu, tipa pitati ko je trenutni predsednik odredjene drzave, koja je poslednja verzija nekog software-a, itd.
  • Neki modeli razumeju i odgovaraju i na srpskom

Ispravite me ako negde gresim, dopunite… pa bi mozda mogli ovo da pretvorimo u wiki stranu. GL&HF

5 Likes

Super post! Ja koristim llama.cpp i najbolje mi se pokazala, ne znam ni sam zasto. Jeste malo komplikovaniji proces instalacije jer mora kompilacija, ali nije to toliko strasno. Ono sto mi se svidja kod nje je to kada se kompajlira u bin/ folderu ima i llama-server i onda odmah moze da se koristi veb interfejs.

llama-server -m model.gguf, i onda localhost:8080 i to je to, moze i sistemski prompt da se namesti isto, lepo izgleda takodje.

Isto napomena, za llama.cpp treba da se koriste modeli u .gguf formatu. Ovo je query za gguf modele sa hugginface, a tamo se i ostali modeli mogu naci, hugginface mu dodje kao neki github za modele. Nisam upoznat sa nekom alternativom odakle skinuti modele, pretpostavljam da ima po torrentima isto.

I ovo sve radi zacudjujuce brzo i na slabijem hardveru, meni na laptopou sa 8gb rama i ne bas jakim procesorom daje oko 5 tokena/sec i kvalitetne odgovore. Od modela sam koristio llama-3b-instruct i qwen-2.5b-instruct.

Sad ne znam koji model lepo radi na srpskom da moze da prevodi recimo, ovo do sada sam sve na engleskom probao.

2 Likes