LLMs, marketinski receno vestacka inteligencija (nije)

Trebalo je ranije da otvorim ovaj thread, al eo ga sad, uz hype-a oko Deepseeka.

ChatGPT, Perplexity, Coopilot i ostali toolovi su pokrenuti na tudjem serveru, ako koristite neki od tih toolva imajte na umu da time pomazete proprietary software-u i pritom ugrozavate svoju privatnost, moguce je da se loguje i svaki vas prompt, tako da pazite i sta pisete. Poslednji put kad sam pogledao za registraciju na ChatGPT-u je potrebno ostaviti broj telefona.

Alternativa je da se lokalno pokrene LLM, pa bih probao jednostavno da objasnim kako poceti i koje su opcije.

  • Ollama - meta-in open source program koji pokrece LLM-ove (github) , jednostavno za instalaciju
  • Llama.cpp - malo kompikovanije, za mnoge OS je potrebno buildati ga llm gen guide
  • PocketPal - za mobilni, iz nekog razloga nije na F-Droidu, voditi racuna da ne sprzite fon, moj se pregreva

Clients

Instalacija

Sigurnija opcija je pokrenuti ih unutar virtualne masine ili containera (lxc, docker,…).

Modeli

  • Ollama modeli se instaliraju preko komande koja se moze naci kod njih na sajtu, odabere se velicina modela i copy paste u terminal
  • Llama.cpp je malo kompilovaniji, potrebno je skinuti model i onda ga gadjati komandom readme iz repoa

Na pitanje kako odabrati model, nisam siguran sta pravi odgovor, zavisi od jacine masine na kome se pokrece, kolko sam skapirao, radi valjda na 2 nacina,

  • obradu vrsi CPU (procesor), a model se smesta u RAM (memoriju)
  • obradu vrsi GPU (graficka karta), a model se smesta u VRAM (memoriju) od GPU

Nzm da li se memorije kombinuju i nisam siguran sta se desava ako model zauzima vise nego model, ali u tom slicaju modeli odgovraju drasticno sporije. Vodeci se ovime, jasno je da modeli mogu da se pokrenu na vecini masina, pogledati da li je vas GPU podrzan, instalirati nesto dodatno za podrsku ako treba, ako ne onda na CPU.
Dobra stvar je spremiti jedan na laptopu i imati “search engine”, za slucajeve ako se nadjete negde bez internet konekcije.

Preporuku za modele, birati tako da zauzima manje memorije nego sto masina ima slobodnog rama/vrama, da bi islo brzo, ako vam to nije bitno, nego preciznost odgovora, onda neki veliki i cekanje.

Modeli koje sam pokretao i valjaju (ovo se menja drasticno, posto izlaze novi non stop)

General (chat modeli)

Instruct modeli

Ovi modeli su vise direktni sa odgovorima, “rade po instrukciji”

Code modeli

  • probao sam par code modela, ali nisam nasao neki koristan, za python ih ima najvise tu se vrv moze naci neki koji je bolji od ovih generalnih
  • codellama
  • deepseekcoder

IDE assistenti (kao coopilot)

Image reasoning modeli

  • Llama 3.2 vision - prihvata sliku u promptu, moze procitati tekst sa slike OCR, meni je radilo kad prompt glasi “Can you do OCR on this image”
Disclaimer:
  • Modeli cesto haluciniraju, izmisle odgovor, dosta informacija moze biti netacno itd
  • Modeli odgovaraju u zavisnosti od podataka na kojima su trenirani. Obratite paznju kad je model izasao. Proveru mozete odraditi sa nekim desavanjem u svetu, tipa pitati ko je trenutni predsednik odredjene drzave, koja je poslednja verzija nekog software-a, itd.
  • Neki modeli razumeju i odgovaraju i na srpskom

Subreddit r/LocalLLaMA

Ispravite me ako negde gresim, dopunite… pa bi mozda mogli ovo da pretvorimo u wiki stranu. GL&HF

7 Likes

Super post! Ja koristim llama.cpp i najbolje mi se pokazala, ne znam ni sam zasto. Jeste malo komplikovaniji proces instalacije jer mora kompilacija, ali nije to toliko strasno. Ono sto mi se svidja kod nje je to kada se kompajlira u bin/ folderu ima i llama-server i onda odmah moze da se koristi veb interfejs.

llama-server -m model.gguf, i onda localhost:8080 i to je to, moze i sistemski prompt da se namesti isto, lepo izgleda takodje.

Isto napomena, za llama.cpp treba da se koriste modeli u .gguf formatu. Ovo je query za gguf modele sa hugginface, a tamo se i ostali modeli mogu naci, hugginface mu dodje kao neki github za modele. Nisam upoznat sa nekom alternativom odakle skinuti modele, pretpostavljam da ima po torrentima isto.

I ovo sve radi zacudjujuce brzo i na slabijem hardveru, meni na laptopou sa 8gb rama i ne bas jakim procesorom daje oko 5 tokena/sec i kvalitetne odgovore. Od modela sam koristio llama-3b-instruct i qwen-2.5b-instruct.

Sad ne znam koji model lepo radi na srpskom da moze da prevodi recimo, ovo do sada sam sve na engleskom probao.

2 Likes

Jel probao neko RAG, rag omogucava da ubacimo svoje dokumenta “unutar” llm-a i da llm odatle pruza odgovore. Lokalno mislim naravno

Probao sam rag sa llama3 langchain i chromadb. Prilicno dobro radi sa pdf i txt koji cak i nisu bili lepo sredjeni.

2 Likes

a jesi koristio nesto gotovo, ili su sam pisao kod i postavljao sve ?

Pokrenuli su llm na wind98, pentium 2 350mhz, 128mb rama, opisan je proces kako su to odradili.

Ovi exlobas se inace bave “demokratizacijom” ai pa ima zanimljivih stvari. Pominju BitNet, ovo su neke dobre stvari koje bitnet donosi(iz teksta gore):

The advantages are striking:

   - A 7B parameter BitNet model needs only 1.38GB of storage - small enough to fit on most hardware, even decades-old PCs (the PC we used had a 1.6GB Hard Drive)
   - It's CPU-first: Microsoft's BitCPP can generate 52 tokens/second on an M2 Ultra CPU and 18 tokens/second on an Intel i7
   - Even more impressive: a 100B parameter BitNet can run on a single CPU at human reading speed (5-7 tokens/second)
    It's energy efficient: more than 50% more efficient than full-precision models

sve u svemu, zanimljivo, msm da je lokalno pokretanje llm-ova jako bitno stvar da se moze obzirom da su se llm-ovi bas popularizovali u zadnje vreme

1 Like

@disu1950
Ovaj post je o lokalnim LLM-ovima, sto u prevodu znaci da se modeli izvrsavaju na lokalnom racunaru i ne vrse nikakvu komunikaciju preko interneta, osim downloada softwera i samog modela, sto smanjuje rizik da se komunikacija prisluskuje, loguje, tj belezi negde jos, presretne ili nesto tome slicno.
Deepseek i Gemini o kojima govoris izvrsavaju se na tudjem serveru i na taj nacin se ugrozava privatnost, sto pokusvamo da izbegnemo izvrsavajuci ih na svojim masinama.
Moje ocekivanje je da ce se iz promptova raditi profiling, izvlaciti interesovanje koristnika i koristiti na svakojake nacine, najucestaliji je da ce se plasirati reklame.

Tipa, pitas ih koja je razlika izmedju QLED i OLED, random se zanimalo i vec sutra krenes da dobijes reklame o raznim tv-ovima i monitorima.

2 Likes

Komande za update vec skinutih ollama modela

1 Like

lista modela sa kojima se igram

1 Like

Mobile apps, koji se mogu povezati na ollama i llama.cpp API.
Sa port forwardom i API kljucem… ili sigurnije sa hostovanim VPN-om, na fonu mozete imati pristup svojim modelima kao da ste kod kod kuce :slight_smile:

1 Like