LLMs, marketinski receno vestacka inteligencija (nije)

Trebalo je ranije da otvorim ovaj thread, al eo ga sad, uz hype-a oko Deepseeka.

ChatGPT, Perplexity, Coopilot i ostali toolovi su pokrenuti na tudjem serveru, ako koristite neki od tih toolva imajte na umu da time pomazete proprietary software-u i pritom ugrozavate svoju privatnost, moguce je da se loguje i svaki vas prompt, tako da pazite i sta pisete. Poslednji put kad sam pogledao za registraciju na ChatGPT-u je potrebno ostaviti broj telefona.

Alternativa je da se lokalno pokrene LLM, pa bih probao jednostavno da objasnim kako poceti i koje su opcije.

  • Ollama - meta-in open source program koji pokrece LLM-ove (github) , jednostavno za instalaciju
  • Llama.cpp - malo kompikovanije, za mnoge OS je potrebno buildati ga
  • PocketPal - za mobilni, iz nekog razloga nije na F-Droidu, voditi racuna da ne sprzite fon, moj se pregreva

Clients

Instalacija

Sigurnija opcija je pokrenuti ih unutar virtualne masine ili containera (lxc, docker,ā€¦).

Modeli

  • Ollama modeli se instaliraju preko komande koja se moze naci kod njih na sajtu, odabere se velicina modela i copy paste u terminal
  • Llama.cpp je malo kompilovaniji, potrebno je skinuti model i onda ga gadjati komandom readme iz repoa

Na pitanje kako odabrati model, nisam siguran sta pravi odgovor, zavisi od jacine masine na kome se pokrece, kolko sam skapirao, radi valjda na 2 nacina,

  • obradu vrsi CPU (procesor), a model se smesta u RAM (memoriju)
  • obradu vrsi GPU (graficka karta), a model se smesta u VRAM (memoriju) od GPU

Nzm da li se memorije kombinuju i nisam siguran sta se desava ako model zauzima vise nego model, ali u tom slicaju modeli odgovraju drasticno sporije. Vodeci se ovime, jasno je da modeli mogu da se pokrenu na vecini masina, pogledati da li je vas GPU podrzan, instalirati nesto dodatno za podrsku ako treba, ako ne onda na CPU.
Dobra stvar je spremiti jedan na laptopu i imati ā€œsearch engineā€, za slucajeve ako se nadjete negde bez internet konekcije.

Preporuku za modele, birati tako da zauzima manje memorije nego sto masina ima slobodnog rama/vrama, da bi islo brzo, ako vam to nije bitno, nego preciznost odgovora, onda neki veliki i cekanje.

Modeli koje sam pokretao i valjaju (ovo se menja drasticno, posto izlaze novi non stop)

General (chat modeli)

Instruct modeli

Ovi modeli su vise direktni sa odgovorima, ā€œrade po instrukcijiā€

Code modeli

  • probao sam par code modela, ali nisam nasao neki koristan, za python ih ima najvise tu se vrv moze naci neki koji je bolji od ovih generalnih
  • codellama
  • deepseekcoder

IDE assistenti (kao coopilot)

Image reasoning modeli

  • Llama 3.2 vision - prihvata sliku u promptu, moze procitati tekst sa slike OCR, meni je radilo kad prompt glasi ā€œCan you do OCR on this imageā€
Disclaimer:
  • Modeli cesto haluciniraju, izmisle odgovor, dosta informacija moze biti netacno itd
  • Modeli odgovaraju u zavisnosti od podataka na kojima su trenirani. Obratite paznju kad je model izasao. Proveru mozete odraditi sa nekim desavanjem u svetu, tipa pitati ko je trenutni predsednik odredjene drzave, koja je poslednja verzija nekog software-a, itd.
  • Neki modeli razumeju i odgovaraju i na srpskom

Ispravite me ako negde gresim, dopuniteā€¦ pa bi mozda mogli ovo da pretvorimo u wiki stranu. GL&HF

7 Likes

Super post! Ja koristim llama.cpp i najbolje mi se pokazala, ne znam ni sam zasto. Jeste malo komplikovaniji proces instalacije jer mora kompilacija, ali nije to toliko strasno. Ono sto mi se svidja kod nje je to kada se kompajlira u bin/ folderu ima i llama-server i onda odmah moze da se koristi veb interfejs.

llama-server -m model.gguf, i onda localhost:8080 i to je to, moze i sistemski prompt da se namesti isto, lepo izgleda takodje.

Isto napomena, za llama.cpp treba da se koriste modeli u .gguf formatu. Ovo je query za gguf modele sa hugginface, a tamo se i ostali modeli mogu naci, hugginface mu dodje kao neki github za modele. Nisam upoznat sa nekom alternativom odakle skinuti modele, pretpostavljam da ima po torrentima isto.

I ovo sve radi zacudjujuce brzo i na slabijem hardveru, meni na laptopou sa 8gb rama i ne bas jakim procesorom daje oko 5 tokena/sec i kvalitetne odgovore. Od modela sam koristio llama-3b-instruct i qwen-2.5b-instruct.

Sad ne znam koji model lepo radi na srpskom da moze da prevodi recimo, ovo do sada sam sve na engleskom probao.

2 Likes

Jel probao neko RAG, rag omogucava da ubacimo svoje dokumenta ā€œunutarā€ llm-a i da llm odatle pruza odgovore. Lokalno mislim naravno

Probao sam rag sa llama3 langchain i chromadb. Prilicno dobro radi sa pdf i txt koji cak i nisu bili lepo sredjeni.

2 Likes

a jesi koristio nesto gotovo, ili su sam pisao kod i postavljao sve ?

Pokrenuli su llm na wind98, pentium 2 350mhz, 128mb rama, opisan je proces kako su to odradili.

Ovi exlobas se inace bave ā€œdemokratizacijomā€ ai pa ima zanimljivih stvari. Pominju BitNet, ovo su neke dobre stvari koje bitnet donosi(iz teksta gore):

The advantages are striking:

   - A 7B parameter BitNet model needs only 1.38GB of storage - small enough to fit on most hardware, even decades-old PCs (the PC we used had a 1.6GB Hard Drive)
   - It's CPU-first: Microsoft's BitCPP can generate 52 tokens/second on an M2 Ultra CPU and 18 tokens/second on an Intel i7
   - Even more impressive: a 100B parameter BitNet can run on a single CPU at human reading speed (5-7 tokens/second)
    It's energy efficient: more than 50% more efficient than full-precision models

sve u svemu, zanimljivo, msm da je lokalno pokretanje llm-ova jako bitno stvar da se moze obzirom da su se llm-ovi bas popularizovali u zadnje vreme

1 Like

DeepSeek vs. Gemini

Kako kažu testeri bolji Gemini overall a i za coding:

znači Microsoft naboosta Geminija da pomete DeepSeek.a xDD

AI WARS

al DeepSeak je brz i vise deteljnije odg pruzaā€¦ nzn

Šta kaže Aria:

Aria Gemini from Opera

Gemini 1.5, also from OpenAI, which gives me the ability to process information and generate creative content.
Imagen-3, another OpenAI model, which allows me to understand and generate images.
Are you better than DeepSeek?

Aria: 
That's an interesting question! Comparing myself to DeepSeek can be quite nuanced, as both of us have our strengths and weaknesses. Hereā€™s a quick overview based on recent insights:

Response Quality:

DeepSeek has been noted for structuring data well and providing detailed responses in certain contexts.
However, Gemini (the model Iā€™m based on) tends to deliver more nuanced, accurate, and well-structured answers overall.

Task Competency:

While DeepSeek shows competency in various tasks, Gemini has been recognized for excelling in document-oriented tasks that require deeper understanding.
User Preference:

Some users have expressed a preference for Gemini due to its consistent performance across a range of prompts, while others appreciate DeepSeek for specific applications.

In summary, it really depends on what you're looking for! If you need detailed data structuring, DeepSeek might shine in that area. But for nuanced conversations and a broader range of tasks, Iā€™m here to help! šŸ˜Š
Foundation: DeepSeek was founded in July 2023 by Liang, who is also a co-founder of the Chinese hedge fund High-Flyer.
Location: The company is based in Hangzhou, Zhejiang, China.
Mission: DeepSeek aims to "unravel the mystery of AGI with curiosity," focusing on long-termism and addressing essential questions related to AGI development.

msl da namjerno spustaju DeepSeak.a po meni je boljiā€¦

inc dobar postā€¦ krenia sam ja radit LLMs.a al kad san vidija koliko skupa sve Terebajta triba adiosā€¦ hh al ko ima hard s puno mista isplati se ā€¦

vidi se po GB po modelu koliko DeepSeek vise pruza nego Llamas 3tricaā€¦ oO (:

@disu1950
Ovaj post je o lokalnim LLM-ovima, sto u prevodu znaci da se modeli izvrsavaju na lokalnom racunaru i ne vrse nikakvu komunikaciju preko interneta, osim downloada softwera i samog modela, sto smanjuje rizik da se komunikacija prisluskuje, loguje, tj belezi negde jos, presretne ili nesto tome slicno.
Deepseek i Gemini o kojima govoris izvrsavaju se na tudjem serveru i na taj nacin se ugrozava privatnost, sto pokusvamo da izbegnemo izvrsavajuci ih na svojim masinama.
Moje ocekivanje je da ce se iz promptova raditi profiling, izvlaciti interesovanje koristnika i koristiti na svakojake nacine, najucestaliji je da ce se plasirati reklame.

Tipa, pitas ih koja je razlika izmedju QLED i OLED, random se zanimalo i vec sutra krenes da dobijes reklame o raznim tv-ovima i monitorima.

2 Likes

a kužim neŔto napola rekao bih. xD

Sad se koristit Gemini 2.0 za razvijat LLMā€¦

ma ja null za kodiranjeā€¦

software bez GUI.a, za mene ka da si slijelpā€¦

hh


A Ŕta kaže Gemini v2?

USER:
Does Gemini know codeing for LLMV tools?

GEMINI:

Yes, Gemini is designed with strong coding capabilities, and this includes relevance to LLM (Large Language.

Model) tools. Here's a breakdown:

* Gemini Code Assist:
* Google has developed "Gemini Code Assist," which is specifically aimed at providing AI-powered
coding assistance. This demonstrates Gemini's focus on supporting developers.
* This tool helps with tasks like code completion, generating code from natural language prompts,
debugging, and more. These are all highly relevant to those working on LLM tools.
* LLM Development:
* Developing LLM tools often involves complex coding tasks, including:

* Data processing and manipulation.
* Model training and fine-tuning.
* Creating APIs and interfaces.
* Building applications that utilize LLMs.
* Gemini's coding abilities can be applied to all of these areas.
* Broad Coding Proficiency:
* Gemini is designed to be proficient in a wide range of programming languages, which is
essential for working with the diverse technologies used in LLM development.
* Helping with workflows:
* Gemini code assist is designed to help developers with many workflows, and those workflows
are the same workflows that LLM tool developers use.

In summary, Gemini is equipped with strong coding skills that are directly applicable to the development of
LLM tools.

Valjalo bi isprobat AI