Veliki jezični modeli na lokalnom računalu - Vlastiti pametni asistent

Premda su veliki jezični modeli obično preveliki da bi ih se moglo koristiti na konfiguracijama relativno skromnih hardverskih mogućnosti te kako je za to obično potrebno ili imati odgovarajuće poslužitelje opremljene moćnim GPU-ima ili se osloniti na resurse koji se mogu kupiti u oblaku, određene metode omogućile su da se LLM-ovi mogu koristiti izravno na lokalnom računalu, a da doista nije potrebno imati vrhunski hardver. Odnedavno je možda najbolji kandidat neka od destiliranih varijanti vrlo sposobnog modela DeepSeek-R1, no to je tek početak…

Matija Gračanin subota, 29. ožujka 2025. u 06:00
Ollama je vjerojatno najpoznatije i najrasprostranjenije rješenje koje omogućuje pokretanje velikih jezičnih modela lokalno na računalu, no koje je ponajprije namijenjeno naprednijim korisnicima, koji će je koristiti ili uz dostupni API ili iz naredbenog retka  📷 https://www.ollama.com
Ollama je vjerojatno najpoznatije i najrasprostranjenije rješenje koje omogućuje pokretanje velikih jezičnih modela lokalno na računalu, no koje je ponajprije namijenjeno naprednijim korisnicima, koji će je koristiti ili uz dostupni API ili iz naredbenog retka https://www.ollama.com

Mogućnost da se veliki jezični modeli izvršavaju lokalno na računalu već odavna nije nova, no ovisno o raspoloživom hardveru, moralo se pozorno birati koji će se model moći iskoristiti kako bi inferenca (generiranje odgovora) bila prihvatljivo brza. Ključno mjerilo prema kojem se moglo odrediti koji će se model moći izvršavati na računalu svakako je broj parametara modela, pa je tako za modele s 1,5 milijardi parametara (1.5B) potrebno najmanje 4 GB RAM-a i najmanje 2 GB slobodnog prostora na disku, za modele od sedam do osam milijardi parametara (7B, 8B) oko 8 GB RAM-a i najmanje 5 GB prostora, dok se za veće modele (14B, 32B, 70B) preporučuje 32 GB RAM-a ili više, ali pritom je potrebno imati i GPU s odgovarajućom količinom VRAM-a (već modeli s 14 milijardi parametara neće moći raditi ako se na raspolaganju nema najmanje 32 GB VRAM-a). Dakako, za optimalne performanse uvijek su preporučene što snažnije grafičke kartice, i to poželjno Nvidia, no radit će i AMD-ovi modeli, zahvaljujući platformi AMD ROCm (Radeon Open Compute platform). Tu na umu valja imati da će manji modeli raditi i samo s CPU-om, bez obzira na izostanak GPU-a, ali sa znatno slabijim performansama, kao i to da klasične grafičke kartice zbog ograničenog VRAM-a mogu raditi samo s nešto slabijim modelima, odnosno, onima s manje parametara.

Članak dostupan pretplatnicima

Kako bi mogao pročitati cijeli članak, moraš biti prijavljen na Bug.hr sa svojim podacima te imati status pretplatnika.

Bug 389 travanj 2025.

Globalni ratovi GenAI modela