IT vesti

Srbija i AI trka: Nacionalni LLM između digitalnog suvereniteta i realnih mogućnosti

U trenutku kada se najveći svetski AI modeli – poput ChatGPT-a, Geminija i Claude-a – ponašaju kao „digitalna struja” (sveprisutni, neophodni, ali pod kontrolom tuđih prekidača), Srbija je povukla potez ka energetskoj nezavisnosti u sferi veštačke inteligencije. Potpisivanjem sporazuma između Privredne komore Srbije (PKS) i Kancelarije za IT i eUpravu, zvanično je označen početak trke za razvoj sopstvenog velikog jezičkog modela (LLM).

Dok naslovi u medijima govore o „AI suverenitetu”, naš istraživački tim analizira šta se krije ispod haube: ko zapravo gradi ovaj sistem, na čemu će se „vrteti” i da li će podaci građana zaista biti bezbedniji nego na serverima u Kaliforniji?

1. Šta znači „Srpski LLM” u praksi (a šta ne znači)

Veliki jezički model (LLM) nije magična kutija, već statistički sistem treniran na nezamislivim količinama teksta. Kada kažemo „Srpski LLM”, to u praksi znači:

  • Lingvistička preciznost: Model koji ne „nagađa” padeže. Očekuje se drastično manje prevodnih grešaka i potpuno vladanje i ćirilicom i latinicom, što je trenutno Ahilova peta globalnih modela.
  • Domenska superiornost: Globalni modeli često haluciniraju kada su u pitanju lokalni zakoni ili administrativne procedure. Domaći model biće „hranjen” našim zakonima, ugovorima i propisima, čineći ga idealnim za javnu upravu i pravosuđe.
  • Osnova za domaće alate: Ovo nije samo čet-bot. Ovo je „motor” koji će pokretati druge aplikacije – od automatizacije birokratije do asistenata za domaće kompanije.

Šta ovo NE znači: Ne treba očekivati da će srpski model nadmašiti GPT-5 ili Claude 3.5 u opštem znanju, rešavanju matematičkih problema ili kodiranju. Globalni „frontier” modeli imaju milijarde dolara prednosti u hardveru. Naš model cilja na to da bude najbolji na svetu za srpski jezik i lokalni kontekst, a ne da pobedi Google u globalnoj trci.

2. Ko gradi sistem i uloga „čuvara podataka”

Inicijativu formalno nose Kancelarija za IT i eUpravu (koja obezbeđuje infrastrukturu) i PKS (koja predstavlja potrebe privrede). Međutim, kvalitet modela zavisi od kvaliteta podataka („Garbage in, garbage out”).

Tu na scenu stupaju tihi partneri o kojima se šuška u kuloarima, a čije je učešće ključno:

  • Narodna i Univerzitetska biblioteka: Riznice digitalizovanih knjiga i arhive.
  • RTS i RTV: Vlasnici decenija transkripata i audio-vizuelnog materijala.
  • Institut za razvoj veštačke inteligencije: Mozak operacije.

Zašto je ovo bitno? Za razliku od kompanija koje „grebu” podatke sa interneta (često kršeći autorska prava), državni projekat mora imati pravno čist korpus. Biblioteke i javni servisi su jedini koji mogu da obezbede masivan, kvalitetan i legalan set podataka.

3. Infrastruktura: Francuski „Mistral” i srpski superkompjuteri

Srbija već poseduje Državni data centar i superkompjuterske kapacitete, ali ambicije za 2026. su veće.

Prema našim izvorima, u igri je nabavka velikog sistema, u stručnim krugovima pominjanog kao „Mistral” (što ukazuje na tehnologiju ili partnerstvo sa istoimenim francuskim AI gigantom ili korišćenje njihove arhitekture). Instalacija ovog sistema očekuje se do kraja 2026. godine. Takođe, pominje se i puštanje u rad trećeg superkompjutera koji bi podržao ovaj proces.

Rokovi:

  • Intenzivno treniranje: Proces traje oko 6 meseci.
  • Prvi rezultati: Realno ih je očekivati tek krajem 2026. godine.
  • Zreo sistem: Potpuna funkcionalnost se očekuje tek kada se zatvori krug: Infrastruktura → Prikupljanje podataka → Treniranje → Evaluacija (testiranje).

4. Otvorenost: Javni API ili „Open Weights”?

Ključno pitanje za IT zajednicu je: Šta znači „otvoren model”?
U izjavama zvaničnika pominje se da će model biti „dostupan svima”. Ipak, treba praviti razliku:

  1. Otvoreni kod (Open Weights): Mogućnost da programer preuzme model i pokrene ga na svom laptopu.
  2. Otvoreni pristup (API): Model stoji na državnom serveru, a vi mu šaljete upite preko interneta.

Sve ukazuje na to da će Srbija verovatno ići ka modelu „Državni AI kao servis” (API pristup). To omogućava kontrolu i monetizaciju, ali nosi rizik „zaključavanja” korisnika (Vendor Lock-in).

5. Privatnost: Dva sloja problema

Narativ „podaci ostaju u Srbiji” zvuči utešno, ali privatnost je kompleksnija od geografske lokacije servera. Moramo razlikovati dva aspekta:

  • Trening podaci: Da li će u korpusu za učenje završiti nečiji privatni podaci iz sudskih presuda ili zdravstvenih kartona? Neophodna je rigorozna anonimizacija pre treniranja.
  • Inferencija (Korišćenje): Kada građanin postavi pitanje modelu, ko vidi taj upit? Da li se on čuva? Da li policija ili BIA imaju pristup logovima?

Da bi projekat stekao poverenje, istraživači zahtevaju javno objavljivanje „Model Card” dokumenta (lična karta modela sa opisom limita i rizika) i jasnu politiku zadržavanja podataka (data retention policy).

6. Ko već razvija AI na srpskom (Nije sve počelo 2026.)

Bilo bi nepravedno reći da pre ovoga nije bilo ničega. Akademska zajednica i entuzijasti već godinama grade temelje:

  • BERTić: Transformer model prilagođen za BCMS jezike.
  • SRBerta: Model specifično fokusiran na pravni domen.
  • Community fine-tunes: Razni pokušaji entuzijasta da prilagode Llama ili Mistral modele srpskom jeziku.

Nacionalni LLM bi trebalo da bude „krov” ove kuće, ali kvalitet će neminovno zavisiti od saradnje sa ovim postojećim ekosistemom.

Relevantni linkovi i izvori

Q&A: Najčešća pitanja (Januar 2026.)

1. Ko tačno pravi srpski LLM?

Primarni nosioci su Kancelarija za IT i eUpravu i PKS. Očekuje se ključna podrška Instituta za veštačku inteligenciju, kao i resursi biblioteka i medijskih servisa (RTS/RTV) za podatke.

2. Kada možemo da ga očekujemo?

Prototipovi i „prvi rezultati” su planirani za kraj 2026. godine. Stabilna, široko primenljiva verzija verovatno stiže tokom 2027.

3. Da li će model biti besplatan i javno dostupan?

Najavljeno je da će biti „otvoren i dostupan”, ali to verovatno znači besplatan pristup za istraživače i javnu upravu, dok će komercijalni sektor verovatno imati određene uslove korišćenja. Format (API vs Open Weights) još nije potvrđen.

4. Da li će biti bolji od ChatGPT-a?

Za pisanje mejla na tečnom srpskom, tumačenje lokalnih propisa ili pretragu ćiriličnih dokumenata – verovatno da. Za pisanje koda u Pythonu ili rešavanje kvantne fizike – verovatno ne.

5. Hoće li moji podaci biti bezbedni?

To što su serveri u Kragujevcu a ne u Oregonu je dobar početak, ali nije garancija. Bezbednost zavisi od transparentnosti: politike logovanja, načina na koji se podaci anonimizuju i nezavisnih bezbednosnih provera (red-teaming).

6. Koje su „crvene zastavice” (red flags)?

Najveći rizici su: puštanje u rad u osetljivim sektorima (zdravstvo, sudstvo) bez javnih testova, netransparentnost oko toga na čijim podacima je model treniran, i potencijalni monopol nad pristupom servisu.

7. Mogu li se uključiti startapi i pojedinci?

Tehnički da. Najveća potreba je za kvalitetnim, očišćenim podacima i ljudima koji mogu da rade evaluaciju (ocenjivanje) odgovora modela. Model saradnje tek treba da bude definisan.

Nebojsa Kostić

Osnivač sam portala TechFokus i tehnološki novinar sa više od 20 godina profesionalnog iskustva u IT industriji. Moja uža specijalnost obuhvata računarski hardver, retro računare i analize tehnološkog tržišta.

Nebojsa Kostić has 499 posts and counting. See all posts by Nebojsa Kostić

Оставите одговор

Ваша адреса е-поште неће бити објављена. Неопходна поља су означена *