keele·mudel

[ ˈkeːle.mudel ], ingl language model, lüh LLM

1.masinõppe mudel, mis õpib tekstidest ja ennustab, milline tekstiosa tuleb järgmisena. Selle abil suudab ta kirjutada, tõlkida, vastata ja arutleda. Sellisel tehnoloogial põhinevad ChatGPT, Claude ja Gemini.

01. Definitsioon

Mis on keelemudel?

Keelemudel on arvutiprogramm, mis on õppinud suurtest tekstikogudest. Ta ei mõtle nagu inimene. Ta arvutab, milline sõna või sõnaosa võiks tekstis järgmisena tulla. Kui lause algab „Tallinn on Eesti...“, pakub mudel suure tõenäosusega „pealinn“.

Kui mudel õpib väga suurest tekstihulgast, tekib tal palju kasulikke oskusi. Ta oskab vastata küsimustele, teha kokkuvõtteid, tõlkida keeli, kirjutada tekste ja aidata ülesandeid lahendada. Selliseid mudeleid nimetatakse suurteks keelemudeliteks. Inglise keeles on see large language model ehk LLM.

Keelemudel ei otsi vastust valmis kujul andmebaasist. Ta loob vastuse jooksvalt, sõnaosa kaupa. See teeb ta paindlikuks, aga tähendab ka, et ta võib vahel eksida või mõelda välja usutava kõlaga vale vastuse.

02. Tööpõhimõte

Kuidas keelemudel töötab?

Paljud tänapäeva keelemudelid kasutavad ülesehitust, mida nimetatakse transformeriks. Lihtsalt öeldes aitab see mudelil vaadata korraga kogu teksti, mitte ainult viimast sõna. Nii saab mudel paremini aru, millele lause või küsimus viitab. Vastus sünnib neljas lihtsas sammus:

1.

Tokeniseerimine

Tekst jagatakse väikesteks tükkideks ehk tokeniteks. Token võib olla sõna, sõnaosa, number või kirjavahemärk. Arvuti töötleb neid numbritena.

keelemudelid → 4 tokenit
2.

Treenimine

Mudel loeb läbi väga palju teksti. Iga eksimuse järel muudetakse tema sisemisi seadistusi ehk parameetreid, et järgmine ennustus oleks parem.

palju teksti, palju arvutusvõimsust
3.

Ennustamine

Vastates arvutab mudel, milline token sobib järgmisena kõige paremini. Seejärel lisab ta selle vastusesse ja kordab sama sammu uuesti.

nt P(„pealinn“) ≈ 0,92 ✓
4.

Häälestamine

Pärast esmast õppimist õpetatakse mudelit vastama viisakalt, ausalt ja kasulikult. Selleks kasutatakse näidisvestlusi ja inimeste tagasisidet.

inimtagasiside, peenhäälestus

03. Maastik

Tuntumad keelemudelid

Valdkond muutub kiiresti, kuid suuremad tegijad on hästi tuntud. Enamikku neist saab proovida vestlusrobotina. Võimsamad versioonid on tavaliselt tasulised.

Seda, kui hästi mudelid eesti keelt päriselt oskavad, mõõdab sõltumatult Eesti Keele Instituudi Keelemudelite mõõdupuu. Värske edetabel on alati sealt vaadatav.

MudelTegijaTugevusedEripära
GPT / ChatGPTOpenAI USA Tugev üldmudel. Sobib kirjutamiseks, piltideks, hääleks ja igapäevaseks abiks. ChatGPT tegi keelemudelid 2022. aastal laiemalt tuntuks.
ClaudeAnthropic USA Tugev pikkade tekstide, kirjutamise, koodi ja arutluse juures. Paljud kasutavad seda töötekstide ja arenduse jaoks.
GeminiGoogle USA Seotud Google'i toodetega. Töötab teksti, pildi ja muude sisutüüpidega. Tihedalt seotud Google'i otsingu, Androidi ja Workspace'iga.
LlamaMeta USA Avatud kaaludega mudelid. Neid saab alla laadida ja oma serveris kasutada. Oluline mudel avatud tehisaru maailmas.
MistralMistral AI Euroopa (FR) Kiired ja tõhusad mudelid. Valikus on ka avatud mudeleid. Euroopa üks tuntumaid keelemudelite tegijaid.
DeepSeek / QwenDeepSeek · Alibaba Hiina Hea hinna ja võimekuse suhe. Mitmed mudelid on avatud kaaludega. Näitasid, et tugevaid mudeleid saab teha ka väiksema kuluga.

* Seis: juuni 2026. Mudelid uuenevad mitu korda aastas. Üldine pilt võib kiiresti muutuda.

04. Kodukeel

Keelemudelid ja eesti keel

Eesti keel on keelemudelitele raskem kui inglise keel. Meil on 14 käänet, vaba sõnajärg, astmevaheldus ja palju liitsõnu. Lisaks on eesti keelt emakeelena kõnelejaid umbes miljon. Seetõttu on internetis eestikeelset treeningteksti palju vähem kui ingliskeelset.

Suuremad mudelid saavad eesti keelega siiski üsna hästi hakkama. Nad on õppinud palju maailma ja grammatika kohta ka teistest keeltest. See aitab neil eesti keeles paremini kirjutada. Väiksemad ja odavamad mudelid teevad aga sagedamini käände- ja stiilivigu.

Eestis arendatakse samuti keeletehnoloogiat. Tartu Ülikooli ja TalTechi uurijad ning riiklikud programmid töötavad selle nimel, et eesti keel toimiks hästi ka tehisaru ajastul.

Hea teada

  • Parimad mudelid kirjutavad eesti keeles üldiselt korrektselt. Käänded ja liitsõnad õnnestuvad enamasti hästi.
  • Eesti keel kasutab rohkem tokeneid kui inglise keel. Sama tekst võib mudeli jaoks olla umbes poolteist korda mahukam.
  • Eesti kohta käivate faktiküsimuste puhul eksivad mudelid sagedamini, sest treeningteksti on vähem.
  • Eesti ja inglise keele vahel tõlkimisel on suured keelemudelid juba väga tugevad.
  • Eesti avalik sektor katsetab keelemudeleid riigiteenustes, näiteks Bürokrati projektis.

05. Leksikon

Väike sõnastik

tokentoken
Teksti väike osa, mida mudel töötleb. See võib olla sõna, sõnaosa, number või märk. Üks eestikeelne sõna võib olla mitu tokenit.
parameeterparameter
Mudeli sisemine seadistus. Treeningu ajal muutuvad parameetrid nii, et mudel ennustaks teksti paremini.
kontekstiakencontext window
Tekstihulk, mida mudel korraga arvesse võtab. Mida suurem kontekstiaken, seda pikemat vestlust või dokumenti saab mudel jälgida.
viipprompt
Küsimus, käsk või taustatekst, mille kasutaja mudelile annab. Selge viip aitab saada parema vastuse.
hallutsinatsioonhallucination
Usutava kõlaga, kuid vale vastus. Seda juhtub siis, kui mudel täpset teadmist ei tunne, aga proovib ikkagi vastata.
treeningtraining
Etapp, kus mudel õpib väga suurtest tekstikogudest keele ja maailma mustreid.
peenhäälestusfine-tuning
Lisatreening, millega valmis mudelit õpetatakse kindlat ülesannet või käitumisviisi paremini täitma.
transformertransformer
Närvivõrgu ülesehitus, millel põhineb enamik tänapäeva keelemudeleid. See aitab mudelil seostada teksti eri osi.
arutlev mudelreasoning model
Mudel, mis lahendab keerulisemaid ülesandeid samm-sammult. See aitab tal jõuda täpsema vastuseni.
agentagent
Keelemudel, mis kasutab vajaduse korral tööriistu. Ta võib näiteks otsida veebist, käivitada koodi või täita mitme sammuga ülesandeid.

06. KKK

Korduma kippuvad küsimused

Kas keelemudel mõtleb nagu inimene?
Ei. Keelemudel ei ole teadvusega ega koge maailma nagu inimene. Ta ennustab teksti tõenäosuste põhjal. Mõnikord näeb tulemus välja nagu mõtlemine, sest mudel oskab seoseid leida, samme planeerida ja vigu parandada.
Miks keelemudel vahel valetab?
Ta ei valeta inimese mõttes. Ta loob vastuse selle järgi, mis tundub teksti põhjal tõenäoline. Kui tal puudub täpne teadmine, võib ta anda enesekindla, kuid vale vastuse. Sellepärast tasub olulisi fakte alati kontrollida.
Kas minu vestlusi kasutatakse mudeli treenimiseks?
See sõltub teenusest ja seadetest. Tasuta vestlusrobotite puhul võidakse vestlusi treeninguks kasutada, kui kasutaja pole seda välja lülitanud. Ärikontodel ja API kaudu on reeglid tavaliselt rangemad. Tundlikku infot ei tasu sisestada enne, kui tingimused on üle vaadatud.
Kas keelemudel võtab mu töö ära?
Tõenäolisem on, et keelemudel muudab töö sisu. Rutiinne teksti- ja infotöö muutub kiiremaks. Inimese rolliks jäävad eesmärgi seadmine, kontroll, otsustamine ja vastutus. Kõige rohkem võidavad need, kes õpivad mudelit tööriistana kasutama.
Kust alustada, kui tahan keelemudeleid kasutama õppida?
Ava mõni vestlusrobot, näiteks ChatGPT, Claude või Gemini, ja kasuta seda päris tööülesande juures. Küsi kirja mustandit, teksti kokkuvõtet või ideid. Kirjuta eesti keeles, anna kontekst ja ütle selgelt, millist tulemust soovid.

Kui tahad lisaks teooriale ka juhendatud praktikat, vaata TalTechi ja AI Eesti ühisprogrammi „Nullist AI Lahendusteni“. Viienädalane koolitus algab augustis 2026 ja viib AI-algtõdedest päris lahenduste ehitamiseni.