[ ˈkeːle.mudel ], ingl language model, lüh LLM
1.masinõppe mudel, mis õpib tekstidest ja ennustab, milline tekstiosa tuleb järgmisena. Selle abil suudab ta kirjutada, tõlkida, vastata ja arutleda. Sellisel tehnoloogial põhinevad ChatGPT, Claude ja Gemini.
01. Definitsioon
Keelemudel on arvutiprogramm, mis on õppinud suurtest tekstikogudest. Ta ei mõtle nagu inimene. Ta arvutab, milline sõna või sõnaosa võiks tekstis järgmisena tulla. Kui lause algab „Tallinn on Eesti...“, pakub mudel suure tõenäosusega „pealinn“.
Kui mudel õpib väga suurest tekstihulgast, tekib tal palju kasulikke oskusi. Ta oskab vastata küsimustele, teha kokkuvõtteid, tõlkida keeli, kirjutada tekste ja aidata ülesandeid lahendada. Selliseid mudeleid nimetatakse suurteks keelemudeliteks. Inglise keeles on see large language model ehk LLM.
Keelemudel ei otsi vastust valmis kujul andmebaasist. Ta loob vastuse jooksvalt, sõnaosa kaupa. See teeb ta paindlikuks, aga tähendab ka, et ta võib vahel eksida või mõelda välja usutava kõlaga vale vastuse.
02. Tööpõhimõte
Paljud tänapäeva keelemudelid kasutavad ülesehitust, mida nimetatakse transformeriks. Lihtsalt öeldes aitab see mudelil vaadata korraga kogu teksti, mitte ainult viimast sõna. Nii saab mudel paremini aru, millele lause või küsimus viitab. Vastus sünnib neljas lihtsas sammus:
Tekst jagatakse väikesteks tükkideks ehk tokeniteks. Token võib olla sõna, sõnaosa, number või kirjavahemärk. Arvuti töötleb neid numbritena.
keelemudelid → 4 tokenitMudel loeb läbi väga palju teksti. Iga eksimuse järel muudetakse tema sisemisi seadistusi ehk parameetreid, et järgmine ennustus oleks parem.
palju teksti, palju arvutusvõimsustVastates arvutab mudel, milline token sobib järgmisena kõige paremini. Seejärel lisab ta selle vastusesse ja kordab sama sammu uuesti.
nt P(„pealinn“) ≈ 0,92 ✓Pärast esmast õppimist õpetatakse mudelit vastama viisakalt, ausalt ja kasulikult. Selleks kasutatakse näidisvestlusi ja inimeste tagasisidet.
inimtagasiside, peenhäälestus03. Maastik
Valdkond muutub kiiresti, kuid suuremad tegijad on hästi tuntud. Enamikku neist saab proovida vestlusrobotina. Võimsamad versioonid on tavaliselt tasulised.
Seda, kui hästi mudelid eesti keelt päriselt oskavad, mõõdab sõltumatult Eesti Keele Instituudi Keelemudelite mõõdupuu. Värske edetabel on alati sealt vaadatav.
| Mudel | Tegija | Tugevused | Eripära |
|---|---|---|---|
| GPT / ChatGPTOpenAI | USA | Tugev üldmudel. Sobib kirjutamiseks, piltideks, hääleks ja igapäevaseks abiks. | ChatGPT tegi keelemudelid 2022. aastal laiemalt tuntuks. |
| ClaudeAnthropic | USA | Tugev pikkade tekstide, kirjutamise, koodi ja arutluse juures. | Paljud kasutavad seda töötekstide ja arenduse jaoks. |
| GeminiGoogle | USA | Seotud Google'i toodetega. Töötab teksti, pildi ja muude sisutüüpidega. | Tihedalt seotud Google'i otsingu, Androidi ja Workspace'iga. |
| LlamaMeta | USA | Avatud kaaludega mudelid. Neid saab alla laadida ja oma serveris kasutada. | Oluline mudel avatud tehisaru maailmas. |
| MistralMistral AI | Euroopa (FR) | Kiired ja tõhusad mudelid. Valikus on ka avatud mudeleid. | Euroopa üks tuntumaid keelemudelite tegijaid. |
| DeepSeek / QwenDeepSeek · Alibaba | Hiina | Hea hinna ja võimekuse suhe. Mitmed mudelid on avatud kaaludega. | Näitasid, et tugevaid mudeleid saab teha ka väiksema kuluga. |
* Seis: juuni 2026. Mudelid uuenevad mitu korda aastas. Üldine pilt võib kiiresti muutuda.
04. Kodukeel
Eesti keel on keelemudelitele raskem kui inglise keel. Meil on 14 käänet, vaba sõnajärg, astmevaheldus ja palju liitsõnu. Lisaks on eesti keelt emakeelena kõnelejaid umbes miljon. Seetõttu on internetis eestikeelset treeningteksti palju vähem kui ingliskeelset.
Suuremad mudelid saavad eesti keelega siiski üsna hästi hakkama. Nad on õppinud palju maailma ja grammatika kohta ka teistest keeltest. See aitab neil eesti keeles paremini kirjutada. Väiksemad ja odavamad mudelid teevad aga sagedamini käände- ja stiilivigu.
Eestis arendatakse samuti keeletehnoloogiat. Tartu Ülikooli ja TalTechi uurijad ning riiklikud programmid töötavad selle nimel, et eesti keel toimiks hästi ka tehisaru ajastul.
05. Leksikon
06. KKK