Token on väikseim ühik, millega keelemudel (LLM) teksti töötleb. Tekst jagatakse tokeniseerimise käigus enne mudelisse andmist.
Tüüpilised suurused
- Inglise keeles: 1 token ≈ 4 tähemärki ≈ 0.75 sõna
- Eesti keeles: 1 token ≈ 2-3 tähemärki (väikekeele tõttu vähem efektiivne)
- Koodis: 1 token ≈ 3-4 tähemärki
Miks see oluline on?
AI-teenused hinnastavad tihti tokenipõhiselt. Näiteks Claude Opus 4.7 maksab $15 / 1M sisendtokeni ja $75 / 1M väljundtokeni. Pikad eestikeelsed dokumendid lähevad maksma rohkem tokenite kohta kui samad inglise keeles.