Tokenization este pasul prin care un text e impartit in tokens — uneori cuvinte intregi, alteori sub-parti. ChatGPT si majoritatea LLM-urilor folosesc tokens BPE (Byte-Pair Encoding). Un cuvant in romana ocupa in medie 1.5-2.5 tokens. Util de stiut pentru ca limitele AI (context window) sunt masurate in tokens, nu cuvinte.