Tokenization

Name: Private Brands
Availability: InStock
Rating: 4.8 (3 reviews)

Procesul de impartire a textului in unitati mici (tokens) procesabile de AI.

Tokenization este pasul prin care un text e impartit in tokens — uneori cuvinte intregi, alteori sub-parti. ChatGPT si majoritatea LLM-urilor folosesc tokens BPE (Byte-Pair Encoding). Un cuvant in romana ocupa in medie 1.5-2.5 tokens. Util de stiut pentru ca limitele AI (context window) sunt masurate in tokens, nu cuvinte.