Token
İngilizce: Token
LLM'in metni böldüğü en küçük birim. Harf değil, "anlam parçası".
GPT-4'te Türkçe için 1 token ≈ 1-2 karakter (İngilizce için 1 token ≈ 4 karakter). Token sayısı maliyet, context window limiti ve rate limit'i belirler. Türkçe karakter (ç, ğ, ş, ı, ö, ü) çoğu tokenizer'da fazla token harcar — Türkçe promptlar İngilizce eşleniğinden %30-60 daha pahalıdır.