Kavram

Token

İngilizce: Token

LLM'in metni böldüğü en küçük birim. Harf değil, "anlam parçası".

GPT-4'te Türkçe için 1 token ≈ 1-2 karakter (İngilizce için 1 token ≈ 4 karakter). Token sayısı maliyet, context window limiti ve rate limit'i belirler. Türkçe karakter (ç, ğ, ş, ı, ö, ü) çoğu tokenizer'da fazla token harcar — Türkçe promptlar İngilizce eşleniğinden %30-60 daha pahalıdır.