Token (IA)

Unité de base traitée par un modèle de langage. Un token peut représenter un mot, une partie de mot ou un caractère de ponctuation.

Dans le contexte des LLM, un token est l'unité fondamentale de traitement du texte. Les modèles ne lisent pas des mots mais des tokens, qui peuvent correspondre à des mots entiers, des sous-mots ou des caractères.

En français, un mot courant comme « bonjour » est généralement un seul token, tandis qu'un mot rare peut être découpé en plusieurs tokens. En moyenne, 1 token ≈ 0.75 mot en français.

Le nombre de tokens est important car il détermine le coût d'utilisation des API d'IA et la taille maximale du contexte (fenêtre de contexte) qu'un modèle peut traiter.

Termes associés

LLM (Large Language Model)Modèle de langage de grande taille entraîné sur d'immenses corpus de texte, capable de comprendre et générer du langage naturel.Prompt EngineeringArt et technique de formuler des instructions (prompts) optimales pour obtenir les meilleurs résultats d'un modèle d'IA.

Retour au glossaire