Jetons dans le contexte de ChatGPT

Cet article met en lumière ce que sont les jetons, comment ils sont calculés et donne un exemple concret de leur utilisation.

Définition du jeton

Les jetons sont la plus petite unité de texte qu'un système d'apprentissage automatique peut traiter. Dans sa forme la plus simple, un jeton peut être un seul mot, un signe de ponctuation ou un espace. Cependant, dans des modèles plus complexes tels que ChatGPT, les tokens peuvent également comprendre des parties de mots ou plusieurs mots. Cette forme de tokénisation est appelée tokénisation de sous-mots. Les tokens sont un élément fondamental dans le traitement des textes. Ils constituent la base de la compréhension et de l'interprétation des données textuelles.

Comment les jetons sont calculés

Lors du traitement d'un texte, celui-ci est d'abord décomposé en une série de tokens. Ce processus est appelé "tokenisation". Le modèle utilise ensuite les valeurs numériques représentatives de ces tokens pour analyser et prédire le texte.

Un aspect important à cet égard est la limitation du nombre de jetons qu'un modèle peut traiter. Avec GPT-3.5 Turbo, cette limite est par exemple de 4 096 tokens. Cette limite concerne aussi bien les textes d'entrée que les textes de sortie et est également appelée fenêtre de contexte.

Un exemple de jeton

Une phrase comme "ChatGPT est un modèle de langage d'OpenAI" serait décomposée en tokens individuels. Dans une simple tokenisation de mots, cette phrase pourrait par exemple être décomposée en tokens suivants :

"ChatGPT"
"est"
"un"
"modèle de langage"
"de"
"OpenAI"

Toutefois, dans le cas d'une tokenisation par sous-mots, la même phrase pourrait être décomposée en plus ou moins de tokens, en fonction de la logique de tokenisation spécifique du modèle.

Exemple de jeton

Un exemple pratique

Supposons que nous ayons un texte de 1000 mots. Dans une simple tokenisation de mots, nous aurions également 1000 tokens. Cependant, dans une tokenisation par sous-mots, le nombre de tokens pourrait varier. Par exemple, un mot comme "configuration" pourrait être décomposé en plusieurs tokens comme "confi", "gura", "tion". De même, un signe de ponctuation ou un espace pourrait également être compté comme un token séparé. Cela signifie que le nombre de tokens pourrait être plus élevé que le nombre de mots dans le texte.

Conclusion
Les tokens jouent un rôle central dans le fonctionnement de ChatGPT et des modèles d'apprentissage automatique similaires. En décomposant le texte en jetons individuels, le modèle peut comprendre et analyser le texte et faire des prédictions. Bien que le nombre exact et la nature des jetons puissent dépendre de la logique spécifique du modèle, la compréhension de la tokenisation offre un aperçu du fonctionnement de ces modèles.