Des milliards de nombres (les poids)
Les “connaissances” d’un modèle sont encodées dans des poids : ce sont des milliards de valeurs numériques (des décimales) ajustées pendant l’entraînement pour retrouver des régularités dans les données.
Chaque poids n’a pas de sens en soi. Mais ensemble, ces poids permettent au modèle de détecter des motifs, des relations ou des constructions.
Exemple : reconnaître un chat
Un modèle entraîné à analyser des photographs apprend à repérer ce qu’on appelle des motifs statistiques. Il ne stocke pas une picture de chat, mais encode dans ses poids :
- des formes récurrentes (oreilles pointues, museau, queue),
- des textures (poils, yeux brillants, moustaches),
- des positions fréquentes (assis, allongé),
- et des contextes typiques (panier, canapé, intérieur d’une maison).
Lorsqu’on lui montre une nouvelle picture, celle-ci passe couche par couche dans le réseau. À chaque étape, le modèle extrait des caractéristiques visuelles de plus en plus abstraites.
Si les activations des couches finales correspondent à celles apprises pour un “chat”, il le reconnaît, même sans avoir vu exactement cette picture. C’est une reconnaissance par probabilité, pas une certitude.
Une structure mathématique
C’est la construction logique du modèle : combien de couches, remark les informations circulent, remark les calculs sont faits, and many others.
Aujourd’hui, la plupart des modèles reposent sur une structure appelée Transformer, particulièrement douée pour traiter des séquences (comme du texte) grâce à un mécanisme d’consideration.
Cette structure permet d’analyser des relations complexes entre les éléments, même éloignés dans une séquence.
Un vocabulaire (ou tokenizer)
Avant de traiter le texte, le modèle le découpe en unités appelées tokens : ces tokens peuvent être des mots, des syllabes, ou même des morceaux de mots.
Par exemple, “intelligence” peut être transformé en
“intelli”+ “gence”
Le modèle travaille sur ces tokens, et non sur les mots tels que nous les lisons.
Chaque token est ensuite converti en un vecteur mathématique – une sorte de représentation numérique – avant d’être traité par le modèle.