Un voyage interactif à travers les concepts fondamentaux de l'intelligence artificielle. Des premières intuitions aux architectures modernes, explorez et manipulez les idées qui façonnent notre monde.
L'intelligence artificielle est la science qui vise à créer des machines capables de réaliser des tâches qui nécessitent normalement l'intelligence humaine : reconnaître des images, comprendre du texte, prendre des décisions, jouer aux échecs...
Le machine learning (apprentissage automatique) en est la branche la plus importante aujourd'hui : au lieu de programmer des règles à la main, on donne des exemples à la machine et elle apprend par elle-même les motifs et les règles.
Ce musée vous emmène des concepts les plus simples (arbre de décision) aux plus modernes (mécanisme d'attention des Transformers), en passant par les briques fondamentales : neurones, réseaux, et optimisation.
Le moyen le plus intuitif pour une machine de prendre une décision : poser des questions simples, une après l'autre, jusqu'à atteindre une conclusion. Cliquez sur les noeuds pour naviguer dans l'arbre.
Un arbre de décision est l'un des algorithmes les plus anciens et les plus simples du machine learning. Il fonctionne exactement comme un jeu de devinettes : on pose une série de questions oui/non pour arriver à une réponse.
Dans la vraie vie, on les utilise par exemple pour diagnostiquer des maladies, approuver un crédit bancaire, ou filtrer les spams. L'algorithme choisit automatiquement les meilleures questions à poser en analysant les données d'entraînement.
Leur grand avantage : on peut lire et comprendre leur raisonnement, contrairement aux réseaux de neurones qui sont souvent des « boîtes noires ».
Inspiré du cerveau humain, le perceptron est la brique élémentaire de tout réseau de neurones. Il reçoit des entrées, les pondère, puis décide : oui ou non ? Jouez avec les curseurs pour voir comment chaque paramètre influence la sortie.
Le perceptron a été inventé en 1958 par Frank Rosenblatt. C'est le tout premier modèle de neurone artificiel, inspiré du fonctionnement des neurones biologiques.
Chaque entrée (x) est multipliée par un poids (w) qui représente son importance. La somme pondérée passe ensuite dans une fonction d'activation qui décide si le neurone « s'active » ou non.
Sigmoïde : écrase tout entre 0 et 1, comme une probabilité. ReLU : laisse passer les valeurs positives, bloque le négatif — c'est la plus utilisée aujourd'hui. Échelon : tout ou rien, le neurone originel. Tanh : comme la sigmoïde, mais entre -1 et 1.
Les machines comprennent les mots en les plaçant dans un espace mathématique : les mots proches en sens sont proches en position. Cliquez sur un mot pour voir ses voisins sémantiques et découvrir les analogies.
En 2013, des chercheurs de Google ont créé Word2Vec, une technique révolutionnaire : transformer chaque mot en une liste de nombres (un vecteur) qui capture son sens.
Le résultat spectaculaire : les mots proches en sens se retrouvent proches dans l'espace. Mieux encore, les relations entre mots deviennent des opérations mathématiques. L'exemple célèbre : roi − homme + femme ≈ reine.
C'est la base de tous les modèles de langage modernes (GPT, Claude, etc.) : avant de « comprendre » une phrase, le modèle convertit chaque mot en vecteur. Les dimensions de cet espace sont bien plus grandes que 2 — typiquement des centaines voire des milliers. Ici on projette en 2D pour visualiser.
En connectant des neurones en couches successives, on obtient un réseau capable d'apprendre des motifs complexes. Observez comment les signaux se propagent de l'entrée vers la sortie à travers les connexions pondérées.
Un réseau de neurones multicouche (MLP) empile plusieurs couches de neurones. Chaque neurone d'une couche est connecté à tous ceux de la couche suivante — c'est ce qu'on appelle un réseau fully connected.
La magie opère dans les couches cachées : la première détecte des motifs simples, la seconde combine ces motifs en concepts plus abstraits. Plus il y a de couches, plus le réseau peut apprendre des relations complexes.
Les poids des connexions (épaisseur des lignes) sont les « connaissances » du réseau. Au départ ils sont aléatoires ; c'est l'entraînement qui les ajuste pour que le réseau donne les bonnes réponses.
Les couleurs indiquent le signe du poids : or = positif (excitateur), teal = négatif (inhibiteur).
Comment une machine apprend-elle ? En cherchant le point le plus bas d'un paysage de « coût ». Cliquez sur la surface pour placer une bille et regardez-la descendre vers le minimum. Le taux d'apprentissage contrôle la taille des pas.
La descente de gradient est la méthode fondamentale par laquelle les réseaux de neurones apprennent. Imaginez une bille sur un paysage vallonné : elle roule naturellement vers le creux le plus proche.
Le « paysage » représente l'erreur du modèle. Plus c'est haut, plus le modèle se trompe. Le but : trouver le point le plus bas (l'erreur minimale).
Le taux d'apprentissage (learning rate) contrôle la taille des pas. Trop petit : la bille descend très lentement. Trop grand : elle saute par-dessus les vallées et oscille sans converger. Essayez des valeurs extrêmes pour voir !
Un piège courant : le minimum local. La bille peut rester bloquée dans un petit creux sans atteindre le minimum global. C'est pourquoi le point de départ compte — cliquez à différents endroits pour observer.
Au coeur des modèles de langage modernes (comme celui qui vous parle), le mécanisme d'attention permet à chaque mot de « regarder » les autres mots pour comprendre le contexte. Sélectionnez un mot pour voir quels autres mots il consulte.
Le mécanisme d'attention est l'innovation clé derrière les Transformers (2017), l'architecture qui propulse ChatGPT, Claude, et tous les grands modèles de langage actuels.
L'idée : pour comprendre un mot, le modèle « regarde » tous les autres mots de la phrase et décide lesquels sont pertinents. Par exemple, pour comprendre « mange » dans « Le chat mange la souris », le modèle prête attention à « chat » (qui mange ?) et « souris » (mange quoi ?).
La matrice d'attention montre ces poids : chaque ligne représente un mot qui « pose une question » (query), chaque colonne un mot qui « répond » (key). Plus la case est lumineuse, plus l'attention est forte.
En réalité, les modèles utilisent des dizaines de « têtes d'attention » en parallèle, chacune capturant un type de relation différent (syntaxe, sémantique, coréférence...). Ici on en visualise une seule pour la clarté.
À quoi ressemble vraiment un grand modèle de langage ? Sous le capot, c'est un empilement vertigineux de couches. Explorez l'anatomie d'un LLM et mesurez l'échelle colossale de ces architectures.
Un LLM (Large Language Model) est un Transformer empilant des dizaines voire des centaines de blocs identiques. Chaque bloc contient une couche d'attention multi-têtes et un réseau de neurones feed-forward.
GPT-2 (2019) avait 117 millions de paramètres et 12 couches. GPT-4 (2023) en aurait ~1 800 milliards avec probablement 120+ couches. C'est un facteur ×15 000 en 4 ans.
Chaque paramètre est un nombre décimal (un poids) stocké en mémoire. GPT-4 en FP16 nécessiterait environ 3,6 téraoctets de mémoire vive — soit ~50 GPU haut de gamme juste pour le stocker.
Le token embedding convertit chaque mot en vecteur. Les blocs Transformer raffinant progressivement la compréhension. La tête de prédiction finale produit une probabilité pour chaque mot possible du vocabulaire (~50 000 à 100 000 mots).