La guerre des puces ! On fait le point !

CPU, GPU, TPU, NPU, LPU : pourquoi le futur de l’IA ne sera pas monolithique et qu’il faudra de tout pour faire le monde de l’IA ?

Pendant près d’une décennie, l’intelligence artificielle a semblé se résumer à une équation simple : plus de données, plus de paramètres, plus de GPU. Cette vision a structuré les investissements, les infrastructures cloud et même l’imaginaire collectif autour de l’IA. Elle était adaptée à une époque où l’objectif principal consistait à entraîner des modèles toujours plus grands, toujours plus performants. Elle l’est beaucoup moins dès lors que l’IA quitte les laboratoires pour s’insérer dans les usages quotidiens.

Le CPU, pourtant omniprésent, n’a jamais été au cœur de cette révolution. Il reste indispensable, mais pour un rôle de coordination et de logique générale. Il prépare les données, orchestre les pipelines, gère les systèmes. En IA, il agit comme un chef d’orchestre qui ne joue pas lui-même les instruments. Sa force est la polyvalence, sa limite est connue : dès que le calcul devient massif, séquentiel ou intensif, il est inefficace, lent et énergivore. Le CPU n’est pas dépassé, il est simplement à sa place.

Le GPU, lui, a pris le pouvoir parce qu’il cochait toutes les cases au bon moment. Massivement parallèle, relativement flexible et porté par un écosystème logiciel devenu un standard de fait, il a permis l’industrialisation rapide du deep learning. Aujourd’hui encore, NVIDIA capte plus de 80 % du marché des accélérateurs IA pour les data centers, selon Bloomberg et Omdia. Un GPU H100 peut consommer jusqu’à 700 watts, mais il offre une puissance brute inégalée pour l’entraînement et l’inférence à grande échelle. Le GPU n’est pas une mauvaise solution ; c’est une solution de compromis, suffisamment bonne pour beaucoup d’usages, mais rarement optimale pour un usage précis.

Les TPU de Google illustrent parfaitement cette idée. Conçus comme des ASIC dédiés exclusivement au machine learning, ils sacrifient la flexibilité au profit de l’efficacité. Dans l’écosystème Google, ils offrent d’excellentes performances énergétiques et un coût interne très compétitif. En revanche, leur accès reste limité, leur écosystème fermé et leur usage peu transposable hors du cloud Google. Les TPU ne cherchent pas à devenir universels : ils démontrent qu’une architecture alignée avec un usage précis surclasse souvent une architecture généraliste.

À l’autre extrémité du spectre, les NPU racontent une histoire différente : celle de l’IA qui sort du cloud. Présents dans les smartphones, les PC dits « AI-ready » ou les objets connectés, ils sont conçus pour exécuter localement des modèles à faible consommation énergétique et avec une latence minimale. La reconnaissance vocale, la vision embarquée ou les assistants locaux n’ont pas besoin de clusters de GPU. Ils ont besoin de réponses instantanées, d’une consommation réduite et d’une maîtrise des données. Le NPU ne remplace pas le GPU ; il supprime simplement le besoin de le solliciter pour une grande partie des usages courants.

L’apparition des LPU, notamment avec Groq (racheté en décembre 2025 près de 20 milliards par NVIDIA), marque une rupture plus radicale encore. Là où le GPU accepte l’imprévisibilité et le parallélisme massif, le LPU mise sur le déterminisme. Son architecture impose un pipeline strict, des poids stockés en SRAM et une exécution parfaitement prévisible. Le résultat est une latence extrêmement basse et constante, particulièrement adaptée à l’inférence en temps réel. Sur certains scénarios, Groq revendique des latences jusqu’à dix fois inférieures à celles des GPU traditionnels, d’après ses benchmarks publics. Le revers est évident : faible flexibilité, capacité mémoire limitée et absence de pertinence pour l’entraînement. Le LPU n’est pas un couteau suisse, c’est un instrument de précision.

Ce basculement matériel correspond à un changement plus profond : l’IA devient agentique. Les systèmes ne se contentent plus de générer une réponse ponctuelle. Ils interagissent, prennent des décisions, déclenchent des actions et dialoguent en continu. Or un agent n’accepte pas l’attente. Une latence de plusieurs centaines de millisecondes devient un défaut fonctionnel, pas un détail technique. C’est précisément là que le GPU montre ses limites structurelles.

La question devient alors stratégique : si demain une majorité d’usages IA repose sur des agents temps réel, le GPU restera-t-il la pierre angulaire de l’architecture, ou glissera-t-il vers un rôle comparable à celui des mainframes des années 1990 ? Puissants, indispensables pour certaines charges critiques, mais périphériques face à des architectures plus distribuées, spécialisées et sobres.

Le scénario le plus crédible n’est pas l’éviction du GPU, mais sa cohabitation. L’entraînement massif restera dominé par les GPU et les TPU. L’inférence temps réel migrera vers des LPU et des NPU. Les architectures hybrides deviendront la norme, combinant puissance brute, efficacité énergétique et faible latence. Le vrai risque pour les organisations n’est pas de choisir le mauvais processeur, mais de croire qu’il existe une réponse unique.

Le futur de l’IA ne sera pas monolithique. Il sera fragmenté, spécialisé et orienté usage. La question à se poser n’est donc plus « quelle est la meilleure puce ? », mais « pour quel usage, avec quelles contraintes, et à quel coût réel ? ». Ne pas se la poser revient à construire des infrastructures surdimensionnées pour des problèmes mal définis.

Dernière question, volontairement dérangeante : si l’IA devient majoritairement temps réel, sommes-nous certains que continuer à investir massivement dans des architectures pensées pour l’entraînement n’est pas une forme d’inertie technologique ?

Et nous ne sommes qu’au début de l’histoire. D’autres ruptures devraient logiquement voir le jour dans les prochaines années et rebattre encore et encore les cartes. L’équation difficile à résoudre, c’est de toujours rester à la pointe sans se tromper de modèle et investir massivement sur des technologies qui seront très vite dépassées. Pas simple !