GitHub, l'arme stratégique de Microsoft dont personne ne veut parler dans la guerre de l'IA

Le 24 avril, GitHub a modifié son règlement de confidentialité. Désormais, par défaut, le code des utilisateurs Copilot Free, Pro et Pro+ peut servir à entraîner les modèles d'IA de Microsoft. Le changement n'a fait l'objet d'aucune annonce d'envergure : un changelog technique, deux ou trois articles dans la presse spécialisée, et la machine est repartie. Quelqu'un, dans les bureaux de GitHub à San Francisco, a décidé qu'on basculerait l'opt-in en opt-out, et a estimé que ça pouvait passer en douceur. Ça passe.

Cette mise à jour mérite qu'on s'y arrête. Non pour ce qu'elle dit du respect de la propriété des développeurs, d'autres l'ont fait, mais pour ce qu'elle révèle d'un actif que l'industrie entière utilise quotidiennement sans plus y penser : GitHub.

L'IA agentique, ces systèmes capables de raisonner, planifier et agir en plusieurs étapes plutôt que de produire une réponse unique, se construit sur du code, et la qualité d'un agent se mesure pour partie à sa capacité à écrire et valider ce code. Le contrôle du corpus de code est, dans cette perspective, le contrôle de la trajectoire vers les agents. C'est ce qui rend GitHub structurellement différent de toute autre infrastructure tech ; et c'est ce que l'on n'aborde presque jamais quand on raconte la guerre de l'IA en 2026, où l'attention se polarise sur les modèles, les benchmarks et les annonces de partenariats.

Une acquisition mal comprise

Quand Microsoft annonce le rachat de GitHub en juin 2018, la lecture dominante est celle d'un coup de com' tactique. Microsoft consolide son virage open-source amorcé sous Satya Nadella et offre aux développeurs un signe de bonne foi. La communauté hurle, certains migrent vers GitLab, le débat dure deux semaines, puis le sujet sort des radars.

Huit ans plus tard, la lecture mérite une révision. Lors d'une intervention publique en 2024, Nadella déclare :

« GitHub Copilot est aujourd'hui un business plus important que ne l'était GitHub entier au moment où nous l'avons acquis. »

En clair : un assistant de complétion de code lancé en 2021 a, en moins de trois ans, dépassé en revenu annuel l'intégralité du chiffre réalisé par l'entreprise rachetée par Microsoft à l'époque : soit à la signature environ 300 millions de dollars d'ARR pour un prix d'acquisition de 7,5 milliards.

Ce qui était présenté comme un geste de bonne volonté ressemble, vu d'aujourd'hui, à une option d'achat sur l'industrie logicielle, exercée à l'aube de l'IA générative. À la signature, GitHub revendiquait de l'ordre de 28 millions de comptes ; en octobre 2025, leur rapport Octoverse en revendique 180 millions, dont 36 millions ajoutés en un an : soit plus d'un nouveau développeur par seconde. La plateforme héberge désormais 630 millions de dépôts et accueille près d'un milliard de commits (publications de code) par an.

Microsoft n'a pas acheté un outil de versioning. Microsoft a acheté l'identité numérique de la population qui écrit le code du monde. Au moment de la signature, c'était de la com' et une synergie forte pour l'offre Cloud Azure. Avec GPT et consorts, c'est devenu un asset stratégique dans la guerre des Big Techs sur l'IA.

Un corpus que personne ne peut refaire

Le code n'est pas un texte comme les autres. C'est à notre connaissance le seul corpus que l'on peut vérifier par exécution : un programme compile ou pas, ses tests passent ou pas. Cette propriété rend les modèles de code centraux dans la trajectoire vers les agents. Un agent qui sait écrire du code et le valider lui-même peut, par extension, valider une part croissante de ses propres actions : c'est une des raisons, débattues mais sérieuses, pour lesquelles les progrès sur SWE-Bench (la référence d'évaluation des modèles de programmation, conçue à Princeton en 2023) tendent à corréler avec les progrès sur les benchmarks d'agents généralistes.

Pour entraîner ces modèles, il faut du code en quantité massive. Le corpus de référence s'appelle The Stack (6 To en v1, 67,5 To en v2, plus de 600 langages, produit par BigCode et hébergé sur Hugging Face). Son origine est publique et documentée : ce sont des dépôts GitHub. La plupart des modèles de code open-source ont été entraînés dessus, en partie ou en totalité.

Les actes de procédure de Doe v. GitHub, déposés en novembre 2022, ont rendu publique une pratique que ni Microsoft ni OpenAI ne contestent désormais : Copilot, GPT et Codex ont été entraînés sur du code GitHub public. Le tribunal n'a pas retenu les violations de copyright. Le fait technique, lui, n'est plus contesté.

Ce qui est déjà un avantage important, la mise à jour des CGU du 24 avril le transforme en atout asymétrique. Toutes les interactions Copilot (prompts saisis, suggestions acceptées ou rejetées, contexte des fichiers ouverts) peuvent désormais alimenter l'entraînement des modèles d'IA de Microsoft. Par défaut sur les comptes Free, Pro et Pro+ ; les contrats Enterprise, eux, restent protégés.

OpenAI, Anthropic, Google ne disposent d'aucun équivalent. Ils peuvent réutiliser les datasets gelés issus de scraping antérieur (The Stack v2, RedPajama-code et leurs dérivés) mais l'API GitHub a été progressivement durcie depuis 2023 (rate-limiting, restrictions sur les appels publics, conditions tarifaires renouvelées en mars 2024) et la collecte fraîche à grande échelle devient de plus en plus difficile. Anthropic dispose pour sa part de son propre suivi d'usage via Claude Code, mais sous un format et à un ordre de grandeur différents : quelques centaines de milliers d'utilisateurs payants (des indépendants pour une majorité) face aux 26 millions revendiqués par GitHub Copilot (pour beaucoup, des équipes de développements entières).

À l'échelle qui compte pour pouvoir renforcer les agents de demain dans leur production industrielle de code, Microsoft est en pratique le seul acteur à pouvoir observer et capitaliser sur ce qui se passe sous le clavier d'un développeur.

Une distribution que personne n'attaque vraiment

À ce stade, une objection s'impose. La presse spécialisée répète depuis dix-huit mois que Microsoft est en train de perdre la guerre de l'IA sur tous les fronts : modèles, IDE, assistant de code, hardware. Ce diagnostic hâtif passe à côté de ce qui se joue hors champs.

Les outils de développement qui ont le vent en poupe en 2026 (Cursor, Claude Code, Devin) s'appuient tous d'une façon ou d'une autre sur GitHub. Ils s'authentifient via GitHub OAuth (le mécanisme d'identification qui permet à un service tiers de se connecter à un compte GitHub), lisent et écrivent dans des dépôts GitHub, déclenchent leurs intégrations continues via GitHub Actions, peuvent s'exécuter dans des Codespaces. Des alternatives existent : Bitbucket chez Atlassian, GitLab dans plusieurs grands comptes européens, des solutions auto-hébergées comme Forgejo dans la sphère souverainiste ; mais elles ne cumulent ensemble qu'une fraction marginale de l'audience développeur. Pour la grande majorité des organisations qui utilisent un assistant IA de code, aucune action significative ne s'exécute sans toucher, à un moment, une infrastructure Microsoft.

Depuis 2024, GitHub Models ferme la boucle côté économique. La marketplace propose des modèles dont la facturation passe par GitHub et la plomberie par Azure OpenAI. Tous les appels ne passeront pas par cette chaîne : les agents avancés continueront à appeler directement les API d'Anthropic ou d'OpenAI quand l'usage le justifie, mais la voie de moindre résistance pour un développeur qui change régulièrement de modèles, c'est GitHub Models. Au fur et à mesure que les outils tiers s'y branchent, une part croissante des appels finit dans une chaîne où Microsoft prélève sa marge.

Microsoft n'a pas besoin de gagner la bataille de « l'éditeur du meilleur modèle ». Il lui suffit de garder le système d'exploitation des développeurs. Cette manœuvre stratégique rappelle les années 1990 : Microsoft pouvait perdre les batailles d'applications visibles tant que Windows restait la couche par défaut.

Un silence bienvenu

Ce qui frappe, en regardant le débat public IA de 2026, c'est l'absence presque complète de mentions de GitHub. Deux raisons probables.

La première tient à la communication. GitHub doit conserver, pour fonctionner, son aura de plateforme ouverte et neutre. Le jour où les développeurs perçoivent GitHub comme l'arme stratégique qu'elle est, ils migrent vers des alternatives. Sous-communiquer la captation est, dans cette logique, une condition pour la captation. La sobriété autour des annonces GitHub des dernières années (y compris la mise à jour du 24 avril) n'est pas un hasard.

La seconde tient à la grille des analystes. GitHub pèse environ deux milliards de dollars de revenu annuel (chiffre confirmé par Satya Nadella lors de l'earnings call de juillet 2024) sans désagrégation entre Copilot et le reste de la plateforme. Donc deux milliards dans une entreprise qui en réalise plus de 245 : invisible dans le compte de résultat, mais critique dans la stratégie. Wall Street ne sait pas valoriser une plomberie. Les autorités de la concurrence, de leur côté, raisonnent en termes de marchés clairement définis : cloud, applications bureautiques, modèles. Et GitHub n'entre dans aucune de ces cases. L'avantage compétitif le plus puissant est souvent celui qui échappe aux grilles d'analyses externes.

Un angle mort pour les directions

La conversation européenne sur la souveraineté IA s'est focalisée, en 2025-2026, sur les modèles et les datacenters : Mistral, les annonces autour des « AI gigafactories », les financements. Ces objets sont importants. Ils ne sont pas suffisants, parce qu'aucun n'aborde la couche développeur où s'écrit, se versionne, se distribue le code qui fait tourner le reste. Une infrastructure d'autant plus clef demain dans un monde où n'importe qui et n'importe quel agent est en mesure de devenir un développeur au cours d'une conversation.

Pour les directions d'entreprise, la question est plus immédiate. La plupart des organisations auditent rigoureusement l'exposition de leur infrastructure. Très peu auditent celle de leur code. L'ordre de grandeur de la dépendance est désormais comparable, et la substituabilité pourrait être moindre : les migrations cloud sont un exercice courant, désormais bien outillé et maîtrisé. La migration GitHub beaucoup moins.

Trois questions concrètes pour un COMEX qui voudrait commencer à y voir clair :

Quelle part de notre code de production vit aujourd'hui dans des dépôts GitHub propriétés Microsoft, par opposition à du self-hosted ou à GitLab ?
Quel est notre coût annualisé Copilot, et combien d'utilisateurs internes en sont devenus dépendants au point qu'un retour arrière représenterait une perte de productivité mesurable ?
Si Microsoft décidait demain de doubler le tarif de Copilot Enterprise, ou de modifier les conditions d'export des données comme cela vient d'être fait sur les comptes individuels, quel est notre plan de réversibilité à six mois ?

Aucune des trois ne se règle dans la semaine. Toutes méritent d'être posées avant qu'elles ne le soient par la force de la situation.

La vraie guerre n'est pas celle qu'on raconte

Tant qu'on racontera la guerre de l'IA comme une lutte pour faire le « meilleur modèle », on ne verra pas qui la gagne. Les modèles se commodifient, leur prix d'inférence chute à un rythme considérable chaque année, aucune avance technique d'un lab ne perdure plus de trois mois.

Les seuls actifs durables semblent être ceux que l'IA ne peut pas reproduire elle-même : le canal de distribution, le contrat utilisateur, l'identité authentifiée, la donnée d'usage, le matériel. GitHub coche nombre de ces cases. Ce qui a été racheté en 2018 sous l'apparence d'un coup de communication tactique pourrait, en 2030, ressembler à la meilleure acquisition stratégique jamais faite par Microsoft.

Ce constat ne s'arrête en réalité pas à Microsoft. Pendant que l'attention médiatique se polarise sur OpenAI, Anthropic, DeepSeek et autres, les géants de la Tech installent en silence leurs propres positions de rente. Google avec ses 9 milliards de requêtes Search par jour, Android (3 milliards d'appareils actifs) et l'intégration verticale TPU qui rend ses coûts d'inférence inégalés. Amazon avec AWS (60 % du marché cloud entreprise) et Bedrock comme couche de distribution multi-modèles. Apple avec 1,4 milliard d'iPhones actifs et sa montée en puissance inarrêtable sur l'inférence avec ses puces à mémoire unifiée. Nvidia avec son quasi-monopole sur le matériel d'entraînement actuel (plus de 80 % de parts de marché sur les GPU IA frontier) et l'écosystème CUDA dont aucune alternative crédible n'a émergé en quinze ans. Aucun de ces actifs ne s'achète. Aucun ne se reproduit en moins de cinq ans. Tous précèdent l'IA générative, et constituent la colonne vertébrale sur laquelle celle-ci, et ses usages, sont bâtis.

On nous raconte une guerre dans laquelle les insurgés seraient amenés à tout rafler. C'est en réalité plus une guerre dans laquelle les empires établis se repositionnent pour asseoir leur main-mise sur une économie toujours plus liée à la technologie. La vraie question des dix-huit prochains mois ne porte pas sur qui l'emporte entre OpenAI et Anthropic. Elle est plutôt : à quoi ressemble l'économie de l'ère de l'IA, partitionnée entre Microsoft, Google, Amazon, Apple, Meta et Nvidia ?

Sources et lectures associées

GitHub Octoverse 2025
Communiqué d'acquisition GitHub (Microsoft, juin 2018)
Microsoft Q2 FY26 earnings (janvier 2026)
The Stack v1 et v2 (BigCode / Hugging Face)
Doe v. GitHub (Joseph Saveri Law Firm)
Mise à jour de la Privacy Statement GitHub (changelog du 25 mars 2026)
The Register, InfoQ, Help Net Security sur les changements de CGU
Stratechery (Ben Thompson, août 2025 et février 2026)
TechCrunch (juillet 2025)
The Next Web (avril 2026)
SWE-Bench (Princeton NLP, 2023)
Documentation Copilot Workspace (GitHub, 2024)