Aller au contenu principal
Table de travail créative mêlant templates marketing, graphiques de conversion et résultats de tests automatisés par IA, illustrant les applications business du Karpathy Loop

Autoresearch de Karpathy : l’IA qui progresse toute seule (et comment l’appliquer à votre business)

Retour au blog
Intelligence artificielle
Nicolas
14 min de lecture
Table de travail créative mêlant templates marketing, graphiques de conversion et résultats de tests automatisés par IA, illustrant les applications business du Karpathy Loop

Andrej Karpathy, cofondateur d’OpenAI et ex-directeur IA de Tesla, a publié un script de 630 lignes qui laisse une intelligence artificielle mener ses propres recherches, toute la nuit, sans intervention humaine.

Le projet s’appelle Autoresearch, et il a explosé : 33 000 stars GitHub en une semaine, 8,6 millions de vues sur X en 48 heures.

La communauté tech ne s’est pas contentée de regarder : des freelances, des marketeurs et des traders ont déjà « hacké » le concept pour l’appliquer à leurs propres métiers.

Voici comment ce petit framework change la façon dont on pense l’automatisation, et surtout comment vous pouvez l’utiliser pour votre business.

Qu’est-ce qu’Autoresearch exactement ?

Autoresearch est un framework minimaliste de recherche en machine learning, construit sur nanochat, le système d’entraînement de modèles de langage créé par Karpathy.

Le principe est d’une simplicité presque provocante : vous donnez à un agent IA un GPU, un fichier de code modifiable, une métrique à battre, et Git comme mémoire.

L’agent fait le reste.

Il teste des hypothèses, modifie le code, lance des entraînements de 5 minutes, mesure les résultats, et recommence.

Un chercheur IA infatigable qui travaille pendant que vous dormez : c’est exactement ce que fait Autoresearch.

L’objectif initial : faire progresser un petit modèle de langage (environ 11-12 millions de paramètres) en trouvant les meilleures combinaisons d’architecture, d’hyperparamètres et de techniques d’entraînement.

Le vrai génie du projet, c’est que le pattern sous-jacent fonctionne bien au-delà du machine learning.

Comment fonctionne le « Karpathy Loop » ?

Robot humanoïde dans un couloir infini de miroirs reflétant des versions améliorées de lui-même, symbolisant la boucle d'auto-amélioration récursive d'Autoresearch

Les 3 fichiers du système

Tout le système repose sur 3 fichiers, et c’est cette simplicité qui le rend si puissant.

prepare.py est le fichier fixe : il gère les données, la tokenisation (BPE avec un vocabulaire de 8 192 tokens) et l’évaluation.

Personne n’y touche, ni l’humain, ni l’agent.

train.py est le terrain de jeu de l’agent : il contient l’architecture GPT, les optimiseurs (Muon et AdamW), la boucle d’entraînement.

C’est le seul fichier que l’IA a le droit de modifier.

program.md est le fichier humain : vous y écrivez vos instructions de recherche en langage naturel, comme un brief à un assistant.

Karpathy appelle ça « programmer la recherche en Markdown » : vous ne codez plus, vous orchestrez.

La boucle autonome en 8 étapes

L’agent suit un cycle précis, répété sans fin jusqu’à ce qu’on l’arrête (spoiler : l’instruction par défaut est « NEVER STOP »).

  1. L’agent lit le contexte : program.md, l’historique Git, les résultats précédents
  2. Il formule une hypothèse et prédit le résultat attendu (c’est le « prediction block »)
  3. Il modifie train.py selon son hypothèse
  4. Il lance un entraînement de 5 minutes exactement (temps réel, pas nombre de steps)
  5. Il mesure la métrique val_bpb (bits par byte de validation : plus c’est bas, mieux c’est)
  6. Il compare prédiction vs réalité : si l’écart est grand, l’agent apprend de sa propre erreur
  7. Si le résultat progresse, commit Git : sinon, git reset et on oublie
  8. Il recommence au point 1

Ce cycle tourne à environ 12 expériences par heure, soit 100 expériences par nuit sur un seul GPU.

Craig Huitt, analyste tech, résume : « C’est le plus bel exemple de la boucle agentique qui va tout dévorer. »

Le détail qui fait la différence : Git sert de mémoire.

Chaque gain est un commit, chaque échec est un revert.

L’agent peut relire l’historique complet de ses expériences pour éviter de répéter les mêmes erreurs.

Les résultats concrets qui ont fait réagir la communauté

Les chiffres parlent d’eux-mêmes.

Karpathy lui-même a lancé un run d’une nuit : 126 expériences, avec un val_bpb passé de 0.9979 à 0.9697.

Sur un run de 2 jours avec un modèle plus profond (depth=12), l’agent a réalisé environ 700 modifications dont 20 gains transférables à d’autres projets.

Le plus frappant : l’agent a découvert des erreurs dans le scaling d’attention et la régularisation que Karpathy, avec 20 ans d’expérience en deep learning, n’avait pas repérées.

Tobi Lutke, CEO de Shopify et ingénieur de formation, a testé le framework sur ses propres modèles.

Résultat : 19% de gain sur les performances, avec un modèle plus petit qui a surpassé un modèle plus grand configuré manuellement.

Quand un script de 630 lignes trouve des bugs qu’un expert de 20 ans n’a pas vus, le message est clair : l’itération automatisée bat l’intuition humaine sur les tâches répétitives.

MétriqueAvant AutoresearchAprès Autoresearch
val_bpb (Karpathy, 1 nuit)0.99790.9697
Expériences (1 nuit)2-3 manuelles126 automatisées
Performance (Tobi Lutke)Baseline manuelle+19% avec modèle plus petit
Bugs trouvés0 (en 20 ans)Erreurs scaling + régularisation

Claude Code + Autoresearch : l’IA qui progresse toute seule

Le combo le plus excitant autour d’Autoresearch vient de son association avec Claude Code, l’assistant de développement d’Anthropic.

Le principe : au lieu de configurer manuellement l’agent, vous ouvrez Claude Code dans le dossier du repo, et il prend le relais.

Claude Code lit program.md, comprend les objectifs, et commence à expérimenter de façon autonome.

Il modifie train.py, lance les entraînements, analyse les résultats, commit ou revert, et recommence.

Ce qui change en profondeur : Claude ne se contente plus d’exécuter des instructions.

Il expérimente, mesure, et apprend de ses erreurs en temps réel.

L’insight clé : vous ne codez plus, vous orchestrez un agent qui code, teste et itère pour vous.

Le setup est rapide : cloner le repo, ouvrir Claude Code dans le dossier, et en quelques minutes vous avez un pipeline auto-améliorant fonctionnel.

Pour ceux qui veulent aller plus loin, le système fonctionne aussi avec GPT-5, des modèles locaux via Ollama, ou même sur Google Colab avec un GPU T4 gratuit.

Le Karpathy Loop pour les PME et freelances : 7 applications concrètes

Un renard scientifique entouré d'écrans holographiques affichant des expériences de code et des graphiques de progression, illustrant le concept d'Autoresearch de Karpathy

C’est là où ça devient passionnant pour les non-ingénieurs.

Le génie d’Autoresearch, c’est que le pattern est universel.

Pas besoin de savoir coder ou de posséder un GPU à 30 000 euros.

Il suffit de remplacer 3 éléments :

  • Le fichier modifiable (train.py devient votre template, votre page, votre email)
  • La métrique (val_bpb devient votre KPI business : taux d’ouverture, conversion, chiffre d’affaires)
  • Le programme (program.md devient votre stratégie en langage naturel)

1. Affiner ses emails de prospection pendant qu’on dort

Vous êtes freelance ou commercial en PME : vous envoyez des cold emails pour trouver des clients.

L’agent modifie l’objet, l’accroche, le CTA, la longueur, envoie à un petit segment, mesure le taux de réponse, et garde ce qui marche.

Au lieu de 2-3 tests A/B par mois faits à la main, l’agent en fait des dizaines par jour.

Outils accessibles : Instantly, Lemlist ou Mailchimp combinés avec Claude Code.

2. Faire progresser sa landing page en continu

Vous avez un site qui vend un service, mais vous ne savez jamais quel titre ou quel CTA fonctionne le mieux.

L’agent teste des variantes du titre, du sous-titre, du bouton d’action, du social proof.

Chaque nuit, il propose une nouvelle version, la déploie, mesure le taux de conversion, et ne garde que ce qui convertit mieux.

Eric Siu (agence Single Grain) estime que les équipes marketing font environ 30 à 50 tests par an manuellement.

Avec ce pattern : jusqu’à 36 500 tests par an.

3. Rédiger du contenu SEO qui se classe mieux

L’agent rédige des variantes de titres, meta descriptions, introductions et structures d’article.

La métrique : score SEO (via Surfer ou Clearscope), taux de clic dans la Search Console, position moyenne.

La boucle : l’agent analyse les contenus existants, identifie les faiblesses, propose une réécriture, mesure l’impact, et itère.

4. Tester ses posts LinkedIn ou ses newsletters

Un freelance qui publie sur LinkedIn ne sait jamais quel format performe.

L’agent génère des variantes : longueur, ton, accroche, type de hook, storytelling vs. liste.

Il teste 5 variantes d’accroche, publie, mesure après 24-48h, et apprend pour le prochain post.

L’agent maintient un « journal de bord » de ce qui marche pour votre audience spécifique.

5. Qualifier et scorer ses leads automatiquement

Vous avez un CRM rempli de contacts, mais vous perdez du temps à contacter les mauvais.

L’agent modifie les critères de scoring, teste sur l’historique de conversions, mesure la précision, et affine.

Résultat : vos commerciaux ne contactent que les leads les plus chauds, le reste est nourri automatiquement.

Outils accessibles : HubSpot, Pipedrive, ou même un Google Sheet structuré combiné avec Claude Code.

6. Booster ses campagnes publicitaires

Le pattern naturel du A/B testing, mais en mode turbo et 24/7.

L’agent génère des variantes de titres, descriptions et CTA pour les annonces Google Ads ou Meta.

La boucle : il crée une variante, la déploie via l’API, mesure après 24-72h le coût par acquisition (CPA) ou le ROAS, garde ou jette, et recommence.

Astuce : commencez avec un seul groupe d’annonces pour garder le test propre.

7. Peaufiner ses processus internes

Une PME peut appliquer le pattern à ses propres process : modèles de devis, scripts d’appel, templates de réponse client. Les agences qui ont intégré l’IA dans le secteur immobilier utilisent exactement ce type de boucle pour affiner leur pricing dynamique et leurs outils d’évaluation des biens.

L’agent modifie un template, le teste sur les prochaines interactions, et mesure le taux d’acceptation des devis ou le temps de résolution.

Exemple concret : tester ses propositions commerciales en mesurant combien de devis sont acceptés sur 30 jours.

Le pattern universel en 5 étapes

ÉtapeCe que ça veut dire concrètement
1. Définir « mieux »Choisir UN chiffre à battre (taux de réponse, conversion, CA)
2. L’IA proposeElle crée une variante de votre email, page, annonce ou process
3. On testeLa variante est déployée sur un petit segment
4. On mesureL’IA compare : c’est mieux ou pas ?
5. On garde ou on jetteSi c’est mieux, ça devient la nouvelle référence. Sinon, poubelle.

La clé : le même principe qui aide Karpathy à faire progresser un modèle IA pendant la nuit aide un freelance à affiner ses emails de prospection pendant qu’il dort.

Stack technique et comment démarrer

Pour le cas d’usage ML original, voici ce qu’il faut :

  • Python 3.10+ et PyTorch avec CUDA
  • Un GPU NVIDIA (H100 idéal, mais ça fonctionne sur RTX 4090)
  • Une API LLM : Claude, GPT-5, ou un modèle local via Ollama
  • Git installé sur la machine

Pour les utilisateurs Apple Silicon, une variante autoresearch-mlx existe.

Sur Google Colab, un GPU T4 gratuit suffit pour tester le concept.

Le démarrage avec Claude Code est encore plus simple : clonez le repo, ouvrez Claude Code dans le dossier, et lancez.

Pour les applications business (emails, landing pages, publicités), vous n’avez pas besoin de GPU.

Un accès à Claude Code ou un outil no-code comme MindStudio suffit pour reproduire la boucle.

Ce qu’Autoresearch peut et ne peut PAS faire

Les forces du système

  • Études d’ablation sur modèles petits et moyens : tester ce qui se passe quand on retire ou ajoute un composant
  • Analyse de sensibilité des hyperparamètres : trouver les réglages optimaux
  • Comparaisons d’architectures : confronter plusieurs approches en une nuit
  • Itération continue de n’importe quel système mesurable

Les limites à connaître

  • Pas de multi-GPU ni multi-noeuds dans la version de base
  • L’agent ne crée pas de théorie mathématique nouvelle : il teste des hypothèses, il n’invente pas
  • Sans historique complet, l’agent peut générer des expériences répétitives
  • Il ne remplace pas l’intuition du chercheur pour choisir les bonnes questions à poser
  • Les données bruitées (finance, marketing) nécessitent des garde-fous supplémentaires pour éviter les faux positifs

Autoresearch est un marteau extraordinaire, mais il ne choisit pas les clous à votre place.

Pourquoi c’est un tournant pour l’IA et le business

Le passage du « je code moi-même » au « j’orchestre des agents qui codent » est en train de se produire sous nos yeux.

Avec Autoresearch, le rôle du professionnel évolue : vous devenez un designer d’arènes expérimentales, pas un exécutant.

Le goulot d’étranglement n’est plus la capacité à coder.

Il se déplace vers 3 compétences :

  1. Poser les bonnes questions (que tester ?)
  2. Définir les bonnes métriques (comment mesurer « mieux » ?)
  3. Designer les bons garde-fous (quelles limites imposer à l’agent ?)

Un parallèle intéressant : AI Scientist-v2 de Sakana AI est devenu le premier système IA dont un paper a été accepté en peer-review. Dans la même logique évolutive, AlphaEvolve de Google DeepMind pousse l’itération autonome jusqu’à la découverte d’algorithmes inédits.

Une tendance parallèle : AMI Labs, la startup de Yann LeCun valorisée 3,5 Md$, parie sur une rupture architecturale encore plus profonde avec les world models, des IA entraînées à modéliser le monde physique plutôt qu’à prédire des tokens.

Une équipe de 2 personnes équipée d’Autoresearch peut produire à la cadence de 20 ingénieurs.

Les questions de sécurité sont réelles : une IA qui fait progresser sa propre IA (recursive self-improvement) pose des questions sur le contrôle et la supervision.

Les agents autonomes comme Manus ou Autoresearch montrent que la frontière entre outil et collaborateur s’efface un peu plus chaque mois.

Les protocoles comme le Model Context Protocol (MCP) standardisent la communication entre agents et outils, accélérant encore cette convergence.

Conclusion

Autoresearch n’est pas un produit fini : c’est un pattern.

Et ce pattern s’applique partout où il y a une métrique à battre et un processus à itérer.

La vraie compétence de demain ne sera pas de savoir coder train.py.

Ce sera de savoir écrire un bon program.md : définir ce qu’on cherche, poser les règles du jeu, et laisser l’agent explorer.

Si vous dirigez une PME, gérez des campagnes marketing, ou cherchez à scaler vos process, le Karpathy Loop est un modèle mental à adopter maintenant.

Le repo est en open source sur GitHub : explorez-le, forkez-le, et appliquez-le à votre réalité.

FAQ

Qu’est-ce qu’Autoresearch de Karpathy ?

Autoresearch est un framework open source créé par Andrej Karpathy qui laisse un agent IA mener des expériences de machine learning de façon autonome, 24h/24, sur un seul GPU.

Faut-il savoir coder pour utiliser le Karpathy Loop ?

Pour le cas ML original, des bases en Python et PyTorch sont nécessaires.

Pour les applications business (emails, landing pages, publicités), Claude Code ou un outil no-code comme MindStudio suffit.

Combien d’expériences Autoresearch peut-il lancer par nuit ?

Environ 100 expériences par nuit sur un seul GPU, soit environ 12 par heure, grâce à des entraînements fixes de 5 minutes.

Quel GPU faut-il pour faire tourner Autoresearch ?

L’idéal est un NVIDIA H100, mais le framework fonctionne sur RTX 4090, Apple Silicon (via MLX), et même un Google Colab T4 gratuit.

Quelle est la différence entre Autoresearch et un simple A/B test ?

Un A/B test classique compare 2 variantes à la main.

Autoresearch automatise la boucle complète : hypothèse, modification, test, mesure, décision, et recommence sans intervention humaine.

Peut-on utiliser Autoresearch pour ses emails de prospection ?

Oui, en remplaçant train.py par votre template d’email, val_bpb par le taux de réponse, et program.md par votre stratégie de prospection.

Des outils comme Instantly ou Lemlist peuvent être connectés à la boucle.

Autoresearch fonctionne-t-il avec Claude Code ?

Oui, c’est même l’une des combinaisons les plus populaires.

Claude Code lit program.md, modifie train.py, lance les expériences et gère les commits Git automatiquement.

Quelles sont les limites d’Autoresearch ?

Le système ne crée pas de théorie mathématique nouvelle, ne gère pas le multi-GPU nativement, et peut générer des expériences répétitives sans un historique complet.

Il nécessite des garde-fous supplémentaires sur les données bruitées (finance, marketing).

Autoresearch peut-il remplacer un data scientist ?

Non.

Il excelle dans l’itération rapide et les tests d’hyperparamètres, mais l’intuition humaine reste indispensable pour choisir les bonnes questions et interpréter les résultats.

Où trouver le code source d’Autoresearch ?

Le repo officiel est sur GitHub à l’adresse github.com/karpathy/autoresearch, avec plus de 33 000 stars et une communauté active.

Articles Similaires

Prêt à créer votre système IA ?

Anthem Creation vous accompagne dans votre transformation IA

Disponibilité : 1 nouveau projet pour Avril/Mai
Échanger sur mon besoin
Une question ?
✉️

Encore quelques questions ?

Laissez-moi votre email pour qu'on puisse continuer cette conversation. Promis, je garde ça précieusement (et je ne vous bombarderai pas de newsletters).

  • 💬 Accès illimité au chatbot
  • 🚀 Des réponses plus poussées
  • 🔐 Vos données restent entre nous
Cette réponse vous a-t-elle aidé ? Merci !