Andrej Karpathy hat eine Idee in ein minimales Werkzeug gegossen, die gleichzeitig fasziniert und ein bisschen beunruhigt: autoresearch lässt KI-Agenten autonom über Nacht an der Verbesserung von Sprachmodellen forschen — ohne dass ein Mensch auch nur einen Finger rührt.

Die Idee: Schlafend forschen lassen

Das Konzept ist radikal einfach. Ein KI-Agent bekommt ein funktionierendes LLM-Trainingssetup mit rund 630 Zeilen Code. Dann läuft ein endloser Kreislauf: Der Agent verändert den Trainings-Code, trainiert das Modell exakt fünf Minuten lang, prüft, ob die Validierungsverluste gesunken sind — und behält die Änderung oder verwirft sie. Dann geht es von vorn los.

Wer abends den Agenten startet, wacht morgens mit rund 100 abgeschlossenen Experimenten auf. Jedes einzelne versioniert auf einem eigenen Git-Branch, nachvollziehbar bis auf die letzte Codezeile.

Mensch und Maschine, klar getrennt

Karpathy hat das System bewusst auf drei Dateien reduziert:

  • train.py — die einzige Datei, die der KI-Agent verändert. Enthält Modellarchitektur, Optimizer und Trainingsschleife.
  • program.md — die Anweisungsdatei, die nur der Mensch bearbeitet. Hier wird festgelegt, wonach der Agent suchen soll.
  • prepare.py — Datenvorbereitung und Hilfsfunktionen. Wird von niemandem verändert.

Die Rollenverteilung ist klar: Der Mensch schreibt die Strategie (im Markdown-Format), die KI führt sie in Python aus. So entsteht eine Art Metaebene — man programmiert nicht mehr das Modell selbst, sondern programmiert den Forscher, der das Modell verbessert.

Fünf Minuten, eine Metrik

Ein entscheidender Designentscheid: Jeder Trainingslauf dauert exakt fünf Minuten Wanduhrzeit. Das macht Ergebnisse vergleichbar, unabhängig davon, was der Agent an Architektur, Batchgröße oder Hyperparametern verändert hat. Die einzige Metrik sind die Validation Bits per Byte — niedriger ist besser, und der Wert bleibt über verschiedene Vokabulargrößen hinweg fair vergleichbar.

Die Community hat das Projekt sofort aufgegriffen. Innerhalb von zwei Tagen entstanden Anleitungen wie die von hooeem, die Schritt für Schritt erklären, wie man autoresearch auf eigener Hardware zum Laufen bringt.

Zwischen Aufbruch und Kontrollverlust

Karpathy selbst beschreibt das Ganze mit einer Mischung aus Euphorie und Selbstironie als „Part code, part sci-fi, and a pinch of psychosis." Die Stoßrichtung ist klar: Forschung automatisieren, die bisher mühsame menschliche Handarbeit war. Gleichzeitig steckt in dem Projekt eine fundamentale Frage — wenn der Agent seinen eigenen Trainings-Code immer weiter verändert, wann versteht noch jemand, was er eigentlich tut?

Aktuell bleibt autoresearch überschaubar: eine GPU, eine Datei, eine Metrik. Aber Karpathy deutet in der README bereits an, wohin die Reise geht — größere Agenten-Schwärme, die über Cluster-Infrastrukturen hinweg autonom forschen. Ob das dystopisch oder genial ist, hängt davon ab, ob man der KI-Forschung vertraut, die ihren eigenen Code schreibt.

🎯 Was das für die Praxis bedeutet

1. Hyperparameter-Suche delegieren: autoresearch zeigt, wie autonome Agenten die zeitraubende Optimierung von Modell-Einstellungen über Nacht erledigen können — ohne dass eigenes ML-Wissen nötig ist.

2. Eigene Experimente nachbauen: Das Projekt ist bewusst minimalistisch gehalten (eine GPU, ein paar hundert Zeilen Code) und damit ein realistischer Einstieg für Teams mit begrenzter Hardware.

3. Mensch als Stratege: Statt selbst Code zu schreiben, formuliert man Ziele in natürlicher Sprache — eine Fähigkeit, die in Zukunft vermutlich wertvoller wird als klassisches Programmieren.

Dieser Artikel enthält eingebettete Inhalte Dritter (z. B. Videos, Social-Media-Beiträge). kiwoche.com berichtet über diese Inhalte, macht sie sich jedoch nicht zu eigen. Die Rechte und die Verantwortung liegen beim jeweiligen Urheber bzw. Plattformbetreiber.

📰 Quellen
GitHub Repo ↗ Karpathy auf X ↗ hooeem auf X ↗
Teilen: