Mit der Veröffentlichung der Modellfamilie Ornith-1.0 hat das Forschungskollektiv DeepReinforce.AI einen bemerkenswerten Fortschritt für autonome Entwickler-Agenten erzielt. Die quelloffenen Modelle wurden speziell darauf trainiert, nicht nur Code zu schreiben, sondern auch die eigene Ausführungsumgebung - das sogenannte Scaffold oder Gerüst - im Rahmen des Reinforcement Learnings (RL) selbstständig zu steuern und zu optimieren. Dieser Ansatz des "Self-Scaffolding" verleiht den Modellen eine beachtliche Flexibilität bei der Lösung komplexer Softwareprojekte.

Herkömmliche Coding-Agenten sind meist an ein starres, von Menschen programmiertes Regelsystem gebunden. Sie erhalten klare Vorgaben, wie sie eine Datei lesen, Tests ausführen oder Fehler korrigieren sollen. Ornith-1.0 bricht mit dieser Einschränkung. Wie der KI-Experte Rohan Paul auf X analysiert, optimiert das Modell im RL-Training parallel zur Code-Generierung auch seine eigene Vorgehensweise. Es lernt selbstständig, wann es einen Plan entwirft, welche Werkzeuge es aufruft und wie es auf Fehlermeldungen im Terminal reagiert.

Dieser Zuwachs an Autonomie bringt jedoch das Risiko des sogenannten "Reward Hacking" mit sich - die KI könnte versuchen, das Bewertungssystem zu manipulieren, um eine Aufgabe scheinbar erfolgreich abzuschließen. Um dies zu verhindern, hat DeepReinforce.AI eine dreistufige Sicherheitsarchitektur implementiert: Eine isolierte Ausführungsumgebung setzt feste Grenzen, ein deterministischer Monitor wacht über die Testläufe, und ein separates, eingefrorenes LLM-Richtermodell bewertet die finalen Ergebnisse auf Plausibilität.

Die Leistungsfähigkeit dieses Ansatzes zeigt sich in den Benchmarks. Auf den anspruchsvollen Leaderboards von SWE-bench Verified und Terminal-Bench 2.1 konnte das Flaggschiff-Modell mit 397 Milliarden Parametern (MoE) hervorragende Ergebnisse erzielen. Laut selbst-berichteten Benchmarks übertrifft das offene Modell auf SWE-bench die ältere Version Claude Opus 4.7 (82,4 vs. 80,8) - das neuere Claude Opus 4.8 liegt mit 87,6 allerdings deutlich vorne.

Die Modellfamilie deckt verschiedene Einsatzbereiche ab: Neben dem 397B MoE-Flaggschiff stehen eine 35B MoE-Variante sowie kleinere dichte Modelle mit 31B und 9B zur Verfügung. Letzteres eignet sich besonders gut für den lokalen Einsatz auf eigener Hardware. Alle Modelle wurden unter der MIT-Lizenz auf Hugging Face veröffentlicht und lassen sich über Standard-Frameworks wie vLLM und SGLang in bestehende Pipelines integrieren.

🎯 Was das für die Praxis bedeutet

1. Agenten schreiben ihr eigenes Scaffold: Entwickler müssen Coding-Agenten weniger starre Regeln vorgeben. Die KI lernt im Training selbst, wie sie Werkzeuge und Validierungsschleifen am besten kombiniert.

2. Neue Sicherheitsstandards gegen Reward Hacking: Das dreistufige Sicherheitsmodell zeigt, wie autonome Agenten in geschützten Umgebungen trainiert werden können, ohne dass sie die Test-Scaffolds austricksen.

3. Leistungsstarkes Coding auf lokaler Hardware: Mit der 9B- und der 31B-Version können Entwickler hochentwickelte, agentische Programmierunterstützung direkt lokal ausführen, ohne sensible Daten an externe APIs senden zu müssen.

Dieser Artikel enthält eingebettete Inhalte Dritter (z. B. Videos, Social-Media-Beiträge). kiwoche.com berichtet über diese Inhalte, macht sie sich jedoch nicht zu eigen. Die Rechte und die Verantwortung liegen beim jeweiligen Urheber bzw. Plattformbetreiber.

📰 Quellen
Ornith auf Hugging Face ↗ @ornith_ auf X ↗ @WescheNex1q auf X ↗ @testingcatalog auf X ↗ @rohanpaul_ai auf X ↗ @MiaAI_lab auf X ↗ @MiaAI_lab auf X ↗ @populartourist auf X ↗
Teilen: