Seit Jahrzehnten versprechen Diktierprogramme, die Tastatur überflüssig zu machen. Die Realität war bisher ernüchternd: ständige Korrekturen, roboterhafter Text, keine Ahnung vom Kontext. Das Y-Combinator-Startup Willow will das ändern — und hat gerade mit Atlas 1 ein neues Speech-to-Text-Modell vorgestellt, das die bisherigen Platzhirsche nach eigenen Angaben deutlich übertrifft: OpenAI Whisper, ElevenLabs, Deepgram und Co.

Willows Ansatz ist ungewöhnlich: Statt sich ausschließlich auf synthetische Trainingsdaten zu verlassen, hat das Team eine eigene Transkriptions-Infrastruktur aufgebaut — die erste skalierbare, die auf menschlichen Transkribenten für Echtzeit-Diktat basiert, wie das Unternehmen behauptet. Das klingt altmodisch, könnte aber genau der Vorteil sein: Das Modell lernt nicht nur aus aufgezeichnetem Audio, sondern aus tatsächlichen Diktier-Situationen mit Versprechern, Hintergrundgeräuschen und Flüstern.

Mehr als Transkription: Kontext, Stil und Formatierung

Was Willow von herkömmlicher Spracherkennung unterscheidet, ist die nachgelagerte Intelligenz. Die Software korrigiert nicht nur Grammatik und Interpunktion automatisch, sondern passt sich laut Herstellerangaben auch dem Schreibstil des Nutzers an — je nachdem, ob man gerade eine E-Mail, eine Slack-Nachricht oder ein Dokument diktiert. Eigennamen und Fachbegriffe soll das System über den Kontext erkennen, statt sie zu verstümmeln.

Sprachbefehle wie „neuer Absatz", „Aufzählungszeichen" oder „Gedankenstrich" werden direkt in Formatierung umgewandelt. Das Tool funktioniert systemweit — auf Mac, Windows und iPhone — in jeder App, in der man normalerweise tippt. Sogar Flüstern soll zuverlässig erkannt werden, was es bürotauglich macht, wenn man nicht jeden Satz laut in den Raum sprechen will.

50.000 Nutzer und prominente Fans

Die Nutzerbasis liegt laut Willow bei über 50.000 Nutzern. Unter den Unterstützern finden sich bekannte Tech-Persönlichkeiten: Alexis Ohanian (Gründer von Reddit), Max Mullen (Gründer von Instacart), Kipp Bodnar (CMO von HubSpot) und Harry Stebbings (20VC). Letzterer soll laut eigener Aussage „alle E-Mails, Dokumente und WhatsApp-Nachrichten" damit diktieren — fünfmal schneller als per Tastatur.

Atlas 1 — das Sprachmodell hinter der neuen Version — wurde von CEO Allan Guo, CTO Lawrence Liu und ML-Chef Agni Chaterjee vorgestellt. Das Unternehmen durchlief den aktuellen Y-Combinator-Batch (YC X25) und bietet eine Einstiegsversion kostenlos an, die Vollversion kostet 15 Dollar im Monat.

SOC 2, HIPAA und Null-Daten-Speicherung

Ein oft übersehener Aspekt bei Diktiersoftware: Was passiert mit dem gesprochenen Wort? Willow wirbt mit SOC-2- und HIPAA-Zertifizierung (dem US-Standard für den Schutz medizinischer Daten), einem Privacy-Modus und einer Null-Daten-Speicherung — das heißt, die gesprochenen Inhalte sollen nach der Verarbeitung nicht auf den Servern verbleiben. Für Anwälte, Ärzte oder Unternehmensberater wäre das ein entscheidendes Kriterium.

🎯 Was das für die Praxis bedeutet

1. Diktat wird alltagstauglich: Wer täglich Dutzende E-Mails, Slack-Nachrichten oder Notizen schreibt, kann mit Tools wie Willow messbar Zeit sparen — vorausgesetzt, die Kontexterkennung funktioniert wie versprochen.

2. Datenschutz prüfen: SOC 2 und HIPAA klingen gut, gelten aber nur für den US-Rechtsraum. Europäische Nutzer sollten prüfen, ob die Datenverarbeitung DSGVO-konform ist und wo die Server stehen.

3. Atlas 1 gegen Whisper testen: OpenAIs Whisper ist der bisherige De-facto-Standard für Speech-to-Text. Wer professionell mit Diktat arbeitet, sollte Atlas 1 in einem direkten Vergleich testen — die Behauptungen lassen sich leicht überprüfen.

📰 Quellen
@WillowVoiceAI auf X ↗ Willow Voice ↗
Teilen: