Zum Inhalt springen KI-Lexikon — Die KI Woche
Aktuelle Beiträge
Lade Beiträge…
📰 Alle Beiträge 📬 Newsletter
Prozess

Extraction

Extraction — Informationsextraktion — ist die NLP-Aufgabe, strukturierte Informationen aus unstrukturiertem Text zu gewinnen: Namen, Daten, Beziehungen, Fakten, Entitäten.

Die grundlegenden Subtasks: Named Entity Recognition (NER) erkennt Personen, Organisationen, Orte, Datumsangaben im Text. Relation Extraction identifiziert Beziehungen zwischen Entitäten: „Tim Cook ist CEO von Apple." Event Extraction erkennt Ereignisse und ihre Teilnehmer. Coreference Resolution verknüpft Pronomen mit ihren Bezugswörtern: „Angela Merkel... Sie..."

Traditionell nutzten NER-Systeme Hidden Markov Models, CRFs (Conditional Random Fields) und handgefertigte Features. Seit BERT sind Transformer-basierte Sequenz-Labeling-Modelle State of the Art: Jedes Token bekommt ein Label (B-PER, I-PER, O, B-ORG, I-ORG, ...).

LLMs haben die Extraction revolutioniert. Statt einen spezialisierten NER-Tagger zu trainieren, kann man GPT-4 oder Claude bitten: „Extrahiere alle Firmennamen, Personen und Geldbeträge aus diesem Text und gib sie als JSON zurück." Für viele Anwendungsfälle reicht das — und eliminiert den Aufwand für Training und Datenanotation.

Anwendungen sind vielfältig: Finanzanalyse (Firmennamen, Kennzahlen, Fusionen aus Nachrichtenartikeln extrahieren), Medizin (Diagnosen, Medikamente, Dosierungen aus Arztbriefen), Recht (Vertragsklauseln, Parteien, Fristen aus juristischen Dokumenten), Intelligence (Personen, Orte, Verbindungen aus Berichten).

Data
🔗 Link kopiert!