# Autokorrektur

Für die Korrektur von Rechtschreibfehlern in Chatinputs verwendet die Kauz-NLU die Open-Source Bibliothek hunspell. Die Rechtschreibkorrektur kann zusätzlich mit kundenspezifischen Daten angereichert werden, um ein optimales Ergebnis für kundenspezifisches Vokabular zu erreichen. hunspell ist Industriestandard und wird z. B. auch von LibreOffice, Thunderbird oder MacOS verwendet.

# Funktionsweise

hunspell macht Vorschläge für die Korrektur eines Inputwortes. Dafür geht hunspell folgendermaßen vor:

  • Morphologische Zerlegung des Inputwortes in Wortstamm und Wortzusätze
    • Beispiel: gelibt ge+liben+t
  • Korrekturvorschläge auf Basis des Vergleichs des Wortstamms und der Zusätze mit Einträgen in einem Wörterbuch
    • Beispiel: liben lieben
  • Morphologische Komposition von Korrekturvorschlägen
    • Beispiel: ge+lieben+t geliebt

# Konfiguration und Abstimmung

hunspell liefert ohne weitere Konfiguration bereits hervorragende Ergebnisse.

Kunden haben aber oft ein spezielles Vokabular, z. B. Produktnamen ("Freshlimonade"), oder Chatinputs beinhalten neues Vokabular ("Covid"). Solches Vokabular ist nicht im Wörterbuch von hunspell enthalten. hunspell kann Vorschläge für die Korrektur von speziellem Vokabular machen, indem ein zusätzliches Wörterbuch in die Verarbeitungsschritte von hunspell integriert wird ("customer dictionary""). hunspell kann darüberhinaus angewiesen werden, bestimmte Inputs immer auf dieselbe Art und Weise zu korrigeren ("static mappings"), so dass der Einsatz der Autokorrektur vollkommen transparent ist und auch für Einzelfälle kontrolliert und verlässlich abgestimmt werden kann.

# Integration von Autokorrektur in die Kauz-NLU

hunspell ist so in die Kauz-NLU integriert, dass auch die Information aus anderen Komponenten der Kauz-NLU in die Korrektur mit einbezogen werden kann. Zum Beispiel besteht die Möglichkeit, hunspell mit der Abfrage von Ortsnamen oder Sehenswürdigkeiten aus Google Places und dem Filialfinder zu kombinieren. Mit einer solchen Kombination von Informationen können auch Chatinputs wie "Ich suche eine Filiale beim Treitonbrunnen" ( Tritonenbrunnen, Düsseldorf) automatisch richtig beantwortet werden.

# Die Autokorrektur im praktischen Einsatz

Auch unter den erschwerten Bedingungen realer Chatinputs erreicht eine gut abgestimmte hunspell-Autokorrektur hohe Korrekturquoten von 60%. Typische Probleme im realen Einsatz sind z. B.:

  • Worttrennung:
    • Wann bekommt man die GoldeneKreditkarte? ( goldene Kreditkarte)
    • Wie langeist heute geöffnet? ( lange ist)
  • Buchstabenwiederholung:
    • Wie kannnnnn ich ein konto eröffnen ( kann)
    • okkkkk ( ok)
  • Korrekt geschriebene Produktnamen nicht korrigeren:
    • Konditionen OnlinePlus-Konto
    • Ich bekomme beim Mastercard Identity Check einen Fehler
  • Produktnamen mit Schreibfehlern korrigieren:
    • Ich suche secureccheck ( secureCheck)
    • ich erhalte die nachricht secrureChek app nicht freigeschaltet ( secureCheck)
  • Umlaute und Sonderzeichen:
    • Daten fuer anmeldung ( für)
    • strase ( Straße)
  • Groß- und Kleinschreibung
    • Können SIe mir etwas empfehlen?
    • SEITE LÄDT NICHT
  • Vertauschte Buchstaben
    • ich brauche ein griokonto ( Girokonto)
    • ich möchte bei kreditkarte frieschalten ( freischalten)
  • Fehlende Buchstaben
    • und einzahlungen zu gunsten driter ? ( Dritter)
    • Daueruftrag ändern ( Dauerauftrag)
  • Zusätzliche Buchstaben
    • warum funktionuiert der Login nicht? ( funktioniert)
    • wie alt sind sier ( Sie)
  • Vertauschte Buchstaben
    • Ich wollte mein Umsatz anschaueb aber kann mich nicht anmelden ( anschauen)
    • das war ja nicht fie frage ( die)
  • Kombinationen von mehreren Fehlern
    • Guten morgen jegenwie kann ich mich nicht einloggen es zeigt mir technische Fehler an
    • hallo frag bleiben die preise funt konsoi so