Mit Text Mining Kunden weltweit verstehen
von Dr. Elena Michel und Marina Ehrenreich
Die schnelle und effiziente Reaktion auf Beschwerden ist zum Markenzeichen von Global Playern geworden. Das Problem ist, dass nur etwa ein Fünftel aller Daten in strukturierter Form vorliegt, z.B. als Tabellen oder Excel-Formulare. 80 Prozent bestehen aus E-Mails, Word-Dateien, PDF-Dokumenten, PowerPoint-Folien und anderen Textformaten. Es gibt auch Tonnen von Audiodateien, Videos, Sprachnotizen oder Bilddateien. Eine unglaubliche Fundgrube von Daten – weitgehend unbekannt – schwebt über unseren Wahrnehmungshorizont hinaus. Wer diesen Schatz ausgräbt, hat einen strategischen Vorteil.
Wie man Kundenfeedback entschlüsselt
Found in translation – das Ende von Babylon
Wer hat gesagt, dass Globalisierung immer leicht sein muss? Trotz Weltsprache Englisch gibt es noch immer rund 6.500 Sprachen. Allein 1,3 Milliarden Menschen sprechen Chinesisch als Muttersprache und 525 Millionen Hindi. Vor Ort nehmen wir gerne Hände und Füße zu Hilfe. Am Rechner aber geht das nicht, da zählt nur das, was Schwarz auf Weiß vorliegt: Beschwerden, Vorschläge, Terminwünsche – eine Herausforderung für Global Player. Nichts ist für Marken so wichtig, wie genau auf Kundenwünsche eingehen zu können. Rund um die Uhr, in allen Sprachen und allen Formaten: Vom einfachen Anruf beim Call-Center bis zum bösen Kommentar auf einer Vergleichsplattform.
Stündlich fallen Gigabyte an Informationen an. Wie aber lassen sich diese Datenfluten sinnvoll verwalten – und wie daraus die richtigen Schlüsse ziehen? Multilinguales Text Mining lautet die Antwort. In den nächsten Jahren wird der Markt derartiger automatisierter Textanalysen auf mehrere Milliarden Dollar wachsen, Tendenz steigend.
Nur ein Fünftel aller Daten liegt strukturiert vor
Schnell und effizient auf Beschwerden zu reagieren und ein nachhaltiges Reklamationsmanagement zu betreiben, ist inzwischen das wahre Erkennungszeichen für Global Player. Das Problem: Nur rund ein Fünftel aller Daten liegen in strukturierter Form vor, beispielsweise als Tabellen oder Excel-Formulare. 80 Prozent bestehen aus irgendwelchen E-Mails, Word-Dateien, PDF-Dokumenten, Power-Point-Folien und anderen Textformaten. Dazu kommen tonnenweise Kundendaten als Audiofiles, Videos, Voice-Memos oder Bilddateien. Ein unglaublicher Datenschatz treibt da – weitgehend unbekannt – jenseits unseres Wahrnehmungshorizonts. Ein Dateneisberg. Wer diesen Schatz hebt, hat einen strategischen Vorteil. In den nächsten Jahren geht es um Verbraucherdaten, sagt Dr. Horst-Florian Jaeck, Partner des Bereichs Data Analytics: "Wer diese strategisch nutzt, gewinnt."
Datenschätze erheben
- Im ersten Schritt werden die Rohdaten bereinigt (Zahlen, Satzzeichen und Leerzeichen entfernt sowie Großbuchstaben in Kleinbuchstaben umgewandelt).
- Die sogenannte Tokenisierung zerlegt Sätze (oder Zeichenfolgen) in Schlüsselwörter. Token können Wörter, Ausdrücke oder ganze Sätze sein. Dies eröffnet den Weg für weiteres Text Mining.
- Nach der Rechtschreibprüfung werden Stoppwörter entfernt, also Wörter, die keinen Mehrwert für den Informationsgehalt der Aussage besitzen.
- Stemming führt verschiedene Wortvarianten auf einen gemeinsamen Stamm zurück, etwa "gegangen" und "ging" zu "gehen". Nun wird die Häufigkeit dieses Stamms pro Dokument berechnet – und dadurch seine Relevanz. Durch die TF-IDF (Term Frequency – Inverse Document Frequency) entsteht die DTM (Document Term Matrix). Sie ist so etwas wie der Schlüssel zum Textverständnis.
Nach der oben dargestellten Aufbereitung der Daten erfolgt die eigentliche Klassifikation. Hierbei wird entweder eine regelbasierte Klassifizierung durchgeführt, oder es wird ein typisches Klassifikationsmodell verwendet, zum Beispiel Random Forest, C5.0, SVM (Support Vector Machine) oder Neuronale Netze.
Alle für einen?
Was aber, wenn Texte in verschiedenen Sprachen vorliegen? Hier kommt Multilinguales Text Mining zum Einsatz. Bei eindeutigen technischen Begriffen und leicht verständlichen Sachverhalten ist es sinnvoll, verschiedene Sprachen unter einer "leading language" – in der Regel Englisch – zusammenzuführen und erst dann zu bearbeiten. Dazu braucht es eine Terminologie-Verwaltungssoftware sowie ausgezeichnete Übersetzungswerkzeuge, die alle Sprachen beherrschen und in guter Qualität übersetzen.
Bei komplexen, uneindeutigen Sachverhalten oder Texten mit vielen Fachbegriffen lohnt es sich, sprachspezifisch vorzugehen, mit je eigenen Regeln und Analyse-Ressourcen. Spätestens nach der Tokenisierung muss die Sprache jedes Dokuments definiert werden, denn das Entfernen von Stoppwörtern sowie das Stemming erfolgen sprachspezifisch. Es ist empfehlenswert, alle weiteren Schritte sowie die Modellierung des Klassifikationsmodells sprachspezifisch (und auch marktspezifisch) auszuführen. Diese Ergebnisse können wiederum zur Anreichung von strukturierten Daten genutzt werden und stehen somit für weitere Analysen zur Verfügung.
Trainieren lohnt sich
Zurück zu unseren beiden Beschwerde-E-Mails. Die erste "La mia auto è ..." dreht sich eben nicht um das Getriebe, sondern um die Dauer der Reparatur. Das Analyse-Tool vergibt daher das Label "Repair duration" – und nicht etwa "Technical Problem" wie bei der zweiten E-Mail ("Rasselgeräusche bei geringen Drehzahlen"). Beide Beschwerden lassen sich nun spezifisch beantworten. Beispielsweise geht eine nette E-Mail an Besitzer Nummer eins – und eine zweite an die Werkstatt, die den Besitzer bitte anrufen soll. Spracherkennung und die Aufteilung nach relevanten Fragestellungen sorgen also dafür, dass verschiedenste Wünsche und Beschwerden schnell und präzise bearbeitet und "persönlich" beantwortet werden.
Grundvoraussetzungen für ein erfolgreiches Text Mining sind freilich eine gute Datenqualität der Dokumente sowie ein ausreichendes Datenvolumen. Falls nur wenige Dokumente vorliegen, empfiehlt es sich, die Texte in eine Hauptsprache zu übersetzen, da sonst nicht genügend Trainings- und Testdaten für das Klassifizierungsmodell vorhanden sind.
Das Ende von Babylon
Die Anwendungsmöglichkeiten von Text Mining sind mannigfaltig. Bis zu 95 Prozent der vorhandenen Textdateien in Unternehmen könnten automatisiert ausgewertet werden – allerdings analysieren Unternehmen bislang nur einen Bruchteil davon; Langzeitbeobachtungen finden teilweise gar nicht statt. Durch die Automatisierung der Kategorisierungen ergibt sich eine Zeitersparnis von bis zu 80 Prozent gegenüber einer manuellen Tätigkeit. Das führt nicht nur zu erheblichen Kosteneinsparungen bei der Nachbearbeitung, viel wichtiger ist, dass Unternehmen mögliche Pannen und Beschwerden viel früher erkennen und mögliche Shitstorms vermeiden.
In Zukunft können Texte aller Sprachen vollautomatisiert kategorisiert werden. Service-Mitarbeiter konzentrieren sich dann ganz auf die Wünsche ihrer Kunden und kümmern sich um echte Probleme. Text Mining ermöglicht sogar ein weltweites Social Media Monitoring: Wie und was wird weltweit über das Unternehmen gesprochen? Was sind hier die Hauptthemen? Das hilft, Kunden und Marken weltweit mit geringem Aufwand besser zu vernetzen. Denn nichts ist so zerstörerisch wie Kunden, die sich nicht ernstgenommen fühlen. Und nichts so wertvoll wie zufriedene Nutzer.
Über die Autorinnen
Dr. Elena Michel ist Managerin im Bereich Data Analytics bei rpc – the Retail Performance Company und berät Kunden in den Bereichen Data und Text Mining. Seit mehr als 10 Jahren arbeitet Elena Michel im Data Science Umfeld, insbesondere in der Automobilindustrie sowie der Medienbranche. Elena Michel leitete erfolgreich zahlreiche Kundenprojekte in diesem Umfeld und verantwortete das Business Field "Data Insights and Text Analytics" in einer namhaften IT- und Managementberatung. Zuvor studierte Elena Michel Betriebswirtschaftslehre und promovierte an der Ludwig-Maximilians-Universität München zum Thema "The Marketing-Finance Interface: Understanding the Interdependencies".
Marina Ehrenreich ist Consultant in der Data Analytics Line bei rpc – The Retail Performance Company. Sie begleitet und berät Kunden – zumeist aus der Automobilindustrie – rund um das Thema Data Science mit fachlichem Fokus auf Data und Text Mining. Seit knapp acht Jahren befasst sich Marina Ehrenreich mit Data Analytics Methoden und Algorithmen, wobei ihre Wurzeln in der Statistik liegen. Bereits während ihres Wirtschaft- und Sozialstatistik Masterstudium wählte sie Knowledge Discovery in Databases und Text Mining als ihre Schwerpunktthemen.
Dieser Text wurde ursprünlich auf marktforschung.de veröffentlicht.