Text Mining im Social Web

Ist „gut gemeint“ auch „gut gemacht“?

von Dominik Grimm

Themen: Social Media Monitoring, Social Media, Sentimentanalyse, Komposita-Zerlegung, Synonym-Erkennung, Relevanzverfahren

Viele Unternehmen haben die Notwendigkeit erkannt, Foren, Blogs und Social Networks nach produkt- bzw. firmenrelevanten Beiträgen zu scannen und auszuwerten. Die Bezeichnung dafür ist Social Media Monitoring.

Diese Dienstleistung bietet Unternehmen zum Beispiel die Möglichkeit, die Stimmungslage zu eigenen Produkten im Web zu erfassen, Benchmarks durchzuführen, Frühwarnsysteme zu etablieren oder Trendthemen zu identifizieren. Dabei werden vor allem B2C-Unternehmen mit einer Vielzahl an Beiträgen konfrontiert. Allein in Foren ist zu einem einzigen Unternehmen eine bis zu 5-stellige Anzahl an Beiträgen täglich keine Seltenheit.

Dabei sind Foren im deutschsprachigen Social Web auch für eine detaillierte Meinungsbildanalyse die qualitativ hochwertigste Quelle. Während im englischsprachigen Ausland Blogs einen höheren Stellenwert genießen, werden Blogs hierzulande bei Fragen zu Produkten oder Dienstleistungen eher selten frequentiert. In Foren hingegen gibt es kaum eine Frage, die noch nicht beantwortet wurde. Mitunter werden die Inhalte dieser Fragestellungen auf sehr hohem Niveau diskutiert, nicht selten sogar von Fachleuten mit Insiderwissen. Diese Forenbeiträge zu identifizieren und zu indexieren, ist eine Herausforderung an professionelle Social-Media-Monitoring-Unternehmen. Diese Inhalte auch inhaltlich auszuwerten, um die Fragestellungen seitens der beauftragenden Unternehmen aufschlussreich zu beantworten, ist eine weitere.

Um diese Masse an Beiträgen nach Tonalität und Inhalt auszuwerten, werden derzeit verschiedene automatisierte Verfahren angeboten. Diese sogenannten Tonalitäts- bzw. Sentimentanalysen versprechen unter anderem, Unternehmen einen Einblick in die Webdiskussionen zu geben und die Reputation einzelner Produkte automatisch auszuwerten. Während bereits in der linguistischen Erschließung von deutscher Literatur mit einer Vielzahl an Herausforderungen wie beispielsweise der Synonymkontrolle, der Komposita-Zerlegung oder der Stoppwort-Eliminierung zu rechnen ist, stellt die Erschließung und Auswertung von Social-Media-Beiträgen die Wissenschaft vor noch größere Hürden. Denn die Sprache im Social Web folgt eigenen Regeln. Besonders in Foren werden unzählige Abkürzungen und eigene Wortkreationen genutzt, Rechtschreibung und grammatikalische Regeln werden sehr oft nicht beachtet, Emoticons tragen zur Sinngestaltung bei. Zudem ergibt sich ein Problem bei der Zuordnung von Beiträgen in Foren.

Dazu ein Beispiel: Person Anton stellt in einem Forum eine Frage zum Kundenservice bei der Victoria Versicherung und eröffnet somit einen Thread. Person Berta antwortet, dass die von dem „Verein“ doch „super schlecht“ seien und Person Cäsar sagt aus, dass seine Tochter Victoria bei der Allianz versichert und er mit dem Support dort zufrieden sei. Person Dora schaltet sich auch noch in die Diskussion ein und schreibt, dass die Hotline-Mitarbeiter immer eine gute Antwort hätten, die Lösung jedoch auf einem anderen Blatt geschrieben stehe.

Die Probleme, die sich bei der Auswertung ergeben, liegen auf der Hand. Wird jeder einzelne Beitrag zum Thema Victoria Versicherung untersucht, kann lediglich der erste Beitrag von Person Anton dieser Fragestellung einwandfrei zugeordnet werden. Um die weiteren Beiträge zuordnen zu können, müssen die Ergebnisse nach der Indexierung zuerst strukturiert und in Verbindung mit der Ausgangsfragestellung gestellt bzw. die Postings müssen den Threads zugeordnet werden. Doch bereits hier scheitert eine Vielzahl der automatischen Lösungen.

Ist die Zuordnung innerhalb einer Datenbank tatsächlich erfolgt, entstehen weitere Probleme, denn die Person Berta nennt die Victoria nicht mehr namentlich, sondern bezeichnet sie als „Verein“. Somit muss für das Auswertungstool ein Zusammenhang von „Verein“ zur Victoria Versicherung hergestellt werden. Zudem muss das System erkennen können, dass die Aussage „super schlecht“ als Phrase eine negative Gewichtung erfährt. Person Cäsar erwähnt zwar den Begriff Victoria, meint damit jedoch den Namen seiner Tochter. Jedoch ist er mit den Leistungen der Allianz zufrieden und kommt auf den ursprünglichen Versicherer nicht zu sprechen. Hier greifen die Herausforderungen der Synonym-Erkennung und Themenzuordnung. Zusätzlich steht das System vor der Herausforderung, den Begriff „Support“ dem Thema Kundenservice zuzuordnen, um ein aussagekräftiges Ergebnis zu bekommen. Person Dora hingegen postet aus maschineller Sicht eine positive Antwort, die von Menschen jedoch als ironisch erkannt wird.

Zudem wird in diesem Beispiel von einem fehlerfreien Schreibstil nach den Regeln der deutschen Rechtschreibung ausgegangen, so dass die Fehlerkorrektur in der Beschreibung der Problemstellung gar nicht erst auftaucht. Viele automatisierte Texterkennungsverfahren kombinieren unterschiedliche Methoden mit dem Versuch, die Ergebnisse zu optimieren. So werden unter anderem Stoppworteliminierung, Stemmingverfahren, Worthäufigkeiten bzw. Density und Wörterbuchabgleich hintereinander geschaltet, um die Daten besser zu filtern. Jedoch ergibt sich aus einer Vielzahl an Verfahren in Kombination mit einer hohen Anzahl an Beiträgen ein nicht zu unterschätzendes Performance-Problem. Der Abgleich an Wörterbüchern, die zusätzlich Phrasen beinhalten, braucht, je nach Menge der Beiträge, eine am Ergebnis gemessen unverhältnismäßig große Menge an zeitlichen und technischen Ressourcen.

Ein weiteres Beispiel, eine Wortmeldung von „bikiniland2″: „ach du scheisse is de geil *_* !!!ich bin so dumm !!! meine mutter wollte mir ein ipad kaufen aber ich hab ja unbedingt ein laptop haben müssen -.-.-..- MAAAAAHN!“

Was hier wie eine unqualifizierte Äußerung aussieht, die inhaltlich nicht viel zu bieten hat, ist innerhalb eines Forums ein klares Votum für das iPad und müsste in einem Stimmungsbarometer positiv dargestellt werden. Ein klarer Bezug zum iPad ist maschinell erkennbar, jedoch sind die zwei Terme „scheisse“ und „dumm“ negativ besetzt. Der Ausdruck „geil“ beinhaltet wiederum eine Vielzahl von Interpretationsmöglichkeiten. Das System steht also vor dem Problem zu entscheiden, ob ein Beitrag negativ oder positiv ist. Zudem muss vorab festgelegt sein, wann ein Beitrag positiv oder negativ einzuordnen ist.

Aktuell gehen die glaubwürdigsten Schätzungen im Rahmen der Ergebnisgenauigkeit von 60 Prozent aus. Innerhalb dieser Schätzungen ist nicht klar, welche Datengrundlage vorliegt, wie vollständig die Analyse ist und ob überhaupt die deutsche Sprache damit gemeint ist. Des Weiteren sind die Testverfahren zumeist nicht bekannt. Ein seriöser Anbieter muss daher Auskunft über seine Vorgehensweise und über den Umgang mit den oben geschilderten Fragestellungen Antworten geben können.

Um sich für eine automatische Auswertung von Social-Media-Inhalten zu entscheiden, sollte die Methode vorab mit dem angestrebten Ziel verglichen werden. Selbst zur Trendbestimmung sind viele Verfahren unzureichend. Einige Verfahren zeigen zum Beispiel Begriffe sortiert nach Häufigkeit an, die rund um den Namen des Unternehmens genannt werden. Doch hier muss die Frage gestellt werden, welchen Mehrwert diese Information tatsächlich bietet.

Nimmt man einmal an, dass zum Unternehmen „Dresdner Bank“ häufig der Begriff „Bankenkrise“ fällt. Da dieser Begriff im Umfeld anderer Banken auch häufig zu finden ist, ist zunächst nicht festzustellen, welchen Bezug „Bankenkrise“ nun zu „Dresdner Bank“ hat. Ist die Dresdner Bank von der Bankenkrise betroffen oder hat sie die Bankenkrise ausgelöst? Diese und weitere Fragen lassen sich erst nach einem manuellen Research in den Ergebnissen beantworten. Nicht selten stellt sich dabei heraus, dass das als Trend genannte Thema keinen Impact oder Mehrwert für das eigene Unternehmen besitzt.

Der Qualitätsaspekt ist somit die zentrale Fragestellung bei der Entscheidung, Social Media nur mit automatisierten Verfahren auszuwerten. Um diese Fragestellungen und Probleme zu lösen, setzen einige Anbieter auf eine hybride Methode. Zusätzlich zur automatischen Auswertung werden die Ergebnisse um intellektuelle Auswertungen ergänzt. Somit werden die erhobenen Daten transparent und können als Grundlage für eine Handlungsempfehlung dienen oder ein Stimmungsbarometer darstellen. Dazu wird vorab die Masse der Beiträge durch Relevanzverfahren reduziert. Diese legen die unternehmensrelevanten Quellen fest. Schließlich werden die automatischen Verfahren von ausgebildeten Researchern aufgesetzt, unterstützt und bewertet.

Aktuell forschen u. a. die Technische Hochschule Köln und die Universität Düsseldorf an Lösungen für ein hochwertigeres Ergebnis automatischer Analysen in der deutschen Sprache in Verbindung mit menschlicher Unterstützung. Es empfiehlt sich daher, bei der Auswahl eines solchen Tools, Anbieter mit den oben genannten Fragestellungen zu konfrontieren. Für ein qualitativ hochwertiges Ergebnis in der deutschen Sprache ist es weiterhin notwendig, menschliche Ressourcen einzusetzen, um qualitativ hochwertige Ergebnisse zu erhalten.


Social Media Monitoring AnbieterSocial Media Monitoring Anbieter 2017

Der Markt in Deutschland, Europa und weltweit insgesamt ist weiterhin turbulent. Vor 10 Jahren noch über 170 Anbieter am Markt, sind es mittlerweile über 300, und immer mehr Agenturen behaupten die Dienstleistung Social Media Monitoring bestens zu beherrschen. Doch wie kann man als Unternehmen die Spreu vom Weizen trennen?


Social Media Monitoring Tool auswählenSocial Media Monitoring Tool

Auf dem Markt gibt es mittlerweile zahlreiche Social Media Tools zur Auswahl. Von kostenlosen Monitoring Tools, Subscription based bis hin Full-Service-Modellen ist alles zu finden. Doch welche Anforderungen sollten an ein Social Listening Tool gestellt werden?


Social Media Monitoring Kosten

Kosten eines Social Media Monitorings

Oft machen Unternehmen den Fehler, dass Sie mit einer bestimmten Erwartungshaltung versuchen die Kosten eines Social Media Monitorings zu erschließen. Allerdings handelt es sich beim Social Listening um eine besondere Form des Informationsguts.


Social Media Monitoring Projekt

Ablauf eines Social Media Monitoring in Schritten

Ein typisches Social-Media-Monitoring-Projekt beginnt logischerweise mit einem Projekt-Kickoff. Danach folgt der Zeitplan. Ab diesem Zeitpunkt unterscheidet sich das Monitoring von üblichen Abläufen im Projektmanagement. Denn es kommen spezifische Aufgaben in Frage, die auf ein Social Listening zugeschnitten sind.


Sentiment-Analyse

Sentiment-Analyse: Meinungen auswerten

Die größte Herausforderung im Social Listening ist es die Fülle von Meinungen auszuwerten. Dabei gibt es zwei Möglichkeiten: Die manuelle Auswertung mühsam durch Lesen und per Hand. Oder die automatische durch einen Computer. Welche Vor- und Nachteile bringen diese Methoden?


Text Mining

Text Mining: Automatische Linguistik

Meinungen aus dem Social Web mit Text Mining auslesen bedeutet, der Computer versucht mit linguistischen Methoden herauszufinden, wie jemand über ein bestimmtest Produkt spricht. Doch die Meinungen im Social Web sind für einen Computer eine große Herausforderung.


Social Media Monitoring

Social Media Monitoring auf der dmexco

Die dmexco gilt als die größte Marketing-Messe der Welt und findet jährlich in Köln statt. Nebst den großen Ausstellern wie Google, Yahoo und Microsoft finden sich dort auch eine Menge Aussteller, die Social-Media-Monitoring-Lösungen anbieten. Das haben Social-Media-Interessierte zu erwarten.


ThemenmonitoringThemenmonitoring

Im Themenmonitoring geht es darum im Social Web aus der Fülle von Daten die relevanten Themen auszufiltern. Hierzu gibt es zwei Methoden im sogenannten „Topic Detection“: Die automatische oder die manuelle Themenerkennung. Entweder mühsam per Hand oder durch künstliche Intelligenz.


ProduktmonitoringProduktmonitoring

Wenn Unternehmen wissen wollen, wie ueber ihre Produkte im Social Web gesprochen wird, sind sie zunächst mit einer Fuelle von Daten konfrontiert. Die Produktbeobachtung scheint schier unmöglich zu sein. Doch im Social Listening bietet hier verschiedene Konzepte um die Daten auszuwerten.


UnternehmensbeobachtungUnternehmensbeobachtung

In der Unternehmensbeobachtung geht es darum zu wissen, wie ueber eine Firma um Netz gesprochen wird. Die Wahrnehmung des Brandings ist hierbei von Bedeutung. Fuer das Reputationsmanagement ist es enorm wichtig die Meinungsströmungen im Social Web zu erkennen – am besten noch bevor bestimmte Themen viral geworden sind.


MeinungsführerOpinion Leader identifizieren

Millionen von Nutzern diskutieren täglich über allemöglichen Themen. Inmitten dieses Chaos gibt es allerdings bestimmte Meinungsmacher, die die sogenannten Gatekeeper des Social Webs ausmachen. Mit ausgefeilten Social Listening Konzepten ist es möglich diese Meinungsführer ohne Weiteres zu identifizieren.


 Medien MonitoringMedienresonanzanalyse und Social Media Monitoring

Gehören im Social Listening eigentlich auch Presseportale dazu? Im ersten Blick scheinen klassische Presseportale keine Social-Media-Quellen zu sein. Doch im zweiten Blick wird deutlich, dass unter den Artikeln eine Menge Nutzerkommentare zu finden sind.


Social Media KanäleSocial-Media-Quellen

Beim Social Media Monitoring gilt es verschiedene Kanäle des Social Web zu beobachten. Jede dieser Quellen, seien es Foren, Blogs oder sei es Facebook oder Twitter, brauchen eine individuelle Monitoring-Strategie und technische Vorgehensweise.


Künstliche IntelligenzKünstliche Intelligenz – Mensch vs. Maschine

Die Künstliche Intelligenz von heute kann Meinungen aus dem Social Web erkennen und somit den Unternehmen mitteilen, wie die Nutzer über ihre Produkte und Dienstleistungen denken. Und es geht mehr als nur gut oder böse … Computer erkennen auch Liebe und Ekel.


Social Media APIsSocial Media APIs

Das Gewinnen von Daten aus verschiedenen Social-Media-Quellen bereitet vor allem Social-Media-Monitoring-Agenturen Schwierigkeiten vor. Die großen Anbieter wie Facebook und Twitter bieten APIs an. Doch wie ist es mit Foren, die selbst entwickelte Software anbieten?


Social-Media-Daten indexierenSocial-Media-Daten aus dem Web

Beim Research im Social Web ist man auf eins angewiesen: Daten. Allerdings ist die manuelle Datengewinnung mühsam. Die technische Erfassung ist ebenfalls nicht ganz reibungsfrei. Daher gilt es ein Erfassungskonzepte beim Scrapen von Social-Media-Daten zu kennen und einzusetzen.


Social Media Monitoring AnsatzSocial-Media-Monitoring-Konzept

Social Listening braucht ein Management-Ansatz um erfolgreich zu sehen. Bei der Fülle von Daten im Social Web ist ein Prozess, der vom Bauchgefühl her kommt nicht zielfrürend. Bereits vor ca. 15 Jahren hab es wissenschaftliche Modelle.


Ford FanAwardFord FanAward – das erste Social Media Engagement

Mit dem Ford FanAward startete Ford Deutschland eines der ersten Social Media Engagements der Welt. Die Maßnahme ist auf ein Social Media Monitoring zurückzuführen, bei der Ford feststellte, dass die größte Fan Community in Foren zu finden waren. Prompt belohnte es die Foren-Betreiber mit Awards.


Vollautomatisches MonitoringTechnisches Social Media Monitoring

Beim technischen Monitoring werden Social-Media-Quellen von einer Maschine erfasst und ausgewertet. Hierbei findet keine intellektuelle Auswertung der Inhalte statt, d. h. die Beiträge im Social Web werden von keinem Menschen gelesen. Die Frage hierbei ist, wie gut sind solche Technologien?


Externe Technologie

Die passende Social Listening Agentur finden

Social Media Monitoring Dienstleister gibt es wie Sand am Meer. Doch nur einige wenige haben selbst-entwickelte Tools und platzieren sich als Full-Service-Dienstleister. Worauf muss man bei der Auswahl achten und welche Typen von Agenturen gibt es?


Manuelles Social ListeningManuelles Social Media Monitoring

Beim Social Listening kann man auch ohne Technologie durchführen. Obwohl es eine schier unendliche Menge von Beiträgen und Kommentaren im Social Web zu geben scheint, kann ein Mensch mit anderen Methoden das Web relativ gut auswerten, wenn ein Prozess vorhanden ist.


Social-Media-Monitoring-Studien:


Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.