Stellen Sie sich vor, Sie treffen eine Entscheidung, die scheinbar auf soliden Zahlen basiert und stellen sechs Monate später fest, dass die Auswertung von Anfang an fehlerhaft war. Genau das passiert in Unternehmen täglich und laut einer McKinsey-Erhebung können nur acht Prozent von tausend befragten Managern ihre Data-Analytics-Lösungen überhaupt effektiv nutzen.
🧠 Wissen in Kürze
- Mangelhafte Datenqualität ist teuer: Fehlerhafte Rohdaten kosten deutsche Unternehmen jährlich Millionen Euro und verfälschen jede noch so ausgefeilte Analyse, bevor sie beginnt.
- Korrelation ist keine Kausalität: Zwei Variablen können statistisch zusammenhängen, ohne dass eine die andere verursacht, was Sie vor voreiligen Handlungsempfehlungen bewahren sollte.
- Stichprobengröße zählt: Für aussagekräftige Ergebnisse gelten mindestens 30 Antworten pro Subgruppe als Untergrenze, die in der Praxis jedoch häufig unterschritten wird.
Viele Auswertungen scheitern nicht an den Daten, sondern am Umgang damit
Daten lügen nicht, aber sie schweigen auch nicht, wenn man ihnen die falschen Fragen stellt. Das Problem liegt selten in der Datenmenge oder der Software, die für die Analyse eingesetzt wird. Es liegt in den Entscheidungen, die davor und danach getroffen werden: Welche Daten fließen ein? Wie werden fehlende Werte behandelt? Welche Methode wird gewählt und passt sie überhaupt zum Datenmaterial?
In der Praxis sieht das häufig so aus: Eine Analyse wird unter Zeitdruck erstellt, die Ergebnisse werden nicht hinterfragt, weil sie plausibel klingen und am Ende trifft jemand eine Entscheidung auf Basis von Zahlen, die zwar korrekt berechnet, aber falsch interpretiert wurden. Das Ergebnis sieht sauber aus. Es ist es nur nicht.
Hinzu kommt, dass Analysefehler in den meisten Fällen unsichtbar bleiben. Ein fehlerhafter Buchhaltungsposten fällt früher oder später auf. Eine verzerrte Stichprobe, eine falsch gewählte statistische Methode oder ein Confirmation Bias in der Auswertung hinterlassen keine Fehlermeldung. Sie produzieren einfach ein Ergebnis, das niemand anzweifelt, weil niemand weiß, wonach er suchen soll.
Genau hier setzt dieser Artikel an. Die folgenden 13 Fehler sind keine theoretischen Konstrukte, sondern Muster, die in Datenauswertungen immer wieder auftauchen.
#1: Korrelation und Kausalität werden in einen Topf geworfen
Das ist der Klassiker schlechthin. Zwei Variablen steigen gemeinsam und sofort wird eine Ursache-Wirkungs-Beziehung konstruiert, die so nicht existiert. In der Praxis gibt es oft eine dritte Variable, die beide beeinflusst und diese wird schlicht übersehen.
Beispiel: Unternehmen stellen fest, dass ihre Umsätze steigen, wenn das Marketingbudget erhöht wird. Kausal klingt das einleuchtend. Dabei kann es sein, dass gleichzeitig eine Saisonspitze oder eine Marktveränderung für das Wachstum verantwortlich ist. Wer diese Zusammenhänge nicht sauber trennt, trifft Budgetentsfcheidungen auf falscher Grundlage.
#2: Die Datenqualität wird vor der Analyse nicht geprüft
Fehler passieren häufig schon vor der eigentlichen Auswertung. Wer Daten auswertet, ohne deren Qualität zu hinterfragen, baut auf einem wackeligen Fundament. Gute Datenqualität bedeutet, dass die Daten korrekt, konsistent, vollständig und reproduzierbar sein müssen.
Typische Qualitätsprobleme in der Praxis:
- Doppelte Einträge: Derselbe Datensatz erscheint mehrfach, weil Systeme nicht sauber zusammengeführt wurden.
- Platzhalter als echte Werte: Fehlende Angaben werden mit Codes wie „99″ oder „-7″ befüllt, die das Analysetool als Zahlenwert interpretiert.
- Widersprüchliche Stammdaten: Dieselbe Kundin taucht in zwei Systemen mit unterschiedlicher Adresse auf.
#3: Die Stichprobe ist zu klein oder nicht repräsentativ
Eine zu kleine Stichprobe produziert Ergebnisse, die statistisch nicht belastbar sind. Besonders gefährlich wird es bei Online-Umfragen oder freiwilligen Teilnahmen, bei denen eine Selbstselektion stattfindet. Unzufriedene Kunden antworten überproportional häufig, zufriedene schweigend. Das Bild, das entsteht, spiegelt die Realität nicht wider.
Als grobe Orientierung gelten mindestens 30 Antworten pro Subgruppe, wenn Subgruppenvergleiche gemacht werden sollen. Viele Analysen, die in Unternehmen kursieren, liegen darunter.
#4: Ausreißer werden ignoriert oder vorschnell gelöscht
Ausreißer sind unbequem, weil sie Mittelwerte und Standardabweichungen verzerren. Die eine Bestellung mit zehntausend Einheiten, während alle anderen im Bereich von zehn bis fünfzig liegen, ruiniert jede durchschnittliche Betrachtung. Trotzdem ist es falsch, Ausreißer einfach zu löschen, ohne zu verstehen, woher sie kommen.
Manchmal ist ein Ausreißer ein Datenfehler, manchmal ist er das interessanteste Ergebnis der gesamten Auswertung.
#5: Fehlende Werte werden stillschweigend ausgeschlossen
Beobachtungen mit fehlenden Datenpunkten werden in der Praxis meist einfach aus der Analyse entfernt, weil das am schnellsten geht. Die Frage, warum diese Werte fehlen, wird selten gestellt. Wenn die Werte zufällig fehlen, ist der Ausschluss vertretbar. Wenn jedoch systematisch bestimmte Gruppen keine Angaben machen, verzerrt der Ausschluss das Ergebnis erheblich.
#6: Die falsche statistische Methode wird gewählt
Nicht jede Methode passt zu jedem Datensatz. Ein t-Test für unabhängige Stichproben, der auf paarweise zusammenhängende Daten angewandt wird, liefert falsche Ergebnisse. Ebenso problematisch ist die Berechnung von Mittelwerten bei nominalen Daten, etwa wenn das durchschnittliche Geschlecht errechnet wird.
Die Wahl der richtigen Methode setzt voraus, dass Sie das Skalenniveau Ihrer Daten kennen und verstehen, welche Voraussetzungen ein Test erfordert.
#7: Statistische Signifikanz und Relevanz werden verwechselt
Das ist ein Fehler, der auch erfahrenen Analysten unterläuft. Statistische Signifikanz sagt aus, wie wahrscheinlich ein Ergebnis durch Zufall entstand. Statistische Relevanz hingegen beschreibt die Stärke des Effekts. Ein Ergebnis kann hochsignifikant und trotzdem praktisch bedeutungslos sein, nämlich dann, wenn der Effekt zwar real, aber winzig ist. Bei sehr großen Stichproben werden fast alle Unterschiede signifikant, egal wie klein sie tatsächlich sind.
#8: Der Confirmation Bias steuert die Analyse
Wer eine Hypothese bereits im Kopf hat, findet in den Daten häufig genau das, was er finden möchte. Das ist kein böser Wille, sondern ein menschlicher Mechanismus. Die Frage wird so gestellt, die Auswertung so ausgerichtet und das Ergebnis so interpretiert, dass es zur Erwartungshaltung passt. Besonders häufig tritt das in internen Analysen auf, bei denen die analysierende Person ein Interesse am Ergebnis hat.
#9: Die Dokumentation fehlt oder ist lückenhaft
Gute Dokumentation einer Datenanalyse umfasst:
- Datenherkunft: Wo kommen die Rohdaten her, wann wurden sie gezogen und in welcher Version?
- Bereinigungsschritte: Welche Datenpunkte wurden warum verändert oder entfernt?
- Methodenbegründung: Warum wurde diese statistische Methode gewählt und nicht eine andere?
Fehlt diese Dokumentation, ist das Ergebnis nicht reproduzierbar. Und was nicht reproduzierbar ist, verdient kein Vertrauen.
#10: Visualisierungen täuschen durch schlechte Darstellung
Eine Grafik, deren Y-Achse nicht bei null beginnt, lässt kleine Unterschiede dramatisch aussehen. Ein Tortendiagramm mit acht Segmenten ist so gut wie unleserlich. Und eine Zeitreihe, die nur die letzten drei Monate zeigt, suggeriert einen Trend, der sich bei längerer Betrachtung als normales Rauschen herausstellt. Visualisierungen sind nicht neutral und wer sie ohne Bedacht erstellt, verzerrt das Bild unbeabsichtigt oder auch bewusst.
#11: Das Analysemodell wird nicht hinterfragt
Jedes Modell basiert auf Annahmen und diese Annahmen können falsch sein. In der Praxis wird das häufig damit abgetan, dass das Modell ja theoretisch fundiert sei. Dabei wird übersehen, dass auch ein theoretisch fundiertes Modell relevante Variablen weglassen kann. Unbeobachtete Einflussgrößen, Messfehler und umgekehrte Kausalitäten können dann für scheinbare Zusammenhänge verantwortlich sein, die im Modell nicht auftauchen.
#12: Fragen sind suggestiv oder mehrdeutig formuliert
Wer Primärdaten erhebt, also selbst Umfragen oder Befragungen durchführt, trägt Verantwortung für die Frageformulierung. Die Frage „Wie zufrieden sind Sie mit unserem ausgezeichneten Service?“ lenkt die Antwort schon durch das Adjektiv. Doppelfragen wie „Sind Sie zufrieden und würden Sie uns weiterempfehlen?“ erlauben keine saubere Auswertung, weil unklar ist, worauf sich eine Antwort bezieht.
Neutrale, eindeutige Fragen sind schwieriger zu formulieren als sie klingen und sie sind die Basis jeder seriösen Primärdatenerhebung.
#13: Ergebnisse werden ohne Kontext präsentiert
Eine Zahl allein sagt wenig. Eine Retourenquote von 12 Prozent ist gut oder schlecht, je nachdem, in welcher Branche Sie tätig sind und wie sich der Wert im Zeitverlauf entwickelt hat. Wer Analyseergebnisse präsentiert, ohne Vergleichswerte, historische Entwicklungen oder Branchenkontext zu liefern, überlässt die Interpretation dem Zuhörer und der interpretiert sie nach seinem eigenen Vorwissen, das oft trügt.
Kontextelemente, die in jeder Ergebnispräsentation nicht fehlen sollten:
- Referenzwert: Gegenüber welchem Zeitraum, welcher Gruppe oder welchem Benchmark wird verglichen?
- Konfidenzintervall: In welchem Bereich liegt das Ergebnis mit welcher Wahrscheinlichkeit?
- Einschränkungen: Welche Annahmen wurden getroffen und wo stoßen die Daten an ihre Grenzen?
Saubere Daten schützen Sie vor teuren Fehlentscheidungen
Die meisten dieser dreizehn Fehler passieren nicht aus Unwissenheit, sondern aus Zeitdruck, fehlenden Prozessen oder dem Wunsch, ein bestimmtes Ergebnis zu sehen. Die Konsequenzen sind aber dieselben: Entscheidungen, die auf falschen Annahmen basieren, kosten Geld, Glaubwürdigkeit und manchmal mehr.
Die Frage ist nicht, ob in Ihrer Organisation Analysefehler passieren. Die Frage ist, ob Sie die richtigen Strukturen haben, um sie zu erkennen, bevor sie Schaden anrichten.