Statistische Signifikanz vs. praktische Relevanz: Wo liegt der Unterschied?

Thorsten Brandhuber

24. Februar 2026
Datenanalyse

Stellen Sie sich vor, Sie analysieren eine Kampagne mit zwei Millionen Datenpunkten und finden einen Unterschied in der Klickrate von 0,003 Prozent. Der Signifikanztest sagt: positiv. Der Verstand sagt: So what? Genau hier, an dieser Bruchstelle zwischen dem, was die Statistik berechnet, und dem, was in der realen Welt zählt, verlieren Datenanalysen täglich ihren Anspruch auf Nützlichkeit.

🧠 Wissen in Kürze

  • Statistische Signifikanz: Sie sagt Ihnen lediglich, dass ein beobachteter Unterschied wahrscheinlich nicht durch Zufall entstanden ist, aber sie trifft keine Aussage darüber, ob dieser Unterschied in der Praxis irgendeinen Unterschied macht.
  • Praktische Relevanz: Sie beantwortet die eigentliche Frage, nämlich ob ein Effekt groß genug ist, um in Ihrer konkreten Situation eine Entscheidung zu rechtfertigen, und diese Antwort kann keine Formel liefern.
  • Der p-Wert-Irrtum: Selbst die größte Statistikorganisation der Welt, die American Statistical Association, sah sich 2016 gezwungen, ein Positionspapier gegen den grassierenden Missbrauch des p-Werts zu veröffentlichen.

Der p-Wert macht, was er soll, aber Sie stellen ihm die falschen Fragen

Der p-Wert hat eine präzise, begrenzte Aufgabe. Er gibt an, wie wahrscheinlich es wäre, das beobachtete oder ein noch extremeres Ergebnis zu erhalten, wenn die Nullhypothese tatsächlich wahr wäre. Ronald Fisher entwickelte ihn 1925 als Hilfsmittel, nicht als Urteil. Das gängige Signifikanzniveau von p < 0,05 war dabei nie als heilige Grenze gedacht, sondern als pragmatischer Anhaltspunkt.

Das Problem entstand, als der p-Wert zum Türsteher für wissenschaftliche Publikationen wurde. Studien, die p < 0,05 erreichten, kamen durch. Studien, die das nicht schafften, blieben in der Schublade. Dieses sogenannte Publikationsbias hat dazu geführt, dass von zwanzig vergleichbaren Studien häufig nur die eine veröffentlicht wird, bei der Signifikanz rein zufällig erreicht wurde.

Bei einer typischen Teststärke von 50 Prozent und einem Signifikanzniveau von 5 Prozent können laut Schätzungen von Statistikern bis zu 50 Prozent der als „statistisch signifikant“ ausgewiesenen Ergebnisse falsch positiv sein. Das ist keine Randbemerkung, das ist ein strukturelles Problem.

Große Datenmengen machen jeden Unsinn signifikant

Hier liegt die Falle, in die vor allem datengetriebene Unternehmen tappen. Je größer Ihre Stichprobe, desto empfindlicher wird der Signifikanztest. Mit einer Million Beobachtungen können Sie statistisch signifikant nachweisen, dass Nutzer aus Oberösterreich Ihre Startseite im Durchschnitt um 0,2 Sekunden länger betrachten als Nutzer aus Wien. Der p-Wert geht durch die Decke. Nur bedeutet das noch lange nichts.

Ein Signifikanztest prüft ausschließlich, ob ein Unterschied zufällig entstanden ist. Er prüft nicht, ob dieser Unterschied groß genug ist, um darauf zu reagieren. Diese zweite Frage müssen Sie mit Fachwissen beantworten, und genau daran hapert es in der Praxis.

Drei Situationen, in denen Signifikanz Sie in die Irre führt:

  • Riesige Stichproben: Bei Millionen von Datenpunkten werden selbst Unterschiede von 0,001 Prozent statistisch signifikant, obwohl sie operativ bedeutungslos sind.
  • A/B-Tests im E-Commerce: Eine Conversion-Rate-Verbesserung von 0,05 Prozent mag p < 0,01 erreichen, aber nach Abzug der Implementierungskosten ergibt sich ein negatives Ergebnis.
  • Klinische Studien: Ein neues Medikament kann die Symptombelastung „hochsignifikant“ reduzieren, wenn sich die Beschwerden dabei aber um nur eine Stunde pro Woche verkürzen, ist der klinische Nutzen fraglich.

Praktische Relevanz braucht eine Entscheidung, bevor Sie die Daten sehen

Das ist der unbequeme Kern. Praktische Relevanz lässt sich nicht aus dem Ergebnis ableiten, sie muss vorher definiert werden. Die Frage lautet nicht „Was sagt der Test?“, sondern „Ab welcher Effektgröße würden wir tatsächlich handeln?“ Diese Schwelle, die sogenannte Relevanzschwelle, muss auf Basis von Fachkenntnis, Kosten und Kontext festgelegt werden, bevor das erste Datum erhoben wird.

Ein Konfidenzintervall hilft dabei mehr als ein einzelner p-Wert. Wenn Sie wissen, dass der wahre Effekt mit 95-prozentiger Wahrscheinlichkeit zwischen 0,3 und 0,4 Prozent liegt, und Ihre vorab definierte Relevanzschwelle bei 0,5 Prozent liegt, dann ist das Ergebnis eindeutig: signifikant, aber nicht relevant. Kein Handlungsbedarf.

Werkzeuge für die Bewertung praktischer Relevanz:

  • Effektgröße (Cohens d oder ähnliche Maße): Sie quantifiziert die Stärke eines Effekts unabhängig von der Stichprobengröße und ist damit der bessere erste Blick.
  • Konfidenzintervalle: Sie zeigen Ihnen den plausiblen Wertebereich des wahren Effekts und machen greifbar, wie groß der Unterschied tatsächlich sein könnte.
  • Vorab definierte Relevanzschwelle: Legen Sie schriftlich fest, welche Effektgröße in Ihrem Kontext eine Entscheidung rechtfertigt, bevor Sie die Analyse starten.

Signifikanz und Relevanz schließen sich nicht aus, aber sie ersetzen einander nicht

Statistische Signifikanz ist eine notwendige, aber keine hinreichende Bedingung für praktische Relevanz. Ein Ergebnis, das nicht signifikant ist, können Sie nicht verlässlich von Zufall unterscheiden. Aber ein Ergebnis, das signifikant ist, kann trotzdem vollständig ohne Bedeutung für Ihre Entscheidungen sein.

Die saubere Vorgehensweise verbindet beides. Sie prüfen zunächst, ob ein Effekt statistisch nachweisbar ist, und fragen anschließend, ob er groß genug ist, um in Ihrer Situation zu zählen. Die erste Frage beantwortet die Statistik. Die zweite beantwortet das Fachwissen. Wer nur eine dieser Fragen stellt, trifft Entscheidungen auf halbem Weg.

Eine kanadische Feldstudie von 2019 hat gezeigt, dass in etlichen Lehrbüchern der p-Wert nach wie vor nicht korrekt vermittelt wird. Das erklärt, warum der Fehler so hartnäckig bleibt, auch in Unternehmen, deren Analytikabteilungen eigentlich gut aufgestellt sind.

Wer nur auf den p-Wert schaut, analysiert an der falschen Stelle

Die Frage, die zählt, ist nicht „Ist das signifikant?“, sondern „Ist das groß genug, um etwas zu ändern?“ Diese Unterscheidung klingt simpel und verändert trotzdem die Qualität von Datenanalysen grundlegend. Wenn Sie das nächste Mal einen Analysereport auf dem Tisch haben, der vor Signifikanzen glänzt, fragen Sie Ihr Team: Und was bedeutet das für unsere Entscheidung?

Wenn Sie Analysen brauchen, die nicht bei p-Werten aufhören, sondern bis zur tatsächlichen Handlungsempfehlung durchdenken, sprechen Sie mit uns bei FirstData. Wir helfen Ihnen, aus statistischen Ergebnissen belastbare Schlüsse zu ziehen.

Thorsten Brandhuber

Als Geschäftsführer von FirstData ist Thorsten Brandhuber Experte für alle Fragen rund um die Datenanalyse, Big Data, Datenschutz und alle Themenbereiche, die sich daran anschließen.