Warum der Net Promoter Score schädlich ist (und was UX-Professionals deswegen tun können) – Teil 1

Im Jahr 2003 hat ein Marketing-Berater namens Fred Reichheld die Business-Welt mit dem Harvard Business Review-Artikel The One Number You Need To Grow in Aufregung versetzt. Er behauptete, dass durch das Stellen einer einzelnen Frage – einer Frage, die darauf abzielte, die Kundenloyalität der Organisation zu bestimmen – jedes Management die Hand an den Puls der Kundengefühle im Hinblick auf das Unternehmen legen könne. Sein Artikel endete mit: „Diese Zahl ist die einzige, die Sie zum Wachsen bringen müssen. So einfach und profund ist es.“

Wie sich zeigen sollte, ist es weder einfach noch profund. Die Zahl hilft Unternehmen nicht zu wachsen. Sie sagt dem Management nicht mal, wie treu der Kunde ist.

Doch der Net Promoter Score (auch bekannt als NPS) erfüllt alle Kriterien an eine „nützliche“ Business-Metrik:

  • Er ist einfach zu erfassen.
  • Er produziert eine Zahl, die wir nachverfolgen können.
  • Er fühlt sich legitim an.

Obgleich der NPS in vielen klugen Forschungspapieren entlarvt wurde, ist er in vielen Unternehmen nach wie vor fest verankert. Wir hören jeden Tag von Organisationen, die neue Programme zur NPS-Ermittlung ausrollen.

Branchenführer singen weiterhin Loblieder auf den NPS – beispielsweise Stephen Bennett, als er CEO bei Intuit war: „Jede Geschäftssparte adressiert jetzt [den NPS] als strategischen Plan; er ist eine Komponente in jedem operativen Budget, er ist Teil einer jeden Bonuszahlung an Führungskräfte. Wir reden bei jedem monatlichen Lagebericht über Net Promoter.“

Unternehmen wie Intuit legen diese Metrik ihren kritischen Entscheidungen zugrunde, aber die Metrik misst nicht das, was sie denken. Tatsächlich misst der NPS gar nichts Bestimmtes. Entpacken wir also, wie er funktioniert und wie nichtssagend er in Wirklichkeit ist.

Die verdrehte Wissenschaft hinter der NPS-Formel

Eine verrückte Sache am Net Promoter Score besteht darin, wie er berechnet wird. Der Input kommt aus einer einfachen Umfrage.

Den Teilnehmern wird eine einzelne Frage gestellt:

Wie wahrscheinlich ist es, dass Sie [Unternehmen] einem Freund oder Kollegen empfehlen werden?

Auf einer Elf-Punkte-Skala von 0 für Überhaupt nicht wahrscheinlich bis 10 für Extrem wahrscheinlich wählt der Teilnehmer eine Zahl. (In späteren Versionen der Umfrage hat Fred Reichheld vorgeschlagen, den Leuten eine anschließende Frage darüber zu stellen, warum sie diesen Wert vergeben. Diese zweite Frage sehen wir uns gleich noch an.)

Ein normaler Statistiker würde nun alle Scores, die er von Teilnehmern gesammelt hat, im Durchschnitt betrachten. Aus Gründen, die nie ganz erklärt wurden, mag der NPS den Mittelwert der Zahlen aber nicht. Stattdessen segmentiert er die Bewertungen in drei Komponenten:

  • Die Neunen und Zehnen werden als Promoters betrachtet.
  • Die Siebnen und Achten gelten als Passive Befragte.
  • Und alle Werte zwischen 0 und 6 werden als Detractors eingestuft.

Net Promoter Score

Die Formel, um den Score zu berechnen, ist die folgende:

Net Promoter Score = % der Promoter-Antworten minus % der Detractor-Antworten

Nehmen wir an, wir haben die Bewertungen von zehn Leuten. Die Daten sind 0, 0, 1, 4, 5 6, 7, 8, 9 und 10.

Der Durchschnitt dieser zehn Zahlen ist 5. Den Net Promoter Score würden wir aus 20% minus 60% berechnen und als -40 angeben.

Net Promoter Score

Ein Durchschnitt von 5 klingt nicht gut und nicht schlecht. Er ist neutral. -40 klingt schrecklich. (Nicht so schrecklich wie -100, aber doch ziemlich mies.)

Der Grund dafür ist das Denkmuster hinter dem NPS: Leute, die eine neutrale Bewertung geben, werden nicht die guten Dinge über das Unternehmen sagen, die ein Promoter sagen würde. Sie werden nicht loyal sein. Wir müssen sie in Promoters verwandeln. Also betrachten wir sie als Detractors.

Der NPS versteckt den UX-Erfolg

Net Promoter Score

Nehmen wir an, wir haben einen schlechten Tag und von zehn Teilnehmern bekommen wir ausschließlich Nullen: 0, 0, 0, 0, 0, 0, 0, 0, 0 und 0.

Der Mittelwert dieser zehn Zahlen ist 0. (Klingt sinnvoll.) Der NPS ist -100. Das ist der schlechteste Wert, den er annehmen kann. Das klingt auch sinnvoll. Nullen sind eklige Bewertungen. Eklige Bewertungen sollten wir nicht belohnen.

Nun sagen wir, dass unser Team wirklich hart arbeitet. Sie machen das Produkt viel besser.

Net Promoter Score

Nach all der schweren Arbeit erhalten wir durch die Bank Sechsen: 6, 6, 6, 6, 6, 6, 6, 6, 6 und 6.

Der Mittelwert dieser zehn Zahlen ist 6. Aber der NPS ist immer noch -100.

Aus irgendeinem Grund ist der NPS der Meinung, dass 6 gleichwertig mit 0 ist. Vergessen wir nicht: Wenn wir in einem Unternehmen wie Intuit arbeiten würden, würde all die harte Arbeit, um bei unseren Teilnehmern von 0 auf 6 zu kommen, nicht belohnt. Unsere Manager würden ihren Bonus nicht kriegen. Es ist, als hätten wir gar nichts gemacht.

Net Promoter Score

Klar, das liegt daran, dass wir von allen Sechsen bekommen haben. Was ist, wenn wir das Produkt weiter verbessern, sodass jeder Teilnehmer eine 8 vergibt? 8, 8, 8, 8, 8, 8, 8, 8, 8 und 8.

Der Durchschnitt ist 8. Doch der NPS ist jetzt… 0.

All unsere Nutzer von 0 auf 8 zu zu bringen, wäre in jedem normalen Unternehmen ein beachtlicher Erfolg. Aber unsere Organisation ist nicht beeindruckt von einem NPS-Ergebnis von 0. Keine Boni für uns.

Net Promoter Score

Nehmen wir ein Datenset mit lauter Neunen: 9, 9, 9, 9, 9, 9, 9, 9, 9 und 9.

Der Mittelwert ist 9. Und wundersamerweise liegt der NPS bei 100!

Das sind 100 Prozent Verbesserung gegenüber der 8, also wow! Endlich kriegen wir unseren Bonus. Wir stupsen die Daten nur leicht an und verschieben den NPS-Score von der Mitte der Skala zum höchstmöglichen Wert. Ist das nicht genial?

Wie wir sehen können, ergibt die NPS-Berechnung wenig Sinn. Es gibt keine geschäftlichen oder mathematischen Gründe für diese plumpen, abrupten Änderungen im Score.

Kleine inkrementelle Verbesserungen sollten sich in kleinen inkrementellen Score-Steigerungen wiederspiegeln. Nur große Verbesserungen sollten zu großen Score-Änderungen führen. Aber aus Gründen, die niemand erklären kann, funktioniert der NPS nicht auf diese Weise.

Das ist etwas, was Kate Rutter „Analysetheater“ nennt: drastische Ausschläge der Zahlen um des Dramas willen und nicht, damit sie uns helfen, unsere Produkte oder Dienste besser zu machen. Jeder Mittelwert eröffnet einen weit besseren Blick auf das, was mit den Zahlen geschieht. Er ist einfach und enthüllt wichtige Fortschritte.

Wenn das einzige Problem des NPS darin bestünde, wie wir ihn berechnen, könnten wir einfach wechseln und fortan den Durchschnitt nutzen. Jedoch funktionieren Mittelwerte nur, wenn die Daten sinnvoll sind. Leider erschafft die Art und Weise, wie die Teilnehmer die NPS-Frage interpretieren, ein Datenset, das nicht sinnvoll ist.

Eine Elf-Punkte-Skala gibt vor, dass Lärm Wissenschaft sei

Drei-Punkte-Skala

Was würden Sie antworten, wenn Sie eine Frage wie Finden Sie diesen Artikel interessant? beantworten sollten und Ja, Nein und Nicht sicher zur Auswahl hätten? Wahrscheinlich würde es Ihnen nicht schwerfallen, eine der drei Antworten zu wählen.

Drei-Punkte-Skala

Das ist eine Drei-Punkte-Skala. Wenn wir sie zu einer Fünf-Punkte-Skala erweitern, könnte die Antwort schon schwerer fallen: Sehr interessant, Eher interessant, Nicht sicher, Eher nicht interessant, Überhaupt nicht interessant. Was bedeutet Eher nicht interessant denn überhaupt? Heißt das, dass Sie ein bisschen interessiert sind, aber nicht interessiert genug, um weiterzulesen?

Sieben-Punkte-Skala

Eine Skala mit sieben Punkten machen es noch schwieriger. Wenn uns die Bezeichnungen ausgehen, flüchten wir in Zahlen: Sehr interessant, 6, 5, Nicht sicher, 3, 2, Überhaupt nicht interessant.

Das ist nicht nur schwer zu beantworten, sondern auch schwer zu interpretieren. Was ist der Unterschied zwischen 3 und 2? Beide stehen auf der negativen Seite der Skala, aber bedeuten sie unterschiedliche Dinge? Sind die Teilnehmer imstande, Konsistenz an den Tag zu legen – nicht nur über mehrere Fragen hinweg, sondern auch im Hinblick auf die anderen Teilnehmer?

Elf-Punkte-Skala

Der NPS verwendet eine Elf-Punkte-Skala. Das ist eine große Skala mit einer Menge Zahlen, deren Unterscheidung nicht klar ist. Sie und ich könnten genau das gleiche Kundenerlebnis haben, doch ich gebe einen 7 und Sie eine 6. Gibt es einen sinnvollen Unterschied?

Irgendwie wird von uns erwartet, dass wir den Unterschied zwischen einer 6 und einer 7 verstehen. Aber viele Teilnehmer tun’s nicht. Sie wählen einfach nach Laune.

Im NPS ergibt ein Datenset aus lauter Sechsen einen Score von -100 und ein Datenset aus lauter Siebnen einen Score von 0. Für den NPS mag das ein großer Unterschied sein, aber für die Teilnehmer ist es bloß Rauschen. Sie können uns nicht sagen, warum sie das eine dem anderen vorgezogen haben.

Die NPS-Frage: Müll rein, Müll raus

Wenn wir den NPS implementieren, fragen wir alle Teilnehmer Wie wahrscheinlich ist es, dass Sie [Unternehmen] einem Freund oder Kollegen empfehlen werden? Oberflächlich betrachtet, scheint es bei dieser Frage um Kundenloyalität zu gehen. Im ursprünglichen HBR-Artikel hat der Autor die starke Korrelation zwischen wiederholten Käufen und Empfehlungen hervorgehoben.

Spätere Studien haben gezeigt, dass dem nicht so ist, und zwar deshalb:

In guten Forschungsfragen geht es um Verhalten in der Vergangenheit und nicht um künftiges Verhalten. Studienteilnehmer mit Fragen wie Werden Sie versuchen, einen gesünderen Lebensstil anzunehmen?, Werden Sie auf Zucker verzichten? oder Werden Sie dieses Produkt bestellen? zu konfrontieren, verlangt von ihnen, dass sie ihr zukünftiges Verhalten vorhersagen. Aber uns interessiert viel stärker, was sie getan haben. Wir interessieren uns für tatsächliches Verhalten und nicht für Verhaltensprognosen.

Hier ist ein Beispiel. Dank Dan Baker, einem britischen Analyseberater und NPS-Enthusiasten, haben wir nun einen 16-Monate-Ausschnitt an NPS-Daten eines einzelnen E-Commerce-Kunden.

Net Promoter Score - Beispiel

Wie wir sehen, variieren Dans neun NPS-Datenpunkte von 5 bis 10. Was die Daten uns nicht sagen, ist, ob der Kunde je getan hat, worauf die Frage abzielt. Wir wissen nicht, ob er das Unternehmen einem Freund oder Kollegen empfohlen hat.

Aus Dans Bestelldaten geht hervor, dass der Käufer das meiste Geld (110 Dollar) ausgegeben hatte, als er eine 8 vergeben hat. Seine kleinste Bestellung (57,60 Dollar) hat er mit einer 9 bewertet. Der Warenwert, als er eine 5 vergeben hat, war nur um drei Dollar niedriger als bei der einzigen Bestellung, die ihm eine 10 wert gewesen ist. Aus diesen Daten erkennen wir, dass es keine Korrelation zwischen Kaufverhalten und NPS-Antwort gibt. Und ebenso wenig gibt es irgendeinen Beleg für Loyalität.

Im zweiten Teil des Artikels knüpft Jared Spool an diese Überlegungen an: Hat der NPS überhaupt grundsätzlich das Zeug zu messen, was er messen soll – also Kundentreue und Wachstum? Wie passen NPS-Daten und echte Kundenerlebnisse zusammen? Und welche Manipulationsmöglichkeiten eröffnet der NPS?

Dieser Artikel wurde im Original am 20. Dezember 2017 unter dem Titel Net Promoter Score Considered Harmful (and What UX Professionals Can Do About It) von Jared M. Spool veröffentlicht. Jared M. Spool gehört zu den führenden User-Experience-Experten unserer Zeit. Seine Website erreichen Sie unter http://www.uie.com. Weitere Artikel von Jared M. Spool finden Sie im UX-Special von //SEIBERT/MEDIA.