Ein nicht-intuitiver Ansatz zum Vergleich von Design-Alternativen

Vor kurzem rief uns ein Kunde an, der um Unterstützung bei seiner ersten Usability-Studie bat. Dieser Kunde betreibt ein großes Informationsportal mit Millionen von Besuchern pro Monat. (Nehmen wir mal an, es handelt sich um eine riesige Finanz-Website mit vielen Detail-Informationen, Aktienkursen, Investment-Strategien, Empfehlungen von Börsen-Profis und so weiter.)

Diese Leute sind dabei, ihre Homepage und die Navigation zu überarbeiten. Ihnen liegen drei Homepage-Varianten und fünf verschiedene Navigationsvorschläge vor, die ein externes Unternehmen für sie entwickelt hat, ohne diese großartig zu testen.

Um herauszufinden, welches Layout sie nun nehmen sollen, haben sie sich (endlich!) doch entschieden, ihren ersten User-Test durchzuführen. Ihre Site ist zwar seit Jahren online, aber den Nutzern über die Schulter geschaut haben sie noch nie.

Bis dahin war das Management offenbar der Meinung, Usability sei ein luxuriöses Nice-to-Have, das man sich vor allem aus Zeitgründen nicht leisten könne oder wolle. Das Team rief uns nun etwas besorgt an; war es doch zum Erfolg verdammt.

Die Leute haben einen langen und harten Kampf um das OK für das Projekt hinter sich. Ein tolles Ergebnis würde die Chancen auf künftige Studien erhöhen. Wären am Ende jedoch alle der Meinung, die ganze Sache hätte eigentlich nichts gebracht, stünde ein zähes politisches Ringen um die Freigabe jedes weiteren Usability-Projekts bevor.

Die Herausforderung, Layout-Alternativen zu vergleichen

Zunächst wollte das Team erst einmal wissen, wie man Design-Alternativen überhaupt vergleicht. Im Idealfall, so meinten sie, versucht sich jeder Testteilnehmer an jedem Homepage-Design und an jedem Navigationsentwurf und die beste Variante würde sich schon herauskristallisieren. Nach zwei Testtagen wollten sie alles auswerten und den Sieger präsentieren.

Nun ist es selbst unter günstigsten Voraussetzungen verzwickt, Layouts zu vergleichen. Zuerst muss man sich vergewissern, ob sich die Alternativen auch tatsächlich voneinander unterscheiden. Es wäre ja denkbar, dass am Ende alle Varianten gleich gut oder schlecht abschneiden, weil sie sich viel zu ähnlich sind.

Gehen wir einmal davon aus, dass dem Team wirklich gute Vorschläge vorliegen. Das nächste Problem ist die Evaluierung durch die User. Um das zu bewerkstelligen, muss jede Alternative eine Reihe realitätsnaher Aufgaben durchlaufen.

Es ist immer schwierig, solche Aufgaben zu definieren, aber noch komplizierter wird es, wenn die User niemals zuvor bei der Arbeit beobachtet worden sind. Das Team hatte zwar ein paar Daten aus Markt- und Tracking-Analysen gesammelt, aber, das war schnell klar, so ganz genau wussten sie nicht, aus welchen Gründen die Leute auf die Site kommen und was sie dort unternehmen.

Doch weiter. Das Team hat also einige realistische Aufgaben erarbeitet und wir stehen schon vor der nächsten Herausforderung: alle Alternativen zu untersuchen. Am besten lassen sich neue Layouts testen, wenn es einen fixen Vergleichsmaßstab gibt.

Wir müssten eigentlich jeden Vorschlag einzeln evaluieren und mit dem bestehenden Design vergleichen, um „Lerneffekten“ vorzubeugen. (Lerneffekte treten auf, wenn Probanden mehrere Alternativen nacheinander testen und die Aufgaben oder die Entwürfe sich ähneln. Ist das zweite Layout erfolgreicher, weil es besser ist oder weil die Leute sich bestimmte Sachen gemerkt haben?)

Für eine solche Untersuchung würden wir auf keinen Fall weniger als vier Tester pro Alternative empfehlen. Wir sprechen bei sechs Vorschlägen also von mindestens 24 Probanden.

Und damit waren wir beim wirklichen Problem: Es gibt keine effektive Möglichkeit, innerhalb der vorgesehenen zwei Tage und angesichts des begrenzten Budgets alle Vorschläge von 24 Leuten testen zu lassen. Wir mussten uns etwas einfallen lassen.

Das Problem von einer anderen Warte aus betrachten

Was wäre, wenn wir nicht die User nach der besten Alternative fragten, sondern dem Team diese Aufgabe übernehmen würde? Unser Vorschlag: Anstatt alle Entwürfe zu testen, sollte das Team sich auf das bestehende Design konzentrieren und die so gewonnenen Erkenntnisse in den Entscheidungsprozess einfließen lassen. Folgendes Vorgehen haben wir den Leuten ans Herz gelegt:

Schritt 1: Eine Gewichtete Differenzierungs-Matrix erarbeiten
Wir sollten zu Beginn ein wenig Zeit für die Erarbeitung einer Gewichteten Differenzierungs-Matrix mit den Unterschieden zwischen den Alternativen einplanen. Jede Zeile dieser Übersicht entspricht einem Differenzierungsmerkmal zwischen dem Original-Layout und den neuen Vorschlägen.

Wir gewichten jeden Unterschied auf einer Skala von 1 bis 5 und berücksichtigen vor allem, wie wichtig ein Aspekt für den Erfolg der User ist. Auch diese Erfolgsfaktoren gewichten wir über eine Punktvergabe. Am Ende haben wir jede Alternative also dahingehend bewertet, wie gut sie die definierten Anforderungen erfüllt, rechnen zusammen und haben den vorläufigen „Gewinner“.

Schritt 2: Probanden aus zwei Personengruppen rekrutieren
Weiterhin empfahlen wir dem Team, die Testteilnehmer aus zwei Gruppen zu rekrutieren: Stamm-Nutzern und neuen Usern. Am ersten Tag wären die erfahrenen Nutzer an der Reihe, am zweiten Tag die Probanden, die die Website noch nicht kennen. Die Beobachtung der Stammnutzer würde Erkenntnisse bringen, welche wichtigen Aufgaben auf der Site hauptsächlich erfüllt werden. Die Beobachtung der neuen User ist bedeutsam, weil wir sehen, welche Grundfunktionen für Besucher wichtig sind, die mit der Site nicht vertraut sind.

Schritt 3: Ein inhärentes Nutzen-Analyse-Protokoll verwenden
Mit der inhärenten Nutzen-Analyse finden wir heraus, was für Stammnutzer an einer bestehenden Oberfläche wichtig ist bzw. welchen besonderen Nutzen sie für ihn hat. Außerdem können wir so feststellen, ob das Design diesen Nutzen neuen Usern effektiv kommuniziert.

Im User-Test sollte der Moderator jeden Teilnehmer aus der Stammnutzer-Gruppe eingehend zu seinen Nutzungsgewohnheiten befragen. So erfahren wir, warum der User die Seite hauptsächlich besucht, was er zuletzt erledigt und wie das funktioniert hat. Anschließend bittet der Moderator den Probanden, eine häufig ausgeübte Aktion durchzuführen. Dadurch lernen wir, was die Seite für den Stammbesucher wertvoll und großartig macht und welcher konkrete Nutzen ihn an die Seite bindet.

Dann fragt der Moderator die Probanden aus der zweiten Nutzergruppe, welche dieser (dank der Stamm-User identifizierten) wesentlichen Aufgaben sie auch gern einmal erledigen würden. Bei der Ausführung dieser Aufgaben erschließt sich den neuen Usern der Nutzen der Site und das Team kann einschätzen, wie gut oder schlecht die Oberfläche diesen Nutzen kommuniziert.

Schritt 4: Die „beste“ Alternative einbeziehen
Haben alle Probanden ihre Aufgaben erfüllt, sollten sie sich mit dem besten alternativen Layout befassen, das wir mit unserer gewichteten Differenzierungs-Matrix gekürt haben. Dabei dürfte zwar eher eine kritische Betrachtung als das tatsächliche Erfüllen von Aufgaben herauskommen, aber die neue Variante ist ja auch noch nicht voll funktionsfähig.

Nun, da sie mit der bestehenden Site gearbeitet haben, können die User immerhin Aussagen treffen, wie sie Aufgaben mit dieser Alternative bearbeiten würden. Wir lernen die Perspektive der Nutzer kennen und erfahren, wie sie die Unterschiede zwischen den Layouts sehen und bewerten.

Schritt 5: Möglichst Konkurrenz-Sites einbinden
Fall dann noch ein bisschen Zeit übrig ist, lassen Sie die Teilnehmer die gleichen Aufgaben auf einer Site der Konkurrenz durchführen. Das bringt Erkenntnisse darüber, wie Sie im Vergleich dastehen, und Sie sehen zudem, welche Design-Richtlinien die Konkurrenz nicht beachtet hat und was Sie besser machen sollten. Nutzt ein Proband bei seinen gewohnten Web-Aktivitäten tatsächlich ein konkretes konkurrierendes Angebot, sollte er auch mit diesem arbeiten, denn er wird Vor- und Nachteile besonders intensiv diskutieren können.

Schritt 6: Die Alternativen evaluieren
Wenn wir die Ergebnisse schließlich analysieren, empfiehlt sich ein erneuter Blick auf die gewichtete Differenz-Matrix. Wir ergänzen die jeweiligen Zeilen unserer Matrix um die Aufgabenstellungen der Probanden und die neuen Nutzenerkenntnisse und lassen die Bewertungen der User mit einfließen (unsere ursprünglichen Gewichtungen müssen wir dementsprechend anpassen). Ist das erledigt, wird uns die Matrix bei der Entscheidung helfen, mit welchem Design wir weitermachen.

Fundierte Entscheidungen treffen

Teams müssen sich entscheiden. Und die erfolgreichsten Teams treffen fundierte Entscheidungen.

Auch wenn es gegen die Intuition zu sein scheint: Den Fokus auf die bestehende Oberfläche zu richten, war in diesem Fall wohl die beste Herangehensweise. Jede einzelne Alternative durch Probanden testen zu lassen, hätte viel mehr Zeit gekostet und verwirrende Resultate ergeben. Den (unter diesen Umständen) größtmöglichen Erkenntnisgewinn versprach unserer Meinung nach also die Konzentration auf das ursprüngliche Design. Die Ergebnisse lassen wertvolle Schlüsse darauf zu, welche der Alternativen geeignet ist – wenn sie denn überhaupt Alternativen sind.

-

Dieser Artikel wurde im Original am 19. Mai 2008 unter dem Titel „A Counter-Innovative Approach to Evaluate Design Alternatives“ von Jared M. Spool veröffentlicht. Jared M. Spool gehört zu den führenden Usability-Experten unserer Zeit. Seine Website erreichen Sie unter http://www.uie.com/. Weitere Artikel von Jared M. Spool finden Sie im Usability-Special von //SEIBERT/MEDIA.