Den Sternen ist nicht zu trauen

Nutzerbewertungen Wer online einkauft, verlässt sich oft auf die Nutzerbewertungen und -Reviews. Doch die sind häufig unzuverlässig und manchmal sogar falsch: Wie Sie dennoch Nutzen aus User-Urteilen ziehen können.

Matthias Schüssler

Den Nutzerbewertungen kommt in den Online-Läden, App-Stores und Streamingplattformen eine wichtige Rolle zu: Die Zahl der Sternchen und die wohlwollenden oder ablehnenden Worte anderer User geben oft den Ausschlag, ob Interessierte auf «Kaufen» oder «Download» klicken oder einen Rückzieher machen. Eine repräsentative Umfragedes deutschen Branchenverbandes Bitcom ergab 2017, dass zwei Drittel sie als Entscheidungshilfe nutzen. Die Bewertungen seien wichtiger als Preisvergleichsportale (51 Prozent) oder Gespräche mit Freunden, Familie und Kollegen (50 Prozent).

Manchen Nutzerkommentaren sieht man jedoch von weitem an, dass sie nicht von einem Nutzer oder Käufer stammen, sondern von einem wohlwollenden Rezensenten aus dem Dunstkreis des Anbieters selbst. Da ist zum Beispiel der offensichtliche Fall einer App-Besprechung, in der der Gründer des Entwicklungsstudios gleich mit Vornamen angesprochen und für seinen Innovationsgeist gelobt wird. Andere verdächtige Besprechungen greifen unverblümt die Werbebotschaften aus der Beschreibung auf. Und Kürzest-Besprechungen, die nur aus einer Floskel wie «Toll!» oder «Hat mein Leben verändert!» bestehen, können echt oder falsch sein – nützlich sind sie jedenfalls nicht.

Den Fakes auf der Spur

Den gefälschten Besprechungen wollen manche mit künstlicher Intelligenz auf die Spur kommen. Bei Fakespot.com trägt man die Adresse einer Seite von Amazon, Yelp, Trip Advisor oder Steam ein und erhält eine Einschätzung, wie gross der Anteil der irreführenden Kommentare ist – plus Hinweise, welche Besprechungen authentisch und welche unglaubwürdig sind. Das mag in Einzelfällen helfen. Der Praxisnutzen wird geschmälert, weil die Analyse lange dauert und nur bei englischsprachigen Webseiten ausgeführt wird.

Doch auch die echten Kommentare sind nicht so aussagekräftig, wie man glauben möchte. 2016 hatten Forscher der University of Colorado Boulder bei Alltagsprodukten wie Autositzen, Sonnenschutz, Rauchmeldern und Velohelmen nur eine kleine Übereinstimmung zwischen Benutzerwertungen und objektiven Testresultaten ermittelt.

Auch die deutsche Stiftung Warentest musste sich vor kurzem rechtfertigen, weil die Bewertungen bei Amazon und die Einschätzung der professionellen Produktprüfer weit auseinanderklafften. Nur bei einem Drittel schwang der Testsieger der Stiftung Warentest auch bei den Käufern des Online-Stores obenaus. Die Technische Universität (TU) Dortmund hatte für diesen Vergleich 1322 Elektronikprodukte herangezogen, die die Verbraucherorganisation von 2014 bis 2017 geprüft hat.

«Aus unserer Sicht ist das völlig logisch», erklärt die Stiftung Warentest: Bei den Online-Portalen werden Kritiken schnell und emotional verfasst. Ein Käufer schreibe seine Rezension in ein paar Minuten und greife nur auf seine persönlichen Erfahrungen zurück. Die professionellen Prüfer halten sich dagegen an ein standardisiertes Prüfverfahren.

Die unterschiedlichen Herangehensweisen können zu komplett gegensätzlichen Beurteilungen führen. Stiftung Warentest demonstriert das anhand einer Überwachungskamera, die bei dem Test der TU Dortmund bei den Käufern sehr gut abgeschnitten hatte, bei der Stiftung Warentest aber komplett durchgefallen war. Die Profi-Tester hatten eine eklatante Sicherheitslücke festgestellt, über die sich Fremde ohne Aufwand Zugang zu den Aufnahmen verschaffen konnten.

Das ist ein K.-o.-Kriterium, selbst wenn das Produkt ansonsten rundum überzeugt. Ein privater Nutzerist aberkaum in der Lage, Mängel festzustellen, die den Gebrauch nicht unmittelbar beeinträchtigen.

Wenn Käufer Produkte bewerten, sind sie völlig frei darin, welche Kriterien sie anlegen. Amazon versucht, seine Kunden in die richtige Richtung zu lenken, indem Besprechungen als «nützlich» gekennzeichnet werden können. Hilfreiche Rezensionen werden nach oben sortiert. Wer viele nützliche Beurteilungen schreibt, verdient sich den Titel als «Top-Rezensent». Und tatsächlich: Die ausgezeichneten Kritiker schreiben oft Dinge, die den Kaufentscheid erleichtern. Doch selbst die Bewertungsskala selbst ist nicht so objektiv, wie es den Anschein hat: Die Vorstellungen, wann ein Produkt wie viele Sterne verdient hat, gehen weit auseinander: Manche sind strenger, andere grosszügiger.

Nebst den individuellen gibt es auch kulturelle Unterschiede. Die Entwickler des Net Promoter Score, einer Kennzahl zur Bewertung von Unternehmen, haben unterschiedliche Skalen für Amerikaner und Europäer vorgeschlagen: Denn auf einer zehnteiligen Skala sind die Europäer im Schnitt einen Punkt strenger als die Amerikaner. Die sind eher bereit, ein «Outstanding» (herausragend) als Note zu vergeben, während für einen Franzosen oder Holländer ein deutlich nüchterneres «Überdurchschnittlich» angebracht scheint.

Schliesslich hat auch einen Einfluss, wie aus Einzelbewertungen die Gesamtnote errechnet wird. Amazon nimmt nicht einfach einen Durchschnitt, sondern gewichtet die einzelnen Bewertungen. Neuere Besprechungen werden stärker gewichtet, ebenso solche, die als hilfreich angesehen werden. Die Stiftung Warentest zeigt dazu einen Fall, wo ein Tintenstrahldrucker eine gute Endnote erhielt, obwohl ein Viertel der Amazon-Kunden mit dem Gerät unzufrieden war.

Kritiker-Modus nicht gefragt

Auffällig ist, dass viele Inhaltsanbieter die mehrteilige Bewertungsskala abgeschafft haben: Netflix, Spotify und Apple verwenden anstelle der Sternchen allesamt nur noch einfache Magich-/Mag-ich-nicht-Systeme.

Der Clou ist, dass es bei diesen Bewertungssystemen gar nicht um eine objektive Qualitätsfeststellung geht. Die Anbieter wollen herausfinden, was sie als Nächstes anbieten können – und das kann bei Netflix auch eine Komödie mit Adam Sandler sein, die viele Nutzer als unterirdisch bewerten würden. Die Sterne würden die Nutzer dazu bringen, in den «Kritiker-Modus» zu verfallen, erklärte Netflix-Manager Cameron Johnson den Systemwechsel dem «Business Insider».

Sind Bewertungen in den Online-Stores also nutzlos? Nicht komplett – aber man sollte sie nicht als alleinigen Massstab nehmen. Auf Reisen sind die eigenen Instinkte und das Bauchgefühl nach wie vor ein guter Massstab – auch wenn es bloss darum geht, nicht von Trip Advisor und ähnlichen Apps in die Restaurants und Clubs gelockt zu werden, wo bereits alle anderen Touristen sitzen.

Auf Onlineportalen werden Kritiken oft schnell und emotional verfasst, professionelle Prüfer halten sich dagegen an ein standardisiertes Prüfverfahren. Foto: Getty Images

In einem Fall wurde ein Drucker als gut bewertet, obwohl ein Viertel der Kunden mit dem Gerät unzufrieden war.

Wie Sie Nutzerbewertungen beurteilen können

—Es sind oft sehr zufriedene oder sehr unzufriedene Nutzer, die ein Produkt bewerten. Das hat zur Folge, dass Bewertungen im Mittelfeld untervertreten sind. Diese geben aber womöglich die objektivste Einschätzung zu Stärken und Schwächen.

—Achten Sie bei Verrissen darauf, ob sie die gleichen Dinge kritisieren: Falls ja, könnte eine echte Schwachstelle vorliegen.

—Die Details sind entscheidend: Wenn eine Besprechung klare Begründungen enthält, weshalb ein Produkt überzeugt oder durchfällt, ist die Wahrscheinlichkeit eines Fakes geringer. Ausserdem helfen diese Einzelheiten bei der Beurteilung, ob die beschriebenen Schwächen oder Stärken für einen selbst relevant sind.

—Wenn sehr wenige Bewertungen vorhanden sind, sollte man der Gesamtnote nicht zu viel Bedeutung beimessen. Sie hat erst ab ein paar Dutzend Reviews eine gewisse Aussagekraft.

—Professionelle Besprechungen von Zeitungen, Zeitschriften oder Prüforganisationen ergänzen oder relativieren den Eindruck.

—Spezialisierte Stores haben unter Umständen bessere Kritiken, weil dort fachlich versierte Leute kaufen und bewerten. (schü.)

Quelle: Tages-Anzeiger, Mittwoch, 20. März 2019

Rubrik und Tags:

Faksimile
190320 TA Seite 33.pdf

Die Faksimile-Dateien stehen nur bei Artikeln zur Verfügung, die vor mindestens 15 Jahren erschienen sind.

Metadaten
Thema: Aufmacher
Nr: 15242
Ausgabe:
Anzahl Subthemen: 80

Obsolete Datenfelder
Bilder:
Textlänge:
Ort:
Tabb: FALSCH