Wizualizacje, które… oszukują. Jak możesz manipulować tym co widać na wykresie?

Czy czasem masz tak, że patrzysz na wykres i… coś Ci w nim nie pasuje? Nie martw się – ja też tak mam. Ale niestety może być gorzej. Pomyśl ile razy stykasz się z wizualizacjami, która zostały w jakiś sposób zmanipulowane, ale tego nie odkryjesz…

Dlaczego oszukujemy na wykresach?

Prezentowanie danych na wykresach ma mnóstwo zalet. W oczywisty sposób wykres zajmuje mniej miejsca niż długie tabelki wypełnione liczbami. Ponieważ mają dane w formie wizualnej, szybciej zauważamy trendy to często jedno spojrzenie wystarczy, żeby przyswoić i zapamiętać informację, która była umieszczona na wykresie. Wizualizacja danych to często także nasz “bezpiecznik” – informacje odstające (czyli outlier‘y) aż biją po oczach, więc z pewnością je zauważysz.

Ale… używanie wizualizacji to taki “miecz obosieczny”. Z jednej strony gdy zrobimy to z sensem i zgodnie z prawidłami – mamy gwarantowane lepsze zrozumienie tematu przez odbiorcę. Obrazy podobno mówią więcej niż tysiąc słów, więc temat zwizualizowany jest lepiej odbierany niż “tylko” opisany tekstem. Z drugiej strony gdy wykres stara się “ukrywać prawdę” możemy narobić dużo szkód – i sobie i osobom, które będą z niego korzystać.

Od razu zaznaczę, że nie zawsze “zły wykres” to próba manipulacji odbiorcami. Bardzo często nieprawidłowo wykonana wizualizacja to po prostu efekt braku dostatecznej wiedzy u osoby, która ją tworzyła. Ja zawsze zakładam dobre intencje, no chyba, że okaże się inaczej… Oczywiście tak jak nieznajomość prawa nie zwalnia z jego stosowania, tak powinniśmy starać się poprawiać swoje błędne przyzwyczajenia związane z wizualizacją danych.

https://fullfact.org/news/how-make-bad-charts-7-simple-rules/
https://fullfact.org/news/how-make-bad-charts-7-simple-rules/

Ale, ale – zapytasz – przecież liczby są faktami, więc gdzie jest miejsce na manipulację? Masz rację, ale nie do końca 😉 To prawda, że liczby są liczbami i 100 zł to zawsze 100 zł. Więc jeśli ktoś celowo nie zmieni z ręki danych to nie ma tutaj pola do interpretacji. No ale właśnie jest… Od procesu pobierania danych, przez ich analizę aż po tworzenie wizualizacji – każdy z tych etapów może być wyrazem opinii osoby przygotowującej wykres. Przykład? Czy strata, która wystąpiła w firmie raz w ciągu ostatnich 10 lat to już wartość odstająca i powinniśmy jej nie uwzględniać w analizie?

Widać więc, że na każdym z tych trzech etapów (pobierania, analiza, wizualizacja) dane mogą być zniekształcone. Co więcej – nawet nasza interpretacja gotowego wykresu jest związana z tym co wiemy i jaką mamy opinię o przedstawionych danych. Wow….


Jeśli zainteresował Cię ten temat – polecam Ci świetne źródło wiedzy. To Eseje” Przemysława Biecka – profesora UW, który zjadł zęby na danych i wizualizacji. Link znajdziesz poniżej:

== Przemysław Biecek – Eseje == 


3 najczęściej spotykane oszustwa w wizualizacji danych  

Skoro wiesz już, że wykresy mogą być zdradliwe to czas na to, żeby poznać najczęściej pojawiające się oszustwa w wizualizacji danych. Oczywiście lista możliwych przewinień jest bardzo długa – można wyróżnić nawet kilkanaście sposobów na manipulacje wykresami.

W tym artykule omawiam takie 3, które widuję najczęściej. Zaczynajmy.

Zły dobór skali na osi pionowej

Na pierwszy ogień częsty problem, pojawiający się zwłaszcza gdy mamy do pokazania duże liczby, które dość dynamicznie zmieniają się w czasie. Jak w takim przypadku podejść do skali na osi wartości? Czy ostatnie odczyty powinny wyznaczać maksymalny zakres osi, czy jednak warto pozostawić trochę miejsca na wyobrażenie sobie dalszego trwania trendu?

Posłużę się przykładem – na podstawie świetnego artykułu “Defense Against Dishonest Charts” autorstwa Nathana Yau, twórcy strony Flowing Data.

Poniżej widzisz dwa wykresy, które… przedstawiają dokładnie te same dane, dotyczące zmiany liczby mieszkańców USA na przestrzeni ostatnich ponad 100 lat. 

Możesz wierzyć lub nie, ale tak – to są dokładnie te same dane i dotyczące tego samego okresu czasu (1910-2020). Co więc różni oba wykresy? Skala na osi pionowej.

Dla wykresu po lewej stronie maksima osi sięgają poziomu 350 mln, natomiast w przypadku wykresu po prawej stronie – około 4 mld czyli ponad 10 razy więcej. Jak to wpływa na nasz odbiór informacji na wykresie? Patrząc na pierwszy z nich myślimy – wzrost jest mega dynamiczny. A drugi wykres? Mówi nam, że wzrost co prawda jest, ale jakiś taki… mało przekonujący…

Te same dane, ten sam typ wykresu, dwie zupełnie przeciwstawne opinie o danych. Jak zatem powinien wyglądać ten wykres? Prawda leży po środku i… ten wykres też powinien mieścić się gdzieś po środku skali – czyli warto pewnie próbować maksimów na poziomie 600-700 mln.


Chwilka przerwy na autoreklamę 😉 Jeśli jakimś cudem jeszcze nie zapisałaś/zapisałeś się na moją listę mailową – zrób to od razu! Nie odkładaj tego na później…

Zero spamu, samo mięso, co tydzień coś ciekawego ze świata analizy i wizualizacji danych.


Cherry-picking, czyli “wygodna wybiórczość”

Czasem przygotowując dane do wizualizacji mamy taki zgryz: hipoteza, którą mamy udowodnić pokrywa się z liczbami, ale… tych kilka obserwacji jakoś tak dziwnie nie chce się podporządkować. Co zrobić zapytasz? Może by tak zawęzić zakres analizy, żeby… niewygodne punkty danych po prostu wypadły z wykresu? 🤔

Brzmi dobrze, ale właśnie wpadamy w pułapkę cherry-pickingu, czyli wyboru “wygodnych danych”. Dlaczego nie jest to dobra praktyka?

  • Bo pomijamy obserwacje, które przeczą naszej tezie, a tym samym fałszujemy przekaz,
  • ignorujemy kontekst – pomijanie danych spoza „wybranej” próbki często usuwa kluczowe tło, bez którego interpretacja jest niepełna lub błędna,
  • zaburzamy reprezentatywność, a wyciąganie wniosków na podstawie niereprezentatywnej próbki to poważny błąd metodologiczny.

Wszystko to prowadzi nas to wniosku, że cherry-picking koniec końców obniża wartość analizy – nawet jeśli wnioski są technicznie poprawne, ich przydatność spada, jeśli bazują na wybiórczych danych.

A jak wygląda cherry-picking w praktyce? Ponownie interaktywne wykresy od Nathana Yau – tym razem pokazujące odsetek osób noszących okulary w zależności od wieku:

Nasze odczucia? Patrzysz na wykres po lewej stronie i od razu widzisz, że 3/4 osób nosi okulary… Wow to dużo, prawda? Po rozszerzeniu perspektywy na wykresie po prawej stronie widzimy, że jednak z naszymi oczami nie jest aż tak źle – zwłaszcza wśród osób młodszych.

Wykres słupkowy, który nie zaczyna się od zera

Klasyka gatunku, czyli jak pokazać dużą różnicę, gdy w rzeczywistości jest mała, albo na odwrót… Prosto – wystarczy poruszać “podłogą” wykresu słupkowego, czyli punktem, w którym słupki dotykają osi.

Jednak generalna zasada w przypadku wykresu słupkowego brzmi – zawsze zaczynaj słupek od zera. Wtedy masz pewność, że różnica między słupkami na wykresie będzie rzeczywiście dostosowana do różnicy w danych. 

Prosty przykład – podział populacji USA na kobiety i mężczyzn. Natura stara się być sprawiedliwa i ten udział jest bliski 50%, czyli 1:1. Ponieważ faceci częściej robią głupie rzeczy i ogólnie mniej przejmują się swoim zdrowiem, to jednak kobiet jest nieco więcej niż mężczyzn – dokładnie stosunek to 49,5% do 50,5%. Dużo czy niedużo? Raczej niewiele.

Stąd też trudno wytłumaczyć wielkość słupków na wykresie po lewej stronie:

   

Na pierwszym wykresie – przepaść pomiędzy licznością płci brzydkiej i pięknej wydaje się ogromna…. ale nie jest ogromna – widzimy to na wykresie po prawej, który nie eksperymentuje z początkiem osi.

Dlaczego taki błąd jest szczególnie niebezpieczny? Nasz mózg porównuje ze sobą automatycznie długości słupków i bardzo szybko wyciąga wniosku. Mamy je w głowie zanim spojrzymy na oś pionową – oczywiście “o ile” na nią spojrzymy w ogóle…


Jeśli chcesz poznać pozostałe techniki manipulacji wykresami oraz samodzielnie zweryfikować jak może wyglądać ten sam wykres “przed” i “po”, to polecam odwiedzenie portalu Flowing Data. Nathan Yau, który jest specem od wizualizacji, autorem kilku książek oraz bloga i newslettera na ten temat.

== Flowing Data – Defense Against Dishonest Charts ==


Dlaczego nie warto oszukiwać w swoich wizualizacjach?   

Te krótkie przykłady, które pokazałem w poprzedniej części artykułu pokazują jak można sprawić, żeby wykres wyglądał tak jak “powinien” – nawet gdy dane nie są takie chętne do współpracy ☺️

Dlaczego jednak nie warto oszukiwać przy tworzeniu wykresów? Dlaczego nie jest to dobra technika w dłuższej perspektywie?

  1. Możliwość nieprawidłowej interpretacji danych
    Naturalnie przywiązujemy się do tego co na wykresie i w pierwszej chwili bierzemy to co na ekranie/ilustracji za pewnik, na tej podstawie wyrabiamy sobie zdanie o danych. Dochodzimy do złych wniosków…

  2. Decyzje podjęte na podstawie zmanipulowanych wykresów mogą być błędne lub przynajmniej nieoptymalne
    Złe decyzje w biznesie to koszty, utrata przychodów, ale złe decyzje w medycynie mogą kosztować pacjenta utratę zdrowia, a nawet życia…

  3. Manipulacja wykresami rodzi dezinformację
    Sprawa szczególnie oczywista i niebezpieczna w czasach, w których przyszło nam żyć. Jeden news lub post potrafi wstrząsnąć mediami, a co dopiero zmanipulowana wizualizacja pokazana przez opiniotwórczą osobę… 

  4. Dane pokazywane w niewłaściwy sposób nie są godne zaufania
    Problem w tym, że odbiorcy tracą zaufanie do samych danych, jak i do osób, które prezentują nierzetelne informacje…

  5. To po prostu nieetyczne i nieeleganckie…

Mam nadzieję, że ta lista przekonuje Cię do stosowania wizualizacji zgodnie z zasadami. Ponieważ większość błędów na wykresach nie było zamierzone, to ty bardziej tworząc materiał z wykresami warto przejść przez kwestie opisane w artykule – dla sprawdzenia czy oby nasz wykres nie wprowadza odbiorców w błąd…


Na zakończenie

Pamiętaj, że wykres to nie tylko narzędzie do przedstawiania danych, ale też forma komunikacji. A każda komunikacja niesie ze sobą odpowiedzialność. Jeśli tworzysz wizualizacje, rób to świadomie – z myślą o odbiorcy i jego zrozumieniu, a nie tylko o efekcie wizualnym.

Warto więc zadbać o przejrzystość, uczciwość i kontekst, bo tylko wtedy wykres “naprawdę mówi prawdę“. I choć czasem kusi, żeby coś “podrasować”, to długofalowo najbardziej opłaca się rzetelność. Bo dobry wykres nie tylko dobrze wygląda – on przede wszystkim dobrze służy.

Jeśli chcesz co tydzień dostawać ciekawe materiały o narzędziach wizualizacji i analizy danych – to dobrze się składa! Zapisz się do mojego newslettera – nic nie tracisz a możesz tylko zyskać. Więc… sprawdź niżej 👇

Do zobaczenia!

Może Ci się spodobać...

Leave a Reply

Your email address will not be published. Required fields are marked *