Zapożyczanie słów z innych języków to normalny proces. Język angielski choć zaklasyfikowany jako język germański jest wyjątkowy pod względem zapożyczeń z innych języków świata. Jakie pochodzenie mają najczęściej używane angielskie słowa i… jak takie dane pokazać na wykresie?
Pochodzenie angielskich słów
Dzisiejsza Wielka Brytania to wielonarodowe i multikulturowe państwo. Dodatkowo historycznie tereny Wysp Brytyjskich były przedmiotem wielu najazdów, wojen i konfliktów o władzę. Nic więc dziwnego, że dzisiejszy język angielski to mozaika składająca się z zapożyczeń z wielu języków. Choć rdzeń pozostaje germański to wpływy romańskie, greckie i inne nadają mu unikalny charakter. Jakie jest pochodzenie najczęściej używanych angielskich słów? Pytanie to nurtowało Davida Currana, irlandzkiego miłośnika liczb i analizy danych. Postanowił sprawdzić jak wygląda pochodzenie top 2000 słów w języku angielskim. Swój projekt EnglishWords opublikował na GitHubie – stamtąd można m.in. pobrać listę słów wraz z przypisanym pochodzeniem. Wszystko pięknie, ale w jaki sposób ładnie graficznie zaprezentować takie dane? David Curran zrobił to w ten sposób:
Okazuje się, że większość najczęściej używanych angielskich ma pochodzenie germańskie. Ten udział maleje w miarę uwzględniania w zestawieniu mniej popularnych słów. Wtedy zyskują wpływy języka francuskiego i łacińskiego. Inne języki mają raczej marginalny wpływ na trzon języka angielskiego.
Wykres – co mi się w nim nie podoba?
Wykres budzi wiele zastrzeżeń nawet wśród komentujących wpis na Reddicie, w którym się pojawia... i słusznie. Mimo że temat jest ciekawy, to jego wizualna prezentacja ma poważne wady. Wpływają one zarówno na czytelność, jak i na możliwość interpretacji i dalszej analizy danych.
Co poszło nie do końca idealnie?
- Forma wizualizacji jest nieczytelna – autor użył pionowych pasków, w różnych kolorach (bar stripes) po jednym pasku na każde x-pierwszych słów. Każdy pasek reprezentuje udział poszczególnych języków, z których zostało zapożyczone pierwszych x-słów. Jednak jeśli chcielibyśmy odczytać choćby przybliżone wartości z wykresu – powodzenia.
- Wykres wygląda dość surowo – troszkę tak jakby wyszedł z kreatora lub jako wizualizacja wybrana domyślnie dla takich danych przez program, w którym powstała. Nie ma większego przemyślenia dla użytych kolorów, podstawowa mało atrakcyjna czcionka.
- Tytuł nie interpretuje tego co widzimy na wykresie – to po prostu suchy opis a nie “jedno zdanie, które musisz zapamiętać” nawet jak zapomnisz co było na wykresie. Nie ma żadnych insightów.
- Brakuje źródła, do którego możemy referować – zawsze warto umieszczać źródło danych do wykresu. Pozwala to osobom bardziej analitycznym na samodzielne zgłębianie tematu, mogą wrócić do danych i np. zweryfikować poprawność tezy z wizualizacji.
Oczywiście przedstawiony wykres nie ma jedynie samych wad. Mimo wszystko w bardzo zręczny sposób pokazuje w jednym miejscu bardzo dużo informacji. Widać na nim ogólny trend (spada/rośnie), a czasem nawet taka wiedza jest wystarczająca.
Postanowiłem podjąć się próby naprawienia tego wykresu. Ale zanim zobaczysz jak mi poszło czas na autoreklamę.
Mała przerwa na reklamę:
Jeśli jakimś cudem jeszcze nie zapisałaś/zapisałeś się na moją listę mailową – zrób to od razu! Nie odkładaj tego na później…
Zero spamu, samo mięso, co tydzień coś ciekawego ze świata analizy i wizualizacji danych.
Dziękuję, koniec reklamy 😉
Ratujemy wykresy – wykres po poprawkach
Postanowiłem ograniczyć nieco zakres danych, które zostały użyte na wizualizacji. Nie ma więc na niej 2000 rozkładów (procentowy udział wśród 1 najpopularniejszego słowa, 2 najpopularniejszych słów itd.). Wybrałem kilka punktów, w których sprawdzamy dane i właśnie dla nich liczę procentowe udziały każdej z kategorii. Spójrz jak to wygląda:
Kilka najważniejszych uwag:
- Ograniczam się do rozkładów dla 10, 50, 100, 200, 500, 1000, 1500 oraz 2000 najczęściej występujących słów. Takie dane przekazują tyle samo informacji co pełny rozkład, a jednak są dużo lżejsze w odbiorze,
- Każda z kategorii na każdym słupku ma przypisaną wartość procentową. Kolory w liczbach pozwalają na to, żeby szybko zorientować się jaki jest udział każdego z języków,
- Czcionka, którą użyłem to Aptos Narrow – moim zdaniem wygląda dość atrakcyjnie i obecnie to moja domyślna czcionka, której używam na wizualizacjach (chyba, że wymagana jest inna) a nawet ustawiłem ją jako domyślą w moich mailach,
- Mamy tytuł, który streszcza sens wykresu (2/3 najpopularniejszych angielskich słów ma korzenie germańskie), a nie tylko mówi o tym jakie dane znajdują się poniżej,
- Zrezygnowałem z osi pionowej – wszystkie dane znajdują się obok słupków, więc nie ma potrzeby duplikowania informacji na wykresie, plusem jest większa lekkość wykresu,
- Podałem źródło danych – teraz każda zainteresowana osoba może samodzielnie poeksplorować ten zbiorek danych,
- Małe triki graficzne – dodałem flagę Wielkiej Brytanii, żeby jeszcze lepiej oddać charakterystykę danych i zmieniłem tło ze standardowego białego na nieco bardziej szary/kremowy – zmniejszamy kontrast i wygląda to lepiej.
Tym razem okazuje się, że mniej danych na wykresie oznacza lepszy wykres i większą ilość informacji, którą wyniesie odbiorca. A to przecież dla nich tworzysz wykresy prawda?
Zakończenie
Dzisiejszy krótki wpis udowadnia po raz kolejny, że dobrze przemyślana wizualizacja danych jest równie ważna jak same dane. Możesz mieć mega ciekawy temat (jakie jest pochodzenie słów w języku angielskim) i pokazać go w nietrafiony sposób. Efekt? Twoi odbiorcy nie zainteresują się tematem i nie wyciągną dla siebie żadnych wniosków, nie zapamiętają także głównych tez, które chcesz przekazać.
Jaką mogę dać Ci radę? Mniej danych – mniej chaosu, większe zrozumienie tematu.
Jeśli chcesz pobawić się danymi tak jak ja to poniżej wrzucam link z plikiem Excela, w którym wykonałem wykres po poprawkach. Znajdziesz tam również surowe dane pobrane z Githuba.
== ARKUSZ Z WYKRESEM PO POPRAWKACH ==
Na zakończenie – jeszcze małe przypomnienie. Zapisz się na mój cotygodniowy newsletter – Ci, którzy już to zrobili dostają ciekawe materiały do nauki m.in. wizualizacji danych. Czy ja wspominałem już, że wszystkie źródła, o których tam piszę, są… darmowe, sprawdzone i rzetelnie pokazują tematy?
Do zobaczenia następnym razem!