📊❌ Takich wykresów nie rób (proszę)… (11/2023)
Za oknem piękna pogoda – na szczęście wiosna jest już z nami. Dzisiaj przygotowałem duuużo ciekawego materiału – jestem pewien, że każdy znajdzie tutaj coś dla siebie.
Zaczynamy jednak jak zwykle od spisu treści.
Agenda dzisiejszego maila:
- Jakich wykresów NIE robić – 5 przykładów
- Przegląd narzędzi do ETL
- Zaprzyjaźnij się z uczeniem maszynowym
- Zbiór artykułów o analityce piłkarskiej
- #vizoftheweek – Ile musisz zarabiać żeby kupić dom w USA?
- Jak wznieść SQLa na poziom Data Scientista
- NOWOŚĆ – Problem SQLowy do rozwiązania
- Rozwiązanie zagadki sprzed tygodnia
- Nowy problem na dzisiaj
- Co słychać u mnie?
Jeśli chcesz powrócić do starszych archiwalnych numerów newslettera – poniżej link oraz hasło (ekskluzywny dostęp dla naszej społeczności)
LINK DO BAZY ARCHIWALNYCH NEWSLETTERÓW
1. Jakich wykresów NIE robić – 5 przykładów
Wizualizacja danych to w ostatnich gorący temat. Warto oczywiście uczyć się tego jak pokazywać dane i wykorzystywać wiedzę w praktyce. Ale…. moim zdaniem jeszcze lepiej uczyć się na anty-przykładach. Wtedy można zobaczyć czego na pewno NIE ROBIĆ.
Jako materiał instruktażowy polecam artykuł na blogu Jotform, w którym zaprezentowano 5 przykładów złych, bardzo złych wykresów. Jakie “perełki” tutaj znajdziemy?
- Wykres kolumnowy 3D, na którym nie porównamy danych ze sobą
- Wykres pierścieniowy, który powinien być wykresem słupkowym
- Wykres liniowy używany do pokazania nieciągłych zakresów danych
- Mapę Ameryki służącą za wykres kolumnowy skumulowany
- Mój faworyt – czyli mix wykresu słupkowego z mapą drzewa (patrz niżej – nie mogłem się powstrzymać :))
Warto sprawdzić jak pomysłowi są niektórzy twórcy wizualizacji:
== 5 przykładów złych wizualizacji danych ==
2. Przegląd narzędzi do ETL od Microsoft
ETL to mówiąc ogólnie proces polegający na pozyskaniu danych z jakichś źródeł, dokonaniu na tych danych przekształceń i udostępnieniu ich dalej – np. narzędziom Business Intelligence. Na rynku jest wiele rozwiązań pomagających wykonać taką pracę. Nic dziwnego, że swój kawałek tortu chce tutaj wykroić Microsoft.
W swoich dwóch artykułach na Linkedin, Mateusz Sawicki, inżynier danych, opisuje narzędzia giganta z Redmond dedykowane procesom ETL: PowerQuery, SQL Server Integration Services oraz Azure Data Factory. Warto przeczytać, żeby mieć chociaż ogólne pojęcie o tym co jest teraz “na czasie”. Zwłaszcza, że akurat PowerQuery może być szeroko zastosowany – uruchomimy go zarówno z PowerBI, jak i z Excela.
Link do dwóch artykułów Mateusza na Linkedin (trzeba się zalogować jak coś)
== Narzędzia ETL od Microsoftu cz.1 ==
== Narzędzia ETL od Microsoftu cz.2 ==
3. Zaprzyjaźnij się z uczeniem maszynowym
Jeśli zabawy z SQLem czy PowerBI to dla Ciebie za mało i masz w sobie duszę odkrywcy plus trochę zdolności matematycznych to może warto zagłębić się w świat machine learning?
Nikt nie mówi, że będzie łatwo, ale mam dla Ciebie świetnego przewodnika. Cassie Kozyrkov to Chief Decision Scientist w Google. W serii krótkich kilkuminutowych filmików wprowadza nas powoli w świat uczenia maszynowego – łagodnie, krok po kroku.
Warto obejrzeć chociaż kilka pierwszych nagrań, żeby zorientować się w temacie. A może i Ty zaprzyjaźnisz się z machine learning?
== Making friends with Machine Learning ==
4. Zbiór artykułów o analityce piłkarskiej
Piłka nożna i dane to moim zdaniem świetne połączenie. Jako ex-fan Football Managera od najmłodszych lat wiedziałem, że liczby świetnie uzupełniają i tłumaczą wydarzenia na zielonej murawie. Na szczęście wraz z rozwojem technik zbierania i przetwarzania danych analityka na stałe zagościła w szatniach i na meczach (przeczytaj więcej w moim artykule).
Wiedziałem, że wiele osób zajmuje się danymi sportowymi, ale nie byłem świadom tego, że na ten temat powstają poważne prace naukowe. Jan van Haaren, belgijski entuzjasta danych, na co dzień szef nowych technologii w Club Brugge na swoim blogu zebrał chyba cały materiał jaki przez ostatni rok powstał na temat analityki futbolu.
W podsumowaniu znajdziemy linki do:
- 35 publikacji naukowych np. “Estimating transfer fees of professional footballers using advanced performance metrics and machine learning“
- 56 wpisów na blogach np. “Track Football Players with Computer Vision“
- 15 artykułów z portali internetowych np. “Penalties Are Too Generous a Reward. We Have a Solution… and It Involves Running.“
- 6 podcastów
- 2 książki
- oraz 10 repozytoriów z kodami.
5. #vizoftheweek – ile musisz zarabiać, żeby kupić dom w USA?
Kupno domu to jak świat długi i szeroki ciężka i kosztowna sprawa. Nie inaczej ma się sprawa w USA. Wiadomo też, akurat w tym kraju każdy stan bardzo się od siebie różni, więc różne są też ceny nieruchomości (oczywiście zależy to głównie od lokalizacji i atrakcyjności miasta).
Na wizualizacji portalu Visual Capitalist znajdziemy minimalne roczne wynagrodzenie w różnych częściach USA, które sprawi, że będzie nas stać na spłatę rat kredytu na dom.
Technicznie – mamy tutaj ciekawe połączenie wykresu kolumnowego z wizualizacją mapy. Tym razem wyszło ciekawie i czytelnie.
Tutaj link do całego artykułu na Visual Capitalist:
== The Salary You Need To Buy A Home in USA ==
6. Jak wznieść SQLa na poziom Data Scientista
SQL to język relatywnie łatwy do opanowania w bardzo krótkim czasie. Podstawy opanowujemy bardzo szybko. Oczywiście jeśli chcielibyśmy wejść w niego głębiej to otwieramy wielką skrzynię z milionem niuansów i ciekawostek.
SQL używają praktycznie wszyscy, którzy mają cokolwiek wspólnego z danymi – w szczególności też Data Scientist. W artykule opublikwanym na Medium, Alex Vamvakaris wprowadza nas w świat SQLa właśnie z perspektywy “naukowca od danych”. Może być to ciekawa lektura dla Ciebie, jeśli trochę już ogarniasz SQLa.
Tutaj link do całego artykułu tutaj:
== How to Take Your SQL from zero do Data Scientist Level ==
7. Problem SQLowy do rozwiązania
W poprzednim numerze newslettera zadałem zagadkę SQLową do samodzielnego rozwiązania.
Serdecznie gratuluję Ani, która jako pierwsza podesłała odpowiedź 🙂
Oto i rozwiązanie Ani:
SELECT
EXTRACT(MONTH FROM transaction_date) AS month,
product_name,
SUM(quantity * unit_price) AS total_revenue
FROM sales
WHERE EXTRACT(YEAR FROM transaction_date) = 2023
GROUP BY month, product_name
ORDER BY month, total_revenue DESC;
Pora na zagadkę na najbliższy tydzień:
Załóżmy, że mamy tabelę rentals o takiej liście kolumn:
“rental_id”
“rental_start”
“rental_end”
“car_id”
oraz tabelę cars o liście kolumn:
“car_id”
“car_model”
“daily_rental_price”
Napisz zapytanie, które na poziomie marki samochodu wyliczy:
- ile razy wypożyczano daną markę samochodu w ciągu ostatnich trzech miesięcy
- przychód jaki wygenerowały samochody marki w ostatnim kwartale
- średnią cenę wypożyczenia na daną markę
Raport pokazuje dane malejąco ze względu ma przychód.
Powodzenia!
Odpowiedź w kolejnym newsletterze.
Co słychać u mnie?
- Ponownie słabo idzie z Linkedinem, ale od poniedziałku staram się zewrzeć szyki i rozpocząć tydzień ze złymi wizualizacjami (tak, tak dzisiejszy artykuł z newslettera – widzisz – opłaca się być na mojej liście :)). Przedłużam eksperyment do końca kwietnia. Link do linkedina.
- Skończyłem książkę “Wszyscy kłamią” i chwilowo nie czytam nic – nadeszła chwila na nadrobienie kilku podcastów np. zaczynam słuchać rozmowy Lexa Fridmana z Balaji Srinivasanem – a pogaduchy panów trwały ponad 7 godzin :O
- W tym tygodniu w głośnikach soundtrack z Baldur’s Gate
Na koniec pytanie………
JAK PODOBAŁ CI SIĘ DZISIEJSZY MATERIAŁ?