Newsletter 09/2023 10.03.2023

📚 Książki dla miłośników danych (09/2023)

To kolejne wydanie newslettera poświęconego najciekawszym tematom związanym z analizą i wizualizacją danych. Dzisiaj będzie coś dla moli książkowych, miłośników SQLa ale także fanów piłki nożnej.

Zaczynamy jednak jak zwykle od spisu treści.

Agenda dzisiejszego maila:

  1. Książki dla miłośników danych
  2. Excel jako narzędzie do dashboardów
  3. Cztery kroki do projektowania modelu danych
  4. #vizoftheweek – Najlepsi strzelcy w historii piłki nożnej
  5. Grupa Linkedin dla zainteresowanych PowerBI
  6. NOWOŚĆ – Problem SQLowy do rozwiązania
  7. Co słychać u mnie?

Jeśli chcesz powrócić do starszych archiwalnych numerów newslettera – poniżej link oraz hasło (ekskluzywny dostęp dla naszej społeczności)

LINK DO BAZY ARCHIWALNYCH NEWSLETTERÓW (Hasło: DZIK)


 

1. Książki dla miłośników danych

W zeszłym tygodniu za pośrednictwem wpisu na Linkedin poprosiłem o polecenie książek związanych z danymi:

Odzew był dość spory. Postanowiłem uporządkować propozycje pojawiające się w komentarzach, tak, żeby można było łatwo z nich skorzystać.

DATA VIZ:

  • Storytelling with data – Cole Nussbaumer Knaflic
  • Podstawy wizualizacji danych – Claus O. Wilke
  • Sprawlball: A Visual Tour of the New Era of the NBA – Kirk Goldsberry
  • Show Me the Numbers: Designing Tables and Graphs to Enlighten – Stephen Few

DATA SCIENCE:

  • Interpretable Machine Learning: A Guide for Making Black Box ModelsExplainable –  Christoph Molnar
  • Python. Uczenie maszynowe – Sebastian Raschka

DATA ENGINEERING:

  • Star Schema the Complete Reference – Christopher Adamson
  • Fundamentals of Data Engineering – Joe Reis, Matt Housley

DAX:

  • The Definitive Guide to DAX: Business Intelligence with Microsoft Excel, SQL Server Analysis Services, and Power BI – Alberto Ferrari, Marco Russo
  • Extreme DAX: Take your Power BI and Microsoft data analytics skills to the next level – Michiel Rozema, Henk Vlootman

Python:

  • Programista Samouk. Profesjonalny przewodnik do samodzielnej nauki kodowania – C. Althoff
  • Automatyzacja nudnych zadań z Pythonem – A. Sweigart

Fajne lektury – na moją listę TO READ trafiły dwie z nich.
A Ty jakie książki możesz polecić ze swojego doświadczenia?

PS. Nie zamieszczam linków do książek – spokojnie można sobie je wyszukać na Amazonie lub Helionie 🙂



2. Excel jako narzędzie do dashboardów

Czy można robić w Excelu profesjonalne raporty i dashboardy wyglądające tak profesjonalnie jakby wyszły z Power BI lub Tableau? Oczywiście.

Jeśli wniesiemy się na wyżyny możliwości Excela to przy odrobinie wprawy, wizji oraz cierpliwości jesteśmy w stanie zrobić piękny interaktywny dashboard. Nie jest to może rozwiązanie aż tak proste jak wyklikanie wszystkiego w Power BI. ale…. za to dostępne dla dosłownie każdego użytkownika Excela.

Prezentacja możliwości starego poczciwego arkusza kalkulacyjnego w artykule Josha Cottrell-Schloemera i na poniższym obrazku:


Polecam – link do artykułu poniżej:
== I bet you didn’t know that Excel could do this ==



3. Cztery kroki do projektowania modelu danych

Pora na krótki, ale bardzo treściwy i ciekawy artykuł z obszaru data engineering. Konkretnie cztery lekcje legendarnego Kimballa dotyczące budowania modelu danych.

  1. Wybór procesu biznesowego
  2. Dobranie granularności danych
  3. Określenie wymiarów
  4. Określenie faktów

Wszystko w formie łatwej do ogarnięcia dla zaczynających swoją przygodę.

Artykuł Justina Ghavami znajdziesz tutaj:

== Data Engineer Must: Kimball’s 4-Step Dimensional Design Process ==



4. #vizoftheweek – Najlepsi strzelcy w historii piłki nożnej

Interaktywne wykresy to to co tygrysy lubią najbardziej. A gdy dotyczą tak istotnego tematu jak największe gwiazdy piłki nożnej, to nie sposób przejść obok nich obojętnie.

W dzisiejszym newsletterze chciałem pokazać bardzo fajny wykres prezentujący ile bramek zdobyli poszczególni zawodnicy w swojej karierze. Na osi X-ów możemy wybierać wymiar taki jak wiek, minuty na boisku czy liczba meczów.

Dzięki temu, że wszystkie linie startują w tym samym miejscu możemy zauważyć ciekawe fakty np.

  • Messi ma szansę znacząco przebić Cristiano w liczbie goli jeśli pogra jeszcze kilka lat
  • Mbappe jeśli nie zgubi formy, może zostać najlepszym strzelcem w historii futbolu
  • Haaland ma 1,19 gola strzelonego na mecz…
Wizualizację Josha Murdocha obejrzysz i wyklikasz pod tym linkiem:

 



5. Grupa Linkedin dla zainteresowanych PowerBI

Do tej pory Grupy w mediach społecznościowych kojarzyły mi się raczej z Facebookiem, gdzie rzeczywiście jest ich bardzo dużo. Ostatnio dostałem zaproszenie do Grupy na Linkedinie.

Jej tematyka jest związana z PowerBI. Grupę prowadzi Mateusz Wiatr, który zajmuje się analityką biznesową w ING Hubs. Muszę przyznać, że chociaż artykuły publikuje na razie sam Mateusz i nie pojawiają się codziennie, to można się z nich dowiedzieć sporo interesujących rzeczy.

W dniu kiedy piszę te słowa na przykład dowiaduję się, że osoby chcące podejść do egzaminu PL-300 Power BI Data Analyst mogą sobie przeprowadzić próbny darmowy test. Super.

Jeśli ktoś nie siedzi stale w tematach PowerBI a chciałby być z nimi w miarę na bieżąco – to polecam zapisanie się do grupy Power BI Polska – analiza i wizualizacja danych.

Tutaj link do grupy:
== Power BI Polska – analiza i wizualizacja danych ==



6. Problem SQLowy do rozwiązania

W dzisiejszym newsletterze chciałbym pokusić się o małą nowość. Wiadomo, że dobra znajomość SQLa to podstawa w świecie danych. Dlatego też chciałbym pomóc Ci w nauce w pewien nietypowy sposób.

W najbliższych tygodniach będę publikować po jednym zadaniu SQLowym do samodzielnego rozwiązania. Jedyne co musisz zrobić, to…. spróbować je rozwiązać i odpisać na tego maila z gotowym kodem. Tylko tyle i aż tyle. Zadania będą miały zróżnicowany poziom – raz będą trudniejsze, raz prostsze.

ZADANIE NA DZISIAJ:
Załóżmy, że mamy dwie tabele:

orders

  • order_id (integer)
  • customer_id (integer)
  • order_date (date)

oraz tabelę order_items

  • order_id (integer)
  • product_id (integer)
  • quantity (integer)
  • unit_price (float)

Napisz zapytanie znajdujące 5 najlepszych klientów (według wielkości przychodu), którzy złożyli swoje zamówienie w lutym 2023.

Wynikowa tabela powinna zawierać jedynie kolumny:

  • customer_id
  • total_revenue

przy czym kolumna “total_revenue” powinna być liczona jako suma przychodów ze wszystkich zamówień klienta w lutym 2023. Przychody liczymy jako iloczyn kolumn quantity oraz unit_price z tabeli order_items.

Powodzenia!
Odpowiedź w kolejnym newsletterze.



 

Co słychać u mnie? 

  • Kontynuuję publikację na Linkedin – niestety ostatnio nie udaje się publikować jednego wpisu dziennie, ani nie udało się rozruszać Twittera. Mój eksperyment planuję ciągnąć jeszcze przez miesiąc – potem przyjdzie czas podsumowania – link do mojego Linkedina.
  • Skończyłem książkę “Koniec końca historii” Jacka Bartosiaka
  • Jestem w połowie słuchania nowej książki: Wszyscy kłamią” Setha Stevens-Davidowitza – jak na razie ciekawa
  • W tym tygodniu w głośnikach soundtrack z Fallout