Jak połączyć tabele w Excelu, SQL, SAS i Python?

Przetwarzanie danych polega na wykonywaniu operacji na wielu tabelach. Czasem usuwamy dane, dodajemy nowe, ale prawdziwą wartość niesie w sobie łączenie informacji pochodzących z różnych źródeł. Dzisiaj podstawy łączenia danych w Excelu, SQL, SAS i Python.

W dzisiejszym artykule pokaże jak w praktyce połączyć ze sobą dwa przykładowe zbiory danych. Dzięki przerobieniu tego materiału będziesz w stanie samodzielnie pozyskać i przetworzyć dane, następnie połączyć informacje w nich zawarte i wykorzystywać do innych celów (w tym do wizualizacji). Zacznę od tematu pobrania danych a następnie pokaże jak połączyć je ze sobą w kilku popularnych narzędziach.

Opowiem m.in. o tym:

  • jak wykorzystać do zadania starego, dobrego Excela i dlaczego nie jest to jednak najlepszy pomysł;
  • dlaczego znając SQL możesz spokojnie pracować w SAS i
  • jaka składnia używana w Python jest wspólna dla kilku narzędzi do przetwarzania danych.

Będzie jak zawsze dużo praktyki, przykładów i “żywe dane” ze swoimi wszystkimi plusami i minusami. Zapraszam dalej.

Przygotowanie danych

Dzisiejsze zadanie nie wymaga skomplikowanej bazy danych. Chodzi bardziej o pokazanie podstaw i tego, jak zabrać się do analizy mając do dyspozycji dane i narzędzie do przetwarzania. Jeśli chodzi o dane, to ich źródeł jest w internecie całe mnóstwo. Zarówno strony rządowe, jak i prywatne udostępniają wielkie zbiory danych całkowicie za darmo. Z jednej strony umożliwia to samodzielną naukę na “żywym organizmie”, z drugiej nieograniczony dostęp do danych może służyć dobru ogółu. Czasem na podstawie zbiorów umieszczonych w sieci, badacze danych są w stanie rozwiązać problem, z którym wcześniej nie można było sobie poradzić.

Na marginesie, jeśli masz chwilę na lekturę, to polecam bardzo ciekawą książkę dotyczącą analizy predykcyjnej, czyli sztuki znajdowania odpowiedzi za pomocą badania danych. Jej autorem jest Eric Siegel – “Prognozuj kto kliknie, kupi, skłamie lub umrze”. Możesz ją kupić na przykład tutaj. Opowiada o rzeczywistych zastosowaniach informacji ukrytych w danych do rozwiązywania problemów codziennych i biznesowych.

Wracając do naszego tematu… Jednym ze źródeł danych do analizy może być na przykład Kaggle.com. Po wejściu na stronie i rejestracji możesz przeglądać, wybierać i korzystać z setek zbiorów danych. Na potrzeby dzisiejszego wpisu wykorzystam bazę danych o atrybutach piłkarzy z gry FIFA19. Baza “waży” około 2 MB i dostępna jest tutaj.

Baza piłkarzy i atrybutów z gry FIFA19 – na kaggle.com

Bazę można ściągnąć w wygodnym w obróbce formacie CSV. Każdy z 18 tysięcy piłkarzy w bazie posiada około 90 atrybutów, czyli wartości opisujących jego wiek, pozycję na boisku, parametry fizyczne, narodowość, potencjał, czy dane o kontrakcie.

Zadaniem na dzisiaj będzie “doklejenie” do bazy jednej nowej kolumny charakteryzującej piłkarza – kontynentu, z którego pochodzi jego kraj. Ponieważ takiej danej nie ma w zbiorze FIFA19, potrzebny nam jeszcze jeden plik zawierający tabelę z nazwami krajów i kontynentami, na których leżą. Można znaleźć podobne tablice w sieci, ale ja “na szybko” zrobiłem swoją. Pobierz ją z tego linku, żeby wykonać ćwiczenie.

Tak mniej więcej wyglądają dane pobrane z Kaggle:

Dane pobrane z Kaggle – zbiór FIFA 19 complete player dataset

A tak tabela z kontynentami i krajami:

Prosta tabelka z nazwą państwa i kontynentu po polsku

Super mamy już dane, więc duża część pracy już za nami. Oczywiście dane, szczególnie w przypadku pliku CSV nie dają się łatwo czytać, ale uwierz mi, że w prosty sposób sprawimy, żeby wyglądały przyjemnie.

Posłużę się do tego celu starym, niezawodnym Excelem. Zaznaczamy całą pierwszą kolumnę (A) i wyszukujemy polecenie Dane -> Tekst jako kolumny. W oknie, które pojawi się klikamy Dalej i wybieramy przecinek (“,“) jako ogranicznik – czyli znak, którym rozdzielone są dane stanowiące kolejne kolumny. Powinno to wyglądać tak:

Dane -> Tekst jako kolumny i Przecinek jako Ogranicznik

Nasze dane wyglądają teraz duuuuużo lepiej. Możemy bez problemu odczytać nazwiska piłkarzy, ich wiek, narodowość i pozostałych 90 indywidualnych atrybutów (jeśli mamy ochotę).

Dane wyglądają teraz zdecydowanie lepiej

Ten krok kończy etap przygotowania danych do ćwiczenia. Teraz będzie już zdecydowanie “z górki”.

Łączymy tabele w Excelu

Jako pierwsze łączenie tabel wykonam za pomocą Excela. Jeśli tabele nie są duże i mają przejrzystą i łatwą w zrozumieniu strukturę to możemy użyć naszego starego, dobrego arkusza kalkulacyjnego. W tym celu najlepiej będzie umieścić zarówno dane o piłkarzach, jak i kontynentach w jednym pliku .xlsx. Na przykład ja do pliku z atrybutami piłkarzy (rozdzielonymi na kolumny) dorzuciłem nowy arkusz o nazwie “kontynenty“, w którym umieściłem słownik kraj – kontynent (pisałem o nim wcześniej). Dlaczego dobrze jest złączyć dane w ramach jednego pliku? Wówczas formuły, których użyjemy będą mniej skomplikowane i nie będzie trudności z odwołaniami przy przenoszeniu pliku na dysku.

Sposobem na złączenie tych dwóch tabel jest (jak pewnie domyślacie się…) użycie kombinacji PODAJ.POZYCJĘ i INDEKS. W szczegółach na temat tych funkcji rozpisywałem się w TYM artykule – sprawdź Trik nr 9.

Zaczynamy od utworzenia nowej kolumny w ramach tabeli z danymi piłkarzy. Możemy nazwać ją na przykład “Kontynent” – ja wstawiłem nową kolumnę pomiędzy “Nationality” oraz “Flag”. W wierszu G2 wstawiam najpierw formułę na wyszukanie nazwy państwa w arkuszu “kontynenty”. Wygląda ona tak:

=PODAJ.POZYCJĘ(F2;kontynenty!A:A;0)

Wynikiem jest numer, pod którym nazwa państwa “Argentina” znajdująca się w komórce F2, leży w arkuszu z nazwami kontynentów. Następnie dokładam funkcję INDEKS, aby wskazać, że interesuje mnie kontynent przypisany do pozycji określonej we wcześniejszym kroku. Ostateczna formuła będzie zatem wyglądać następująco:

=INDEKS(kontynenty!B:B;PODAJ.POZYCJĘ(F2;kontynenty!A:A;0))

Występujące powyżej wykrzykniki po nazwie “kontynenty” wskazują, że napis “kontynenty” jest nazwą arkusza, z którego mają pochodzić wartości. Stosując powyższą formułę dla wszystkich przeszło 18 tysięcy piłkarzy z bazy dostajemy uzupełnioną informację. Efekt końcowy to poniższe przyporządkowanie:

Połączone informacje o piłkarzach i kontynentach, które reprezentują

Co możemy zrobić z taką informacją? Nazwa kontynentu to nasz nowy wymiar danych – czyli taka zmienna po której możemy na przykład grupować wartości poszczególnych atrybutów. Poniżej na przykład wykres rozpiętości potencjałów zawodników (kolumna: Potential ) w zależności od kontynentu, z którego pochodzą – sporządzony na podstawie połączonych tabel.

Gracze z Afryki charakteryzują się najlepszym średnim potencjałem, chociaż to w Europie i Ameryce Południowej odnajdziemy największe “perełki”.

Excel nie jest jednak idealny jeśli chodzi o łączenie danych. Kiedy więc mimo swojej prostoty użycie Excela nie jest najlepszym rozwiązaniem? Po pierwsze wtedy gdy baza danych do łączenia jest duża. W przypadku gdy tabele składają się ze zbyt wielkiej liczby rekordów (powyżej miliona) Excel będzie długo wykonywał złączenie lub nie wczyta wszystkich danych. Uwierzcie, że milion rekordów to bardzo mało przy dzisiejszej ilości danych dotyczących dowolnego zagadnienia. Po drugie Excel słabo obsługuje łączenia typu “1 do wielu”. W rozważanym przez nas przykładzie Rosja jest przypisana do Europy (należy do federacji UEFA). Geograficznie jednak jest to kraj dwóch kontynentów, więc poprawny słownik powinien wyglądać tak:

KrajKontynent
RosjaEuropa
RosjaAzja

Jak wtedy połączy dane Excel? Niestety według pierwszego wystąpienia wartości “Rosja” w słowniku. Zatem przy żadnym rosyjskim piłkarzu nie pojawi się informacja, że pochodzi on z Azji.

Takich problemów nie będzie jednak w przypadku użycia kolejnej fundamentalnej technologii, o której przeczytasz w kolejnym akapicie.

Dołącz do Newslettera
Potwierdzam zapis na listę mailową!!!
Dołącz do listy mailowej ZobaczDane.pl. Dzięki temu od razu dostaniesz informację, gdy na blogu pojawi się nowy artykuł. Dodatkowo co tydzień wyślę Ci zbiór kilku ciekawych linków dotyczących zagadnień ze świata danych.
Nie będę wysyłał Ci żadnego spamu. U mnie masz same konkrety.

Łączymy tabele w SQL

Jedną z prostszych metod na łączenie dwóch lub większej liczby tabel/zbiorów w bazie danych jest używanie zapytań SQL. W tym wpisie nie będę jakoś mocno rozpisywał się na temat podstaw SQL i ogólnych zasadach pisania zapytań. Swoją drogą jeśli chcesz dowiedzieć się więcej na ten temat to napisz do mnie na krzysiek@zobaczdane.pl. Być może warto takie tematy poruszyć na tym blogu, ale muszę mieć od Ciebie sygnał.

Oczywiście skorzystamy z poprzednio przygotowanych w Excelu danych o piłkarzach z gry FIFA 19 oraz o słowniku kraj-kontynent. Aby ćwiczyć SQL możemy używać różnych narzędzi. Jest technologia Microsoft SQL Server, są różnego rodzaju edytory dostępne on-line – przykład: SQLLiteOnline. Moim zdaniem jednak najwygodniejsze będzie oprogramowanie firmy Oracle SQL Developer. Oczywiście jest to kwestia indywidualnego wyboru, ale ja jestem przyzwyczajony do pracy właśnie na tym programie.

Jeśli nie wiesz czym jest SQL Developer i jak go zainstalować u siebie – z pomocą przyjdzie poniższy filmik na Youtube (autor: nieinformatyk).

OK – skoro mamy już narzędzie to pora na import danych do bazy. W tym celu otwieramy naszą przykładową bazę danych (u mnie nazywa się baza_testowa), klikamy prawym klawiszem myszy na sekcję Tables(Filtered) i z menu konteksowego wybieramy opcję Import Data…

Import naszych danych do bazy Oracle

Następnie poleceniem Browse wskazujemy nasz plik – u nas jest to plik .csv z danymi piłkarzy. Dalej “za rączkę” prowadzi nas sam kreator. Wpisujemy nazwę tabeli po zaimportowaniu (Table name), wybieramy, które kolumny chcemy importować. W przypadku naszych czystych danych niestety jest mały problem:

Problem przy imporcie danych do bazy

Problemem, który nie pozwala SQL Developerowi na wykonanie operacji są nazwy kolumn. Niektóre z kolumn posiadają spację w nazwie (np. Preferred Foot) lub “dziwne” znaki (np. ). Kreator pozwala jednak zmienić w locie nazwy kolumn w tym usunąć spacje.

Po szczęśliwym imporcie dane powinny wyglądać następująco:

Dane o atrybutach piłkarzy już zaimportowane do SQL Developera

W podobny sposób możemy zaimportować plik ze słownikiem państw i kontynentów. Struktura danych jest taka, że będziemy chcieli łączyć ze sobą tabela DANE_FIFA oraz CONTINENT przy czym kluczem łączenia będzie kolumna NATIONALITY (z DANE_FIFA) oraz COUNTRY (z tabeli CONTINENT).

Klucz łączenia i nazwy kolumn

Jeśli chcemy “dopisać” informację o kontynencie do tabeli z atrybutami piłkarzy to używamy polecenia LEFT JOIN i wskazujemy klucz łączenia. Kod powinien wyglądać następująco:

SELECT
    fif.name
    ,fif.age
    ,fif.nationality
    ,con.continent
    ,fif.potential
    ,fif.club
FROM    dane_fifa fif
    LEFT JOIN continent con ON (con.country = fif.nationality)
;

Powyżej dla przykładu wypisałem tylko niektóre kolumny ze zbioru z atrybutami piłkarzy (name, age, potential, itd.). Efekt końcowy powinień wyglądać tak:

Złączone dane – do informacji o kraju dodaliśmy nazwę kontynentu.

Z tak utworzoną tabelą możemy zrobić dosłownie wszystko – przykładowo – znaleźć liczbę piłkarzy FC Barcelony w podziale na kontynenty, z których pochodzą:

Piłkarze FC Barcelona w podziale na kontynent, z którego pochodzą

Podsumowując – SQL jest bardzo dobrym narzędziem do łączenia ze sobą informacji zawartych w dwóch lub większej liczbie tabel. Nie ma ograniczeń takich jak Excel związanych z liczbą rekordów, typem łączenia (1 do wielu). Jednym słowem jest narzędziem profesjonalnym. Z drugiej strony nic nie jest w stanie przebić Excela w zakresie wprowadzania danych do narzędzia – pusty Excel można w bardzo łatwy sposób wypełnić danymi.

Teraz pora na kolejne narzędzie, dla którego nie będziemy musieli przeprowadzać żadnej instalacji, ponieważ jest dostępne w całości on-line.

Łączymy tabele w SAS

Środowisko SAS jest mi szczególnie bliskie, ponieważ jest to oprogramowanie, którego używam na co dzień w pracy. Większość analiz, operacji pozwalających przetwarzać dane wykonuję za pomocą SAS Enterprise Guide. Bank oczywiście pracuje na oprogramowaniu objętym licencją, ale jest dobra wiadomość dla osób, które chciałyby się SASa nauczyć zanim będą musiały używać go w pracy. SAS Institute udostępnił możliwość korzystania ze swojego oprogramowania za pomocą przeglądarki internetowej, w chmurze. Nie ma potrzeby instalacji, zamiast tego wystarczy zarejestrować się na stronie SAS Institute i poszukać informacji o SAS On-Demand for Academics – wejdź na ten link, aby dowiedzieć się więcej.

Jeśli masz już konto w SAS to masz także unikatowy numer użytkownika. Po zalogowaniu się za jego pomocą otwieramy SAS Studio – właśnie tam będziemy pisać i wykonywać kod SASowy. W pierwszej kolejności importujemy do chmury nasze pliki wejściowe: z danymi o atrybutach piłkarzy oraz słownik krajów. Aby to zrobić wystarczy na drzewku po lewej stronie ekranu wybrać opcję Pliki – następnie kliknąć na strzałeczkę “do góry” oznaczającą import. W wyświetlonym okienku wybieramy plik do załadowania. Widoczny na ekranie zapis “/home/u50238377” oznacza przypisany do mojego konta obszar roboczy.

Import danych do SAS Studio

Po załadowaniu plików płaskich powinniśmy zaimportować dane do tabel sasowych, aby móc dokonywać na nich operacji. Wykonamy to korzystając z poniższego kodu:

/* --Definiujemy ścieżkę, w której znajdują się pliki po imporcie*/ 
%let sciezka = /home/u50238377;
 
/* --Wczytanie plików .csv i .xlsx do tabel SAS*/
proc import datafile="&sciezka./data.csv" dbms=csv out=dane_fifa replace; delimiter=",";
 
proc import datafile="&sciezka./countries_continents.xlsx" dbms=XLSX out=kontynenty replace;

Za pomocą procedury PROC IMPORT w przypadku pliku .csv wskazaliśmy znak, który oznacza przejście do kolejnej kolumny danych poleceniem delimiter = “,”. Zaimportowane pliki będą teraz funkcjonować w środowisku SAS jako tabele o nazwach dane_fifa oraz kontynenty.

Jedną z wielu pięknych funkcjonalności zaimplementowanych w silniku oprogramowania SAS jest możliwość bardzo prostego stosowania zapytań SQL na tabelach sasowych. Wystarczy zapytanie SQL “obudować” w znaczniki PROC SQL oraz QUIT. Wewnątrz możemy pisać zwykły kod znany pozwalający na złączenie dwóch tabel – wykorzystujący LEFT JOIN. Kod będzie wyglądał następująco:

/* --Złączenie dwóch tabel LEFT JOIN */
proc sql;
create table join1 as
	select
		fifa.*,
		kont.Continent
	from dane_fifa as fifa
		left join kontynenty_1 kont on kont.Country = fifa.Nationality
;
quit;

Efekt jest taki sam, jak ten, który uzyskaliśmy w przypadku łączenia danych w SQL Developer:

Dane połączone za pomocą PROC SQL w SAS Studio

SAS (a dokładnie język SAS 4GL) posiada własną składnię do łączenia danych z różnych źródeł. W tym celu użyjemy instrukcji MERGE.

/* --Drugi sposób - MERGE*/
 
/* ----Zmiana nazwy kolumny, aby można było połączyć*/
data kontynenty2;
set kontynenty;
rename Country = Nationality;
run;
 
/* ----Sortowanie zbiorów według klucza*/
proc sort data=dane_fifa; by Nationality; run;
proc sort data=kontynenty2; by Nationality; run;
 
/* --Łączenie dwóch tabel*/
data join2;
merge dane_fifa kontynenty2; 
by Nationality;
run;

Z uzyskanej w taki sposób tabeli możemy dalej korzystać w pakiecie SAS wykonując takie analizy, jak tylko dusza zapragnie. Dużym plusem SAS jest niewątpliwie możliwość darmowej nauki programowania w SAS 4GL za pomocą narzędzia w przeglądarce – nie ma potrzeby dodatkowej instalacji. Bardzo przydatną opcją edytora SAS jest łatwe “przełączenie się” na język zapytań SQL. Szczególnie użytkownicy, którzy wywodzą się z SQL, a dopiero poznają SAS (jak ja przed kilkoma laty) powinni docenić tą opcję.

Ostatni już dzisiaj sposób łączenia dwóch tabel zaprezentuję na przykładzie Pythona.

Dołącz do Newslettera
Potwierdzam zapis na listę mailową!!!
Dołącz do listy mailowej ZobaczDane.pl. Dzięki temu od razu dostaniesz informację, gdy na blogu pojawi się nowy artykuł. Dodatkowo co tydzień wyślę Ci zbiór kilku ciekawych linków dotyczących zagadnień ze świata danych.
Nie będę wysyłał Ci żadnego spamu. U mnie masz same konkrety.

Łączymy tabele w Pythonie

Python jest językiem programowania, który w ostatnich latach pnie się w górę w rankingach popularności. W tej chwili nie jest jeszcze najczęściej używanym językiem (tutaj króluje Java), ale jest to język, którego planuje się nauczyć większość programistów oraz osób dopiero rozpoczynających przygodę z programowaniem. W tym sensie jest to więc język przyszłości. W wielu dziedzinach jak na przykład data science era Pythona już nadeszła i jego znajomość jest praktycznie niezbędna.

Co czyni język Python tak popularnym? Jest wiele odpowiedzi na to pytanie, jednak najczęściej wskazuje się na łatwość nauczenia się podstaw oraz szerokie wykorzystanie w machine learning, które obecnie jest na topie. Aby zacząć programowanie w Pythonie nie potrzebujemy instalować żadnego programu na naszym komputerze. Istnieje wiele on-linowych edytorów pozwalających na pisanie i kompilowanie kodu z poziomu przeglądarki internetowej. Jedynym z popularnych środowisk, w którym wykonasz kod Python jest Jupyter Notebook. W pełni funkcjonalną wersję demonstracyjną edytora znajdziesz tutaj.

Po przejściu na stronę Project Jupyter wybieramy opcję Try JupyterLab. Po kilku chwilach zostaje dla nas wygenerowane środowisko, w którym możemy łatwo pisać kolejne linijki kodu. Uruchamiamy notatnik w formacie Python 3 oraz importujemy nasze pliki z danymi o graczach i kontynentach za pomocą przycisku strzałki do góry. PS. Okazało się, że na potrzeby tej wersji Jupytera musiałem zmienić format importowanego pliku countries_continents na .csv. Nowy plik znajdziesz tutaj.

Uruchomienie nowego notatnika i import danych do JupyterLab

Po pomyślnym załadowaniu plików przystępujemy do pisania kodu. Poniżej kod wraz z komentarzami. Do połączenia danych będziemy używać biblioteki pandas. Oprócz narzędzi typu MERGE posiada ona przyjazne opcje pozwalające na ładowanie do programu arkuszy excelowych.

#Łączenie dwóch tabel za pomocą MERGE w Python
 
#--Załadowanie pakietu pandas
import pandas as pd
 
#--Import danych z plików csv i xlsx
dane_fifa = pd.read_csv("data.csv")
kontynenty = pd.read_csv("countries_continents.csv", delimiter=";")
 
#--Złączenie za pomocą MERGE
dane_zlaczone = dane_fifa.merge(kontynenty, left_on = 'Nationality', right_on = 'Country')
 
#--Sortowanie malejące ze względu na ocenę ogólną
dane_zlaczone = dane_zlaczone.sort_values(by='Overall', ascending = False)
 
#--Wyświetl pierwsze wiersze
dane_zlaczone.head(5)

Ok – udało się połączyć dane i naszym oczom ukazuje się pierwszych pięć wierszy połączonego zbioru danych.

DataFrame po złączeniu danych w Python

Wygenerowany w ten sposób zbiór stanowi pierwszy krok do większej analizy. Przykładowo jeśli chcemy dowiedzieć się jaka jest średnia wieku piłkarzy z bazy w podziale na kontynenty, możemy łatwo sprawdzić to wykonując poniższy kod:

#Analiza - średnia wieku w podziale na kontynenty:
 
sredni_wiek = dane_zlaczone[['Age', 'Continent']] #wycinek zbioru
sredni_wiek = sredni_wiek.groupby('Continent').mean().sort_values(by="Age", ascending=False) #grupowanie po kontynentach 
print(sredni_wiek)

Wyniki analizy:

Średnio najstarsi piłkarze z bazy urodzili się w Ameryce Południowej

Warto dobrze poznać Pythona, szczególnie bibliotekę służącą do przetwarzania danych – czyli pandas. Pełną dokumentację pakietu pandas znajdziesz na jego oficjalnej witrynie – tutaj. Tak jak wspominałem wcześniej znajomość Pythona może zaprocentować w przyszłości, zwłaszcza jeśli myślisz o związaniu swojej kariery zawodowej z tematami data science, uczenia maszynowego. Wówczas jeden z dwóch programów będzie Twoim chlebem powszednim: Python lub R.

Podsumowanie

W tym nieco dłuższym wpisie pokazałem, że do prostego problemu, jakim jest połączenie danych z dwóch tabelek można podejść na kilka sposobów. Każdy z zaprezentowanych dzisiaj sposobów pozwala na uzyskanie satysfakcjonujących wyników. To, którą metodę zastosujemy zależy oczywiście od znajomości oprogramowania i celu, w jakim wykonujemy złączenie. Jeśli połączone dane nie będą zanadto przetwarzane i mają prostą strukturę, to może wystarczy uruchomić Excela. Jeśli jednak łączenie jest trudniejsze, bez SQLa lub SASa może się nie obyć. W przypadku, gdy złączenie tabelek jest tylko drobnym zadaniem w większej całości, również środowisko Pythona oferuje łatwy sposób na połączenie ze sobą danych.

Dzięki za uwagę i do zobaczenia niedługo przy okazji nowego wpisu. Jeśli dzisiejszy artykuł spodobał Ci się, to proszę zapisz się na listę mailową, aby otrzymywać powiadomienia o nowych wpisach.

Dołącz do Newslettera
Potwierdzam zapis na listę mailową!!!
Dołącz do listy mailowej ZobaczDane.pl. Dzięki temu od razu dostaniesz informację, gdy na blogu pojawi się nowy artykuł. Dodatkowo co tydzień wyślę Ci zbiór kilku ciekawych linków dotyczących zagadnień ze świata danych.
Nie będę wysyłał Ci żadnego spamu. U mnie masz same konkrety.

Zbiór linków

1 == Książka o analizie predykcyjnej – “Prognozuj kto kliknie, kupi, skłamie lub umrze. Wprowadzenie do analizy prognostycznej.” Eric Siegel – link
2 == Serwis z danymi do ćwiczeń – Kaggle.com – link
3 == Baza danych o atrybutach graczy FIFA 2019link
4 == Wpis dotyczący przydatnych trików w Excelu link
5 == Słownik kraj-kontynent (countries_continents.xlsx – link, countries_continents.csv – link)
6 == Pobieranie Microsoft SQL Serverlink
7 == Edytor SQL w przeglądarce internetowej SQLLite link
8 == SQL Developer – pobieranie ze strony Oraclelink
9 == Jak zainstalować SQL Developer oraz bazę danych Oraclelink
10 == SAS Institute – darmowe oprogramowanie SAS do treningulink
11 == Jupyter Notebook bez instalacji – wersja do ćwiczeńlink
12 == Pełna dokumentacja pakietu pandaslink.

Może Ci się spodobać...

3 komentarze

  1. Bardzo fajny artykuł 😊 👏.

    Z książek o predykcjach to czytam teraz Czarnego Łabędzia Nassima Nicholasa Taleb. Strasznie trudna książka do zrozumienia, jednak po przeczytaniu jej więcej się nauczyłem w ogóle o samej idei prognozowania czegokolwiek.

    Fajnie że napisałeś o Pythonie. Z biblioteką Pandas już coś przerabiałem ale niewiele. Jakbyś mógł napisać z kolei co to jest SAS, jak rozumieć ten termin i czym się on różni od SQL to byłbym wdzięczny.

    Czekam na następny twój artykuł. A może będzie o zaawansowanym SQL, kto wie 😉.

    Hej 👋.

    1. Mateusz – Czarny Łabędź to zdecydowanie trudna i wymagająca książka, ale warto. Zmienia nieco pogląd na świat, daje do myślenia.
      Odpowiadając na Twoje pytania – SAS to oprogramowanie głównie do działań statystycznych, ale również do przetwarzania danych. Można powiedzieć, że to jeden z konkurentów Pythona.
      Więcej na ten temat napiszę w kolejnym artykule – premiera już w poniedziałek.
      O bardziej zaawansowanym SQL też mam w planach napisać – chodzi mi już po głowie fajna idea 🙂
      Pozdrawiam 😀

      1. Aha, czyli SASu używa się pewnie głównie w firmach. Czyli jest to taki framework/program do przetwarzania danych. Coś innego niż Python i jego biblioteki ale cel ten sam. Dobrze rozumuje?

        Czarny Łabędź to jak na razie jedna z najtrudniejszych książek jakie czytałem. Prześcigają tą książkę tylko książki filozoficzne które czytałem. Dużo w niej terminów które dobrze jest znać przed czytaniem tej książki.

        Mogę się zapisać do twojego newslettera. Będę wiedział kiedy artykuł o SQL się pojawi.

        Hej.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *