Podstawy NumPy - przewodnik od zera do operacji na tablicach

NumPy (Numerical Python) to fundament naukowych i analitycznych obliczeń w Pythonie, bez którego trudno wyobrazić sobie współczesną pracę z danymi liczbowymi. Jego wydajność i prostota sprawiają, że jest niezbędny dla każdego, kto pracuje z danymi liczbowymi – od analityków danych, przez naukowców, po inżynierów uczenia maszynowego. NumPy dostarcza potężną strukturę danych w postaci tablic wielowymiarowych oraz bogaty zestaw funkcji matematycznych, które są zoptymalizowane pod kątem wydajności dzięki implementacji w języku C. Poniższy przewodnik wprowadzi Cię w świat tablic NumPy, operacji wektorowych, zaawansowanych funkcji matematycznych i pokaże, jak efektywnie przetwarzać duże zbiory danych numerycznych.

Obraz główny Podstawy NumPy - przewodnik od zupełnych podstaw

Dlaczego NumPy?

NumPy to coś więcej niż tylko biblioteka do pracy z tablicami – to fundament całego ekosystemu naukowego Pythona. Trzy główne powody, dla których NumPy jest niezbędny w każdym projekcie związanym z danymi numerycznymi to wydajność, uniwersalność i optymalizacja pamięci. Operacje na tablicach NumPy są nawet 100x szybsze niż na standardowych listach Pythona dzięki optymalizacji w języku C oraz implementacji algorytmów wykorzystujących SIMD (Single Instruction, Multiple Data) procesorów. Biblioteka integruje się bezproblemowo z Pandas, SciPy, Scikit-learn, TensorFlow i innymi narzędziami, stanowiąc ich fundament. Dodatkowo tablice NumPy zajmują znacznie mniej pamięci niż listy Pythona, ponieważ przechowują dane w ciągłych blokach pamięci zamiast rozproszonych obiektów Python.

Poniższy przykład praktycznie pokazuje różnicę w wydajności między standardowymi listami Pythona a tablicami NumPy:

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
import numpy as np
import time

# Lista Pythona
py_list = list(range(1_000_000))
start = time.time()
result = [x ** 2 for x in py_list]
print("Python list:", time.time() - start)# ~0.15s

# Tablica NumPy
np_array = np.arange(1_000_000)
start = time.time()
result = np_array ** 2
print("NumPy array:", time.time() - start)# ~0.002s

Jak widać, operacja potęgowania na milionie elementów jest wykonana około 75 razy szybciej przy użyciu NumPy. Ta różnica rośnie jeszcze bardziej przy bardziej złożonych operacjach matematycznych, co czyni NumPy niezastąpionym narzędziem w analizie dużych zbiorów danych.

Instalacja i pierwsze kroki

Zanim zaczniesz korzystać z NumPy, musisz go zainstalować. Najprostszym sposobem jest użycie menedżera pakietów pip:

Bash
1
pip install numpy

Dla użytkowników Anaconda lub Miniconda, NumPy jest już zainstalowany domyślnie. Po instalacji możesz zaimportować bibliotekę do swojego skryptu:

Python
1
import numpy as np

Konwencja import numpy as np jest szeroko przyjęta w społeczności Pythona i pozwala na krótsze wywołania funkcji. Tworzenie pierwszej tablicy:

Python
1
2
arr = np.array([1, 2, 3, 4, 5])
print(arr)# [1 2 3 4 5]

Funkcja np.array() konwertuje listy Pythona na tablice NumPy, co jest punktem startowym do większości operacji na danych numerycznych.

Indeksowanie i cięcie tablic

Indeksowanie w NumPy działa podobnie jak w listach Pythona, ale oferuje znacznie więcej możliwości dzięki obsłudze wielu wymiarów i zaawansowanym technikom selekcji danych. Podstawowe indeksowanie pozwala na dostęp do pojedynczych elementów:

Python
1
2
3
arr = np.array([10, 20, 30, 40, 50])
print(arr[0])# 10
print(arr[1:4])# [20, 30, 40]

Cięcie tablic (slicing) działa tak samo jak w listach Pythona, ale z dodatkowymi możliwościami. W przypadku tablic dwuwymiarowych (macierzy), indeksowanie staje się bardziej zaawansowane:

Python
1
2
3
matrix = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(matrix[1, 2]) # 6 (drugi wiersz, trzecia kolumna)
print(matrix[:, 1]) # [2, 5, 8] (druga kolumna ze wszystkich wierszy)

Składnia matrix[:, 1] oznacza "wszystkie wiersze (:), kolumna o indeksie 1". To bardzo potężna funkcjonalność, która pozwala na łatwe wyodrębnianie kolumn, wierszy czy podmacierzy bez pisania pętli. Warunkowe indeksowanie (boolean indexing) to jedna z najbardziej użytecznych funkcji NumPy:

Python
1
2
arr = np.array([5, 12, 8, 3, 15])
print(arr[arr > 10])# [12, 15]

Zamiast pisać pętlę, która sprawdza każdy element, możemy użyć wyrażenia warunkowego bezpośrednio jako indeksu. NumPy automatycznie zwróci tylko te elementy, dla których warunek jest prawdziwy.

Przekształcanie tablic

Przekształcanie kształtu tablic jest częstą operacją podczas pracy z danymi, szczególnie w uczeniu maszynowym i analizie danych. NumPy oferuje kilka metod do manipulowania kształtem tablic bez zmiany danych. Zmiana kształtu tablicy jest możliwa dzięki metodzie reshape():

Python
1
2
3
4
5
6
7
arr = np.arange(1, 7)# [1, 2, 3, 4, 5, 6]
matrix = arr.reshape(2, 3)
"""
Wynik:
[[1 2 3]
 [4 5 6]]
"""

Ważne jest, aby całkowita liczba elementów pozostała taka sama – nie można przekształcić tablicy 6 elementów w macierz 2x4. Spłaszczanie tablicy konwertuje wielowymiarową tablicę z powrotem do jednego wymiaru:

Python
1
matrix.flatten()# [1, 2, 3, 4, 5, 6]

Alternatywnie możesz użyć metody ravel(), która zwraca widok (view) zamiast kopii, co jest bardziej efektywne pamięciowo dla dużych tablic. Transpozycja macierzy zamienia wiersze z kolumnami:

Python
1
2
3
4
5
6
matrix.T
"""
[[1 4]
 [2 5]
 [3 6]]
"""

Transpozycja jest szczególnie przydatna w algebrze liniowej i podczas przygotowywania danych do analizy, gdy trzeba zmienić orientację danych.

Operacje matematyczne

NumPy oferuje szeroki zakres operacji matematycznych, które działają element po elemencie na całych tablicach jednocześnie. Broadcasting to mechanizm, który pozwala na wykonywanie operacji na tablicach o różnych rozmiarach bez jawnego rozszerzania ich do tego samego kształtu:

Python
1
2
3
arr = np.array([1, 2, 3])
print(arr * 5) # [5, 10, 15]
print(arr + [0.5]) # [1.5, 2.5, 3.5] (automatyczne rozszerzenie)

Broadcasting automatycznie rozszerza mniejszą tablicę, aby pasowała do większej, co eliminuje potrzebę pisania pętli. To nie tylko upraszcza kod, ale również znacznie przyspiesza obliczenia. Funkcje uniwersalne (ufuncs) to kolejna potężna funkcjonalność NumPy:

Python
1
2
3
4
arr = np.array([1, 2, 3])
np.sqrt(arr)# [1., 1.41421356, 1.73205081]
np.sin(arr) # [0.84147098, 0.90929743, 0.14112001]
np.log(arr) # [0., 0.69314718, 1.09861229]

Funkcje uniwersalne są zoptymalizowane w C i działają element po elemencie na całej tablicy jednocześnie. NumPy oferuje setki takich funkcji, od podstawowych operacji arytmetycznych po zaawansowane funkcje matematyczne, statystyczne i trygonometryczne.

Statystyka i algebra liniowa

NumPy zawiera bogaty zestaw funkcji statystycznych i operacji algebry liniowej, które są niezbędne w analizie danych i uczeniu maszynowym. Podstawowe statystyki można obliczyć za pomocą dedykowanych funkcji:

Python
1
2
3
4
data = np.array([2, 4, 6, 8])
print("Średnia:", np.mean(data))# 5.0
print("Odchylenie standardowe:", np.std(data))# 2.236
print("Wariancja:", np.var(data)) # 5.0

Te funkcje działają na całych tablicach jednocześnie i są zoptymalizowane pod kątem wydajności. Dla tablic wielowymiarowych możesz określić oś (axis), wzdłuż której mają być wykonywane obliczenia, co pozwala na obliczanie statystyk dla każdego wiersza lub kolumny osobno. Mnożenie macierzy jest jedną z podstawowych operacji w algebrze liniowej:

Python
1
2
3
4
5
6
7
a = np.array([[1, 2], [3, 4]])
b = np.array([[5, 6], [7, 8]])
print(np.dot(a, b))
"""
[[19 22]
 [43 50]]
"""

Funkcja np.dot() wykonuje mnożenie macierzy zgodnie z regułami algebry liniowej. Alternatywnie możesz użyć operatora @ (dostępny od Pythona 3.5): a @ b. NumPy oferuje również funkcje takie jak np.linalg.inv() (macierz odwrotna), np.linalg.det() (wyznacznik), np.linalg.eig() (wartości własne) i wiele innych.

Zapisywanie i wczytywanie danych

NumPy oferuje kilka metod zapisywania i wczytywania danych, które są zoptymalizowane pod kątem szybkości i efektywności pamięciowej. Format .npy to natywny format NumPy, który zachowuje wszystkie informacje o typie danych i kształcie tablicy:

Python
1
2
arr = np.arange(10)
np.save('moje_dane.npy', arr)

Pliki .npy są bardzo szybkie w zapisie i odczycie, ponieważ są zoptymalizowane specjalnie dla tablic NumPy. Wczytywanie danych z pliku .npy:

Python
1
loaded_arr = np.load('moje_dane.npy')

Funkcja np.load() automatycznie odtwarza typ danych i kształt tablicy. Dla większej liczby tablic można użyć formatu .npz, który zapisuje kilka tablic w jednym pliku. Eksport do CSV jest przydatny, gdy potrzebujesz współpracować z innymi narzędziami:

Python
1
np.savetxt('dane.csv', arr, delimiter=',')

Funkcja np.savetxt() pozwala na eksport tablic do formatów tekstowych, które mogą być odczytane przez Excel, Pandas czy inne narzędzia. Odpowiednia funkcja do wczytywania to np.loadtxt() lub np.genfromtxt() dla bardziej zaawansowanych opcji parsowania.

Case study: Analiza wyników egzaminów

Praktyczny przykład pokazuje, jak NumPy może być użyty do analizy rzeczywistych danych. Załóżmy, że mamy wyniki egzaminów i chcemy przeprowadzić podstawową analizę statystyczną:

Python
1
2
3
4
5
6
7
8
9
10
wyniki = np.array([68, 75, 82, 90, 77, 84, 91, 62, 79, 85])

# Filtruj wyniki powyżej średniej
srednia = np.mean(wyniki)
lepsze_wyniki = wyniki[wyniki > srednia]
print(f"Liczba osób powyżej średniej ({srednia:.1f}): {len(lepsze_wyniki)}")

# Normalizacja do skali 0-100
znormalizowane = (wyniki - np.min(wyniki)) / (np.max(wyniki) - np.min(wyniki)) * 100
print("Znormalizowane wyniki:", znormalizowane)

W tym przykładzie używamy warunkowego indeksowania do filtrowania wyników, funkcji statystycznych do obliczania średniej oraz operacji matematycznych do normalizacji danych. Normalizacja jest często potrzebna w uczeniu maszynowym, aby wszystkie cechy były w podobnym zakresie wartości. NumPy pozwala na wykonanie tych operacji w zaledwie kilku linijkach kodu, bez konieczności pisania pętli czy złożonych funkcji pomocniczych.

Podsumowanie

NumPy to niezwykle potężne narzędzie, które rewolucjonizuje pracę z danymi numerycznymi w Pythonie. Dzięki opanowaniu podstawowych operacji na tablicach, funkcji matematycznych i technik indeksowania, zyskujesz możliwość efektywnej analizy dużych zbiorów danych. Kluczowe korzyści to optymalizacja pamięci (tablice NumPy zajmują nawet 4x mniej miejsca niż listy Pythona), szybkość wykonywania operacji wektorowych (które pozwalają uniknąć powolnych pętli) oraz pełna integracja z ekosystemem naukowym Pythona (NumPy stanowi podstawę dla bibliotek typu Pandas, TensorFlow, PyTorch czy Scikit-learn).

Aby pogłębić wiedzę, warto eksperymentować z rzeczywistymi danymi i odkrywać zaawansowane funkcje takie jak broadcasting, maskowanie, operacje na tensorach wyższych wymiarów czy optymalizacja pamięci poprzez używanie widoków zamiast kopii. NumPy jest fundamentem, na którym buduje się bardziej zaawansowane narzędzia, więc solidne zrozumienie jego podstaw jest inwestycją w przyszłość każdej pracy z danymi numerycznymi.

Rozwiązania

Wsparcie zespołu

Nauka

Wiedza

Podstawy NumPy - przewodnik od zupełnych podstaw