Systemy do magazynowania danych przeszły długą drogę – od wyspecjalizowanych hurtowni z zaczepionym modelem „schema-on-write”, przez surowe jeziora danych, aż po hybrydowe lakehouse’y, które łączą oba światy. Poniższy przegląd opiera się na trzech kluczowych etapach rozwoju: latach 80' XX wieku, 2011 i 2020.
Lata 80' XX wieku – Hurtownia danych
Pierwsze hurtownie skupiały się na hurtowym przetwarzaniu ustrukturyzowanych źródeł (głównie relacyjnych baz OLTP).
-
Architektura
- Źródła: bazy transakcyjne
- Proces: ETL (Extract → Transform → Load)
- Magazyn: relacyjna hurtownia danych
- Konsumpcja: raporty i systemy BI (OLAP)
-
Zalety
- Wysoka jakość i spójność danych (ACID)
- Szybkie, optymalizowane zapytania analityczne
- Dojrzałe narzędzia ETL, BI i modelowania biznesowego
-
Wady
- Długi czas wdrożenia nowych źródeł
- Wysokie koszty utrzymania sztywnych schematów
- Ograniczona skala dla różnorodnych i pół-/niestrukturalnych danych
Rok 2011 – Jezioro danych
Wraz ze wzrostem wolumenów i różnorodności źródeł powstały jeziora danych, pozwalające na tanie przechowywanie wszystkiego „tak jak jest”.
-
Architektura
- Źródła: pliki (CSV, JSON), multimedia (wideo, audio), bazy NoSQL, obrazy
- Proces: ELT (Extract → Load → Transform) – najpierw dump do jeziora, transformacje w locie
- Magazyn: rozproszony system plików (HDFS, S3 itp.)
- Konsumpcja: eksploracja ad hoc, data science, streaming, ML
-
Zalety
- Maksymalna elastyczność – brak sztywnych schematów na wejściu
- Możliwość przechowywania surowych danych dowolnego typu
- Niskie koszty składowania w chłodnych warstwach
-
Wady
- Ryzyko „jeziora błota” – chaos w surowych zbiorach
- Brak natywnej kontroli jakości i ACID
- Wolniejsze zapytania analityczne bez optymalizacji
Lata 2020 – Jezioro-hurtownia danych (Data Lakehouse)
Lakehouse to nowoczesna hybryda: wspólna platforma z kontrolą metadanych, transakcyjnością i elastycznością jeziora.
-
Architektura
- Źródła: jak w jeziorze danych
- Warstwa metadanych i zarządzania (katalog, ACID, wersjonowanie)
- Procesy ELT/ELT zintegrowane z metadanymi
- Magazyn: rozproszony system plików z warstwą transakcyjną (Delta Lake, Iceberg, Hudi)
- Konsumpcja: jednoczesne obciążenia OLAP, BI, ML i AI
-
Zalety
- Spójność i transakcyjność (ACID) nad surowymi danymi
- Wsparcie zarówno klasycznej hurtowni, jak i data science w jednym repozytorium
- Lepsza kontrola dostępu, jakość i audyt danych
- Optymalizacja kosztów przez warstwowanie gorącej i zimnej pamięci
-
Wady
- Wciąż rosnący ekosystem narzędzi i standardów
- Potencjalna złożoność wdrożenia i zarządzania klastrem
- Wymaga dojrzałego podejścia do metadanych i orkiestracji
Wykorzystanie w AI
-
Hurtownia danych dostarcza czyste, ustrukturyzowane historie transakcji pod predictive analytics.
-
Jezioro danych gromadzi ogromne, surowe zbiory (obrazy, logi, sensory) do trenowania głębokich sieci neuronowych.
-
Lakehouse oferuje jedno środowisko:
- zintegrowane repozytorium treningowe
- kontrolę wersji danych (reproducibility)
- możliwość inferencji i retrainingu w czasie rzeczywistym
Podsumowanie
Ewolucja od hurtowni przez jezioro do jeziora-hurtowni odzwierciedla rosnące potrzeby organizacji: od stabilnych raportów, przez elastyczną eksplorację, aż po zaawansowane AI na nieograniczonych zasobach danych. Wybór architektury powinien uwzględniać skalę danych, potrzeby analityczne oraz dojrzałość procesów zarządzania metadanymi.