dr inż. Michał Malinowski

bazy grafowe, sztuczna inteligencja, cyberbezpieczeństwo

Data Warehouse, Data Lake i Data Lakehouse


Zarządzanie dużymi zbiorami danych


July 25, 2025

[Picture]
Architektura Data Warehouse, Data Lake i Data Lakehouse
Systemy do magazynowania danych przeszły długą drogę – od wyspecjalizowanych hurtowni z zaczepionym modelem „schema-on-write”, przez surowe jeziora danych, aż po hybrydowe lakehouse’y, które łączą oba światy. Poniższy przegląd opiera się na trzech kluczowych etapach rozwoju: latach 80' XX wieku, 2011 i 2020. 

Lata 80' XX wieku – Hurtownia danych

Pierwsze hurtownie skupiały się na hurtowym przetwarzaniu ustrukturyzowanych źródeł (głównie relacyjnych baz OLTP). 
  • Architektura
    • Źródła: bazy transakcyjne
    • Proces: ETL (Extract → Transform → Load)
    • Magazyn: relacyjna hurtownia danych
    • Konsumpcja: raporty i systemy BI (OLAP)
  • Zalety
    • Wysoka jakość i spójność danych (ACID)
    • Szybkie, optymalizowane zapytania analityczne
    • Dojrzałe narzędzia ETL, BI i modelowania biznesowego
  • Wady
    • Długi czas wdrożenia nowych źródeł
    • Wysokie koszty utrzymania sztywnych schematów
    • Ograniczona skala dla różnorodnych i pół-/niestrukturalnych danych

Rok 2011 – Jezioro danych

Wraz ze wzrostem wolumenów i różnorodności źródeł powstały jeziora danych, pozwalające na tanie przechowywanie wszystkiego „tak jak jest”. 
  • Architektura
    • Źródła: pliki (CSV, JSON), multimedia (wideo, audio), bazy NoSQL, obrazy
    • Proces: ELT (Extract → Load → Transform) – najpierw dump do jeziora, transformacje w locie
    • Magazyn: rozproszony system plików (HDFS, S3 itp.)
    • Konsumpcja: eksploracja ad hoc, data science, streaming, ML
  • Zalety
    • Maksymalna elastyczność – brak sztywnych schematów na wejściu
    • Możliwość przechowywania surowych danych dowolnego typu
    • Niskie koszty składowania w chłodnych warstwach
  • Wady
    • Ryzyko „jeziora błota” – chaos w surowych zbiorach
    • Brak natywnej kontroli jakości i ACID
    • Wolniejsze zapytania analityczne bez optymalizacji

Lata 2020 – Jezioro-hurtownia danych (Data Lakehouse)

Lakehouse to nowoczesna hybryda: wspólna platforma z kontrolą metadanych, transakcyjnością i elastycznością jeziora. 
  • Architektura
    • Źródła: jak w jeziorze danych
    • Warstwa metadanych i zarządzania (katalog, ACID, wersjonowanie)
    • Procesy ELT/ELT zintegrowane z metadanymi
    • Magazyn: rozproszony system plików z warstwą transakcyjną (Delta Lake, Iceberg, Hudi)
    • Konsumpcja: jednoczesne obciążenia OLAP, BI, ML i AI
  • Zalety
    • Spójność i transakcyjność (ACID) nad surowymi danymi
    • Wsparcie zarówno klasycznej hurtowni, jak i data science w jednym repozytorium
    • Lepsza kontrola dostępu, jakość i audyt danych
    • Optymalizacja kosztów przez warstwowanie gorącej i zimnej pamięci
  • Wady
    • Wciąż rosnący ekosystem narzędzi i standardów
    • Potencjalna złożoność wdrożenia i zarządzania klastrem
    • Wymaga dojrzałego podejścia do metadanych i orkiestracji

Wykorzystanie w AI 

  • Hurtownia danych dostarcza czyste, ustrukturyzowane historie transakcji pod predictive analytics.
  • Jezioro danych gromadzi ogromne, surowe zbiory (obrazy, logi, sensory) do trenowania głębokich sieci neuronowych.
  • Lakehouse oferuje jedno środowisko:
    • zintegrowane repozytorium treningowe
    • kontrolę wersji danych (reproducibility)
    • możliwość inferencji i retrainingu w czasie rzeczywistym

Podsumowanie

Ewolucja od hurtowni przez jezioro do jeziora-hurtowni odzwierciedla rosnące potrzeby organizacji: od stabilnych raportów, przez elastyczną eksplorację, aż po zaawansowane AI na nieograniczonych zasobach danych. Wybór architektury powinien uwzględniać skalę danych, potrzeby analityczne oraz dojrzałość procesów zarządzania metadanymi.
 
#DataWarehouse #DataLake #DataLakehouse #BigData #BI