Data Engineering¶

Knowledge base covering ETL/ELT, data pipelines, data warehousing, distributed computing, and the modern data stack.

Concepts and Architecture¶

[[etl-elt-pipelines]] - ETL vs ELT, pipeline design, processing modes, idempotency
[[dwh-architecture]] - OLTP vs OLAP, DWH layers, Kimball vs Inmon, platform evolution
[[data-modeling]] - normalization (1NF-3NF), ER diagrams, keys, deduplication patterns
[[dimensional-modeling]] - star/snowflake schema, fact/dimension tables, Kimball design
[[data-vault]] - Hub/Link/Satellite, Data Vault 2.0, anchor modeling
[[scd-patterns]] - slowly changing dimensions, SCD2 merge logic
[[data-lake-lakehouse]] - data lake, lakehouse, Delta Lake, Iceberg, Hudi
[[data-quality]] - quality dimensions, observability, monitoring, alerting
[[data-governance-catalog]] - DAMA DMBOK, data catalog, GDPR compliance
[[data-lineage-metadata]] - lineage types, metadata categories, Prometheus+Grafana
[[file-formats]] - Parquet, ORC, Avro, CSV comparison

[[hadoop-hdfs]] - HDFS architecture, blocks, replication, small files problem
[[apache-hive]] - SQL-on-Hadoop, Metastore, join strategies (MapJoin, SMB)
[[hbase]] - columnar NoSQL, row key, column families, versioning
[[clickhouse]] - columnar OLAP, partitions, granules, primary key, functions
[[clickhouse-engines]] - MergeTree family, compression, skip indexes
[[greenplum-mpp]] - MPP architecture, distribution, motion operators
[[postgresql-administration]] - transactions, MVCC, PL/pgSQL, query optimization
[[mongodb-nosql]] - document store, CAP theorem, aggregation pipelines