How do you ensure your pipelines are serving reliable and correct data?

Question

DataEngPrep.tech · Accepted Answer

**Section 1 — The Context (The 'Why')**
Reliable and correct data is the hardest guarantee in distributed systems: silent corruption, duplicate records from retries, and schema drift can invalidate entire analytics foundations. A naive approach—trusting sources, writing without validation, or lacking lineage—means downstream consumers make decisions on garbage. At Netflix scale, a single bad record multiplied across millions of recommendations creates revenue and trust damage. Failure modes include non-idempotent sinks (duplicates on retry), schema-validation bypasses (malformed data propagates), and orphaned data with no traceability for impact assessment.

**Section 2 — The Diagram**
```
[Sources]---->[Schema Validate]---->[Curated Sink]
    |                  |                    |
    v                  v                    v
[DLQ]            [Rules Engine]      [Delta/Snowflake]
    |                  |                    |
    +------------------+------------>[Recon|Lineage]
```

**Section 3 — Component Logic**
**Schema validation** gates all incoming data against a contract (Great Expectations, JSON Schema, Avro); records failing validation are routed to a **dead-letter queue (DLQ)** rather than dropped—preserving evidence for debugging and replay. The **rules engine** applies domain rules (null checks, referential integrity, range validation); critical failures block the pipeline while non-critical go to quarantine. The **idempotent sink** uses deterministic keys (e.g., hash(source_id, timestamp)) so retries produce exactly-once semantics; Kafka plus transactional writes (e.g., Delta MERGE) achieve this. **Reconciliation** runs periodically comparing source and sink counts; **lineage** (OpenLineage, DataHub) traces data flow for impact analysis when bugs occur. Idempotency is essential for safe replay from checkpoints. Implement data contracts as code; version them and run compatibility tests in CI. Track quality metrics (completeness, freshness, correctness) and alert on degradation.

**Section 4 — The Trade-offs (The 'Senior' part)**

- **CAP Theorem**: We choose **CP (Consistency + Partition tolerance)**. Correctness over availability—we retry until success rather than serving stale or corrupted data. During transient outages, pipelines block or queue; we do not relax validation gates.

- **Cost vs. Performance**: Great Expectations is open-source; Monte Carlo ~$50k/yr for managed data quality. Dedup/merge in Spark vs SCD2 in dbt: Spark wins for large volumes; dbt for warehouse-centric. Validation adds ~5–15% pipeline cost; trade for trust.

- **Blast Radius**: Validator failure: pipeline blocks; no bad data downstream. Sink failure: checkpoint replay; idempotency prevents duplicates. Consumer bug: lineage trace identifies impacted datasets and downstream jobs. Run reconciliation jobs to detect drift; automate remediation where safe.

**Design principles**: Define schema contracts as the source of truth; version them and enforce in CI. Use idempotent keys derived from business identifiers; avoid sequence numbers or timestamps that can collide on retry. Reconcile batch totals between source and sink; investigate gaps immediately. Implement column-level lineage to trace each field from source to consumption; this accelerates impact analysis during incidents.

**Section 5 — Pro-Tip**
- **Pro-Move**: Data contracts plus automated validation at ingest; fail fast on critical, quarantine non-critical.
- **Red Flag**: Silently dropping invalid records—always DLQ with full error context.

How do you ensure your pipelines are serving reliable and correct data?

Why This Question Matters

How to Approach This

Start AI Mock Interview

Free: Top 20 SQL Interview Questions (PDF)

Related System Design/Architecture Questions

Want to know if YOUR answer is good enough?

How do you ensure your pipelines are serving reliable and correct data?

Why This Question Matters

How to Approach This

Start AI Mock Interview

Free: Top 20 SQL Interview Questions (PDF)

Related System Design/Architecture Questions

Want to know if YOUR answer is good enough?