Model Class

Data Quality Validation Models

Models that assess the quality, completeness, and consistency of data arriving in S3 — checking for missing values, format violations, distribution shifts, and semantic correctness.

4 connections 2 resources

Summary

What it is

Models that assess the quality, completeness, and consistency of data arriving in S3 — checking for missing values, format violations, distribution shifts, and semantic correctness.

Where it fits

Data quality validation models automate the audit step in Write-Audit-Publish patterns. Instead of hand-coded validation rules, these models learn what "good" data looks like and flag anomalies — scaling quality assurance to data volumes that manual review cannot handle.

Misconceptions / Traps

ML-based quality validation is complementary to rule-based checks, not a replacement. Use rules for known constraints (null checks, type checks) and models for distribution shifts and semantic anomalies.
Training data quality models requires labeled examples of both good and bad data. Without representative training data, the model may miss domain-specific quality issues.

Key Connections

augments Write-Audit-Publish — automated quality gating
solves Schema Evolution — detects schema-violating data before it enters production
scoped_to LLM-Assisted Data Systems, Data Lake

Definition

What it is

Models that assess the quality, completeness, and consistency of data arriving in S3, detecting schema violations, missing values, distribution drift, and format anomalies.

Why it exists

Data lakes on S3 accumulate data from many sources with varying quality. Rule-based validation catches known issues but cannot adapt to new patterns. ML-based validation learns expected data distributions and flags deviations.

Primary use cases

Automated data quality gates for S3 ingestion, schema drift detection, data distribution monitoring, completeness checks for critical datasets.

Connections 4

Outbound 3

scoped_to2

LLM-Assisted Data Systems Data Lake

enables1

Schema Drift Detection

Inbound 1

depends_on1

Schema Drift Detection

Resources 2

DocsHigh

docs.greatexpectations.io/

Great Expectations documentation for data quality validation with S3 data source support and automated expectation suites.

GitHubHigh

github.com/awslabs/deequ

AWS Deequ library for unit-testing data quality on large datasets stored in S3, built on Apache Spark.