Home | OpenLineage
¿Qué es OpenLineage?
OpenLineage es un estándar abierto para la recopilación y análisis de metadatos de linaje de datos. Proporciona un marco unificado que permite rastrear cómo los datos fluyen a través de diferentes sistemas, transformaciones y procesos en una organización.

Características principales
- Formato estándar: Define un modelo de metadatos común que puede ser adoptado por diferentes herramientas y plataformas.
- Independiente de plataforma: Funciona con diversas tecnologías de procesamiento de datos como Apache Spark, Apache Airflow, dbt, entre otras.
- Open source: Es un proyecto de código abierto mantenido por la comunidad, lo que fomenta la innovación y la adopción.
- Integración sencilla: Ofrece APIs y bibliotecas que facilitan la integración con sistemas existentes.
¿Para qué sirve?
OpenLineage facilita:
- Trazabilidad de datos: Permite seguir el origen y el destino de los datos a través de múltiples sistemas y pipelines.
- Análisis de impacto: Ayuda a entender qué sistemas y procesos se verán afectados cuando se realizan cambios en los datos o en la infraestructura.
- Depuración y resolución de problemas: Facilita la identificación de dónde ocurren errores o inconsistencias en los pipelines de datos.
- Cumplimiento y gobernanza: Proporciona visibilidad sobre el uso de datos, lo que es crucial para cumplir con regulaciones de privacidad y políticas internas.
- Optimización de pipelines: Permite identificar cuellos de botella y oportunidades de mejora en los flujos de datos.

Modelo Core de OpenLineage