Servicios de AWS para Data Engineering | Trubi Data

https://aws.amazon.com/blogs/big-data/build-a-lake-house-architecture-on-aws/

Source Layer (Fuente de Datos)

Característica	Amazon RDS	Amazon DynamoDB
Tipo de Base de Datos	Base de datos relacional (SQL) administradas	Base de datos NoSQL totalmente administrada
Principales Características	- Soporte para MySQL, PostgreSQL, Oracle, SQL Server, MariaDB

Escalado vertical
Backups automatizados
Multi-AZ para alta disponibilidad
Réplicas de lectura | - Rendimiento consistente en milisegundos
Escalado horizontal automático
Serverless
Replicación global
Capacidad bajo demanda | | Ventajas | - Familiar para desarrolladores SQL
ACID compliant
Ideal para relaciones complejas
Esquema rígido y consistente
Herramientas maduras de administración | - Latencia extremadamente baja
Escalabilidad ilimitada
Sin mantenimiento de servidor
Esquema flexible
Integración nativa con AWS Lambda | | Desventajas | - Límites en el escalado vertical
Costos más altos para grandes volúmenes
Mantenimiento del servidor necesario
Menos flexible para cambios de esquema | - No soporta JOINs complejos
Límites en el tamaño de items
Puede ser costoso para lecturas/escrituras predecibles
Curva de aprendizaje para modelado NoSQL | | Casos de Uso | - Aplicaciones tradicionales OLTP
Sistemas ERP/CRM
Aplicaciones que requieren JOINs complejos
E-commerce con transacciones ACID
Sistemas financieros | - Aplicaciones web/móviles de alta escala
Gaming y puntuaciones
IoT y datos de sensores
Sesiones de usuario
Catálogos de productos | | Modelo de Pricing | - Por hora de instancia
Basado en tipo/tamaño de instancia
Cargos por almacenamiento
Cargos por I/O
Cargos por backup | - Pago por uso (lectura/escritura)
Modo aprovisionado o bajo demanda
Cargos por almacenamiento
Cargos por características adicionales (backup, replicación global) - Sin costo de servidor |

Ingestion Layer (Ingesta de Datos)

Característica	AWS AppFlow	AWS DMS	AWS Glue ETL	Kinesis Data Streams	Kinesis Data Firehose
Tipo de Servicio	Servicio de integración SaaS	Servicio de migración de bases de datos	Servicio ETL serverless	Servicio de streaming de datos en tiempo real	Servicio de carga de datos en tiempo real
Principales Características	- Integración con +20 SaaS

Transformaciones sin código
Programación de flujos
Mapeo de campos
Filtrado de datos | - Migración continua
Soporte múltiples DB
Replicación CDC
Transformaciones básicas
Migración heterogénea | - Jobs Spark serverless
Crawlers automáticos
Visual ETL
Soporte Python/Scala
Bookmarks automáticos | - Procesamiento real-time
Retención configurable
Múltiples consumidores
Ordenamiento por shard
Escalado manual | - Carga automática
Transformación básica
Buffer configurable
Conversión formatos
Compresión automática | | Ventajas | - Sin código necesario
Fácil configuración
Seguridad integrada
Validación automática
Monitoreo incluido | - Alta confiabilidad
Mínimo downtime
Validación de datos
Soporte Oracle/SQL
Migración híbrida | - Totalmente serverless
Altamente escalable
Catalog integrado
Visual y código
Debugger incluido | - Latencia muy baja
Alta disponibilidad
Control granular
Durabilidad datos
Throughput garantizado | - Totalmente administrado
Carga automática
Sin servidor
Transformación simple
Integración AWS | | Desventajas | - Limitado a SaaS soportados
Transformaciones básicas
Sin procesamiento complejo
Latencia variable
Costo por flujo | - Solo para migración DB
Transformación limitada
Requiere endpoints
Setup complejo
Costo por instancia | - Curva aprendizaje
Costos variables
Latencia inicial
Setup complejo
Requiere código | - Gestión manual shards
Configuración compleja
Retención limitada
Costo por shard
Mantenimiento propio | - Sin reprocesamiento
Transformación limitada
Sin ordering
Latencia variable
Buffer obligatorio | | Casos de Uso | - Integración SaaS a AWS
Sincronización periódica
ETL sin código
Replicación SaaS
Backup datos SaaS | - Migración on-prem a AWS
Replicación continua
Consolidación DB
Migración cloud
Disaster recovery | - ETL complejo
Data lakes
Preparación ML
Limpieza datos
Transformación batch | - IoT streaming
Análisis real-time
Métricas live
Gaming real-time
Procesamiento log | - Ingestión S3/Redshift
Archivado logs
Backup streaming
ETL simple
Data lake ingestion | | Modelo de Pricing | - Por flujo ejecutado
Por volumen datos
Mínimo mensual
Tier por flujos
Cargo por sync | - Por hora instancia
Tipo instancia
Almacenamiento
Datos transferidos
Características extra | - Por DPU-hora
Tiempo ejecución
Crawlers
Workers
Desarrollo visual | - Por shard-hora
Payload PUT
Retención extendida
Fanout
Enhanced fanout | - Por GB procesado
Conversión formato
Transformación VPC
Buffer extendido
Sin costo servidor |

<aside> 📒

Otros servicios de ingesta

AWS DataSync: Transferencia automatizada de datos entre almacenamientos on-premises y AWS.
AWS Transfer Family: Servicio administrado para transferencia de archivos. </aside>

Storage Layer (Almacenamiento de Datos)

Característica	Amazon S3	Amazon Redshift	Redshift Spectrum
Tipo de Base de Datos	Almacenamiento de objetos, Data Lake	Data Warehouse columnar relacional	Motor de consultas sobre S3 (extensión de Redshift)
Principales Características	- Almacenamiento ilimitado

Diferentes clases de almacenamiento
Versionamiento
Replicación entre regiones
Lifecycle policies | - MPP (Procesamiento Paralelo Masivo)
Compresión columnar
ACID compliant
Escalado elástico
Query optimización | - Consultas federadas
Sin necesidad de cargar datos
Procesamiento distribuido
Compatible con formatos abiertos
Integración con Data Catalog | | Ventajas | - Altamente escalable
Muy económico
Alta durabilidad
Fácil integración
Acceso global | - Alto rendimiento
Análisis complejos
Joins eficientes
Backups automatizados
Seguridad robusta | - Consulta datos sin mover
Separación storage/compute
Esquema flexible
Costos optimizados
Query en exabytes | | Desventajas | - No es base de datos
Sin índices nativos
Latencia variable
Sin transacciones ACID
Consistencia eventual | - Más costoso
Setup inicial complejo
Requiere carga de datos
Mantenimiento DBA
Límites de storage | - Performance menor
Limitaciones SQL
Sin índices externos
Complejidad setup
Latencia mayor | | Casos de Uso | - Data Lakes
Backup y archivo
Contenido web/móvil
Big Data analytics
Datos no estructurados | - BI empresarial
Data Warehouse
Reportes complejos
Análisis histórico
OLAP | - Análisis datos fríos
Queries ad-hoc
Data Lake analytics
ETL bajo demanda
Análisis histórico | | Modelo de Pricing | - GB almacenado/mes
Requests (GET/PUT)
Transferencia datos
Características extras
Por clase storage | - Por hora nodo
Storage adicional
Backup
Concurrencia
Transferencia datos | - Por datos escaneados
Compute separado
Sin costo storage
Precio por TB
Mínimo 10MB scan |

Catalogo, Gobierno y Calidad de Datos

Característica	AWS IAM	Lake Formation	Glue Data Catalog	Glue Data Quality
Tipo de Servicio	Control de acceso y gestión de permisos	Servicio de construcción y gestión de data lakes	Catálogo de metadatos centralizado	Servicio de evaluación de calidad de datos
Principales Características	- Control de acceso granular

Políticas basadas en roles
MFA
Integración AWS
Auditoría detallada | - Gobierno centralizado
Seguridad integrada
Templates data lake
Ingesta automatizada
Catálogo unificado | - Registro automático
Crawlers integrados
Búsqueda centralizada
Integración AWS
Versionamiento | - Reglas predefinidas
Métricas de calidad
Monitoreo continuo
Alertas automáticas
Recomendaciones | | Ventajas | - Alta seguridad
Flexibilidad
Sin costo adicional
Integración nativa
Auditoría robusta | - Gestión simplificada
Seguridad integrada
Rápida implementación
Control granular
Automatización | - Descubrimiento automático
Metadata centralizada
Fácil búsqueda
Interoperabilidad
Bajo mantenimiento | - Detección temprana
Automatización
Visualización clara
Reglas personalizables
Integración AWS | | Desventajas | - Complejidad inicial
Curva aprendizaje
Límites de políticas
Setup manual
Gestión compleja | - Costos variables
Complejidad inicial
Limitaciones formato
Dependencia AWS
Setup extenso | - Limitaciones schema
Actualización manual
Sin validación datos
Latencia crawlers
Costos crawlers | - Solo datos AWS
Costos por scan
Reglas limitadas
Setup inicial
Latencia análisis | | Casos de Uso | - Control acceso AWS
Gestión usuarios
Seguridad apps
Auditoría accesos
Compliance | - Data lakes S3
Analytics
ML/BI
Gobierno datos
ETL centralizado | - Inventario datos
Búsqueda assets
ETL automatizado
Metadata central
Discovery datos | - Validación ETL
Monitoreo calidad
Compliance datos
Testing datos
Alertas calidad | | Modelo de Pricing | - Sin costo adicional
Incluido en AWS
Límites de recursos
Sin cargo uso
Sin cargo storage | - Por TB procesado
Almacenamiento S3
Transacciones
Metadata storage
Features premium | - Por objeto catalogado
Tiempo crawler
Storage metadata
Requests API
Sin costo consulta | - Por evaluación
Volumen escaneado
Reglas activas
Storage resultados
Alertas configuradas |

<aside> 🔒

IAM vs Lake Formation

IAM es como el guardia de seguridad del edificio entero de AWS que decide quién puede entrar a qué pisos, mientras que Lake Formation es como el bibliotecario especializado que controla específicamente quién puede leer, escribir o modificar cada libro (dato) dentro de tu data lake.

Trabajan juntos: IAM maneja el acceso general a los servicios, y Lake Formation se especializa en el control fino de los datos.

</aside>

<aside> 📒

Otros servicios de gobierno y seguridad de datos

Amazon Macie: Descubrimiento y protección de datos sensibles. </aside>

Source Layer (Fuente de Datos)

Ingestion Layer (Ingesta de Datos)

Storage Layer (Almacenamiento de Datos)

Catalogo, Gobierno y Calidad de Datos

Processing Layer (Procesamiento de Datos)