
https://aws.amazon.com/blogs/big-data/build-a-lake-house-architecture-on-aws/
Source Layer (Fuente de Datos)

Característica |
Amazon RDS |
Amazon DynamoDB |
Tipo de Base de Datos |
Base de datos relacional (SQL) administradas |
Base de datos NoSQL totalmente administrada |
Principales Características |
- Soporte para MySQL, PostgreSQL, Oracle, SQL Server, MariaDB |
|
- Escalado vertical
- Backups automatizados
- Multi-AZ para alta disponibilidad
- Réplicas de lectura | - Rendimiento consistente en milisegundos
- Escalado horizontal automático
- Serverless
- Replicación global
- Capacidad bajo demanda |
| Ventajas | - Familiar para desarrolladores SQL
- ACID compliant
- Ideal para relaciones complejas
- Esquema rígido y consistente
- Herramientas maduras de administración | - Latencia extremadamente baja
- Escalabilidad ilimitada
- Sin mantenimiento de servidor
- Esquema flexible
- Integración nativa con AWS Lambda |
| Desventajas | - Límites en el escalado vertical
- Costos más altos para grandes volúmenes
- Mantenimiento del servidor necesario
- Menos flexible para cambios de esquema | - No soporta JOINs complejos
- Límites en el tamaño de items
- Puede ser costoso para lecturas/escrituras predecibles
- Curva de aprendizaje para modelado NoSQL |
| Casos de Uso | - Aplicaciones tradicionales OLTP
- Sistemas ERP/CRM
- Aplicaciones que requieren JOINs complejos
- E-commerce con transacciones ACID
- Sistemas financieros | - Aplicaciones web/móviles de alta escala
- Gaming y puntuaciones
- IoT y datos de sensores
- Sesiones de usuario
- Catálogos de productos |
| Modelo de Pricing | - Por hora de instancia
- Basado en tipo/tamaño de instancia
- Cargos por almacenamiento
- Cargos por I/O
- Cargos por backup | - Pago por uso (lectura/escritura)
- Modo aprovisionado o bajo demanda
- Cargos por almacenamiento
- Cargos por características adicionales (backup, replicación global)
- Sin costo de servidor |
Ingestion Layer (Ingesta de Datos)

Característica |
AWS AppFlow |
AWS DMS |
AWS Glue ETL |
Kinesis Data Streams |
Kinesis Data Firehose |
Tipo de Servicio |
Servicio de integración SaaS |
Servicio de migración de bases de datos |
Servicio ETL serverless |
Servicio de streaming de datos en tiempo real |
Servicio de carga de datos en tiempo real |
Principales Características |
- Integración con +20 SaaS |
|
|
|
|
- Transformaciones sin código
- Programación de flujos
- Mapeo de campos
- Filtrado de datos | - Migración continua
- Soporte múltiples DB
- Replicación CDC
- Transformaciones básicas
- Migración heterogénea | - Jobs Spark serverless
- Crawlers automáticos
- Visual ETL
- Soporte Python/Scala
- Bookmarks automáticos | - Procesamiento real-time
- Retención configurable
- Múltiples consumidores
- Ordenamiento por shard
- Escalado manual | - Carga automática
- Transformación básica
- Buffer configurable
- Conversión formatos
- Compresión automática |
| Ventajas | - Sin código necesario
- Fácil configuración
- Seguridad integrada
- Validación automática
- Monitoreo incluido | - Alta confiabilidad
- Mínimo downtime
- Validación de datos
- Soporte Oracle/SQL
- Migración híbrida | - Totalmente serverless
- Altamente escalable
- Catalog integrado
- Visual y código
- Debugger incluido | - Latencia muy baja
- Alta disponibilidad
- Control granular
- Durabilidad datos
- Throughput garantizado | - Totalmente administrado
- Carga automática
- Sin servidor
- Transformación simple
- Integración AWS |
| Desventajas | - Limitado a SaaS soportados
- Transformaciones básicas
- Sin procesamiento complejo
- Latencia variable
- Costo por flujo | - Solo para migración DB
- Transformación limitada
- Requiere endpoints
- Setup complejo
- Costo por instancia | - Curva aprendizaje
- Costos variables
- Latencia inicial
- Setup complejo
- Requiere código | - Gestión manual shards
- Configuración compleja
- Retención limitada
- Costo por shard
- Mantenimiento propio | - Sin reprocesamiento
- Transformación limitada
- Sin ordering
- Latencia variable
- Buffer obligatorio |
| Casos de Uso | - Integración SaaS a AWS
- Sincronización periódica
- ETL sin código
- Replicación SaaS
- Backup datos SaaS | - Migración on-prem a AWS
- Replicación continua
- Consolidación DB
- Migración cloud
- Disaster recovery | - ETL complejo
- Data lakes
- Preparación ML
- Limpieza datos
- Transformación batch | - IoT streaming
- Análisis real-time
- Métricas live
- Gaming real-time
- Procesamiento log | - Ingestión S3/Redshift
- Archivado logs
- Backup streaming
- ETL simple
- Data lake ingestion |
| Modelo de Pricing | - Por flujo ejecutado
- Por volumen datos
- Mínimo mensual
- Tier por flujos
- Cargo por sync | - Por hora instancia
- Tipo instancia
- Almacenamiento
- Datos transferidos
- Características extra | - Por DPU-hora
- Tiempo ejecución
- Crawlers
- Workers
- Desarrollo visual | - Por shard-hora
- Payload PUT
- Retención extendida
- Fanout
- Enhanced fanout | - Por GB procesado
- Conversión formato
- Transformación VPC
- Buffer extendido
- Sin costo servidor |
<aside>
📒
Otros servicios de ingesta
- AWS DataSync: Transferencia automatizada de datos entre almacenamientos on-premises y AWS.
- AWS Transfer Family: Servicio administrado para transferencia de archivos.
</aside>
Storage Layer (Almacenamiento de Datos)

Característica |
Amazon S3 |
Amazon Redshift |
Redshift Spectrum |
Tipo de Base de Datos |
Almacenamiento de objetos, Data Lake |
Data Warehouse columnar relacional |
Motor de consultas sobre S3 (extensión de Redshift) |
Principales Características |
- Almacenamiento ilimitado |
|
|
- Diferentes clases de almacenamiento
- Versionamiento
- Replicación entre regiones
- Lifecycle policies | - MPP (Procesamiento Paralelo Masivo)
- Compresión columnar
- ACID compliant
- Escalado elástico
- Query optimización | - Consultas federadas
- Sin necesidad de cargar datos
- Procesamiento distribuido
- Compatible con formatos abiertos
- Integración con Data Catalog |
| Ventajas | - Altamente escalable
- Muy económico
- Alta durabilidad
- Fácil integración
- Acceso global | - Alto rendimiento
- Análisis complejos
- Joins eficientes
- Backups automatizados
- Seguridad robusta | - Consulta datos sin mover
- Separación storage/compute
- Esquema flexible
- Costos optimizados
- Query en exabytes |
| Desventajas | - No es base de datos
- Sin índices nativos
- Latencia variable
- Sin transacciones ACID
- Consistencia eventual | - Más costoso
- Setup inicial complejo
- Requiere carga de datos
- Mantenimiento DBA
- Límites de storage | - Performance menor
- Limitaciones SQL
- Sin índices externos
- Complejidad setup
- Latencia mayor |
| Casos de Uso | - Data Lakes
- Backup y archivo
- Contenido web/móvil
- Big Data analytics
- Datos no estructurados | - BI empresarial
- Data Warehouse
- Reportes complejos
- Análisis histórico
- OLAP | - Análisis datos fríos
- Queries ad-hoc
- Data Lake analytics
- ETL bajo demanda
- Análisis histórico |
| Modelo de Pricing | - GB almacenado/mes
- Requests (GET/PUT)
- Transferencia datos
- Características extras
- Por clase storage | - Por hora nodo
- Storage adicional
- Backup
- Concurrencia
- Transferencia datos | - Por datos escaneados
- Compute separado
- Sin costo storage
- Precio por TB
- Mínimo 10MB scan |
Catalogo, Gobierno y Calidad de Datos

Característica |
AWS IAM |
Lake Formation |
Glue Data Catalog |
Glue Data Quality |
Tipo de Servicio |
Control de acceso y gestión de permisos |
Servicio de construcción y gestión de data lakes |
Catálogo de metadatos centralizado |
Servicio de evaluación de calidad de datos |
Principales Características |
- Control de acceso granular |
|
|
|
- Políticas basadas en roles
- MFA
- Integración AWS
- Auditoría detallada | - Gobierno centralizado
- Seguridad integrada
- Templates data lake
- Ingesta automatizada
- Catálogo unificado | - Registro automático
- Crawlers integrados
- Búsqueda centralizada
- Integración AWS
- Versionamiento | - Reglas predefinidas
- Métricas de calidad
- Monitoreo continuo
- Alertas automáticas
- Recomendaciones |
| Ventajas | - Alta seguridad
- Flexibilidad
- Sin costo adicional
- Integración nativa
- Auditoría robusta | - Gestión simplificada
- Seguridad integrada
- Rápida implementación
- Control granular
- Automatización | - Descubrimiento automático
- Metadata centralizada
- Fácil búsqueda
- Interoperabilidad
- Bajo mantenimiento | - Detección temprana
- Automatización
- Visualización clara
- Reglas personalizables
- Integración AWS |
| Desventajas | - Complejidad inicial
- Curva aprendizaje
- Límites de políticas
- Setup manual
- Gestión compleja | - Costos variables
- Complejidad inicial
- Limitaciones formato
- Dependencia AWS
- Setup extenso | - Limitaciones schema
- Actualización manual
- Sin validación datos
- Latencia crawlers
- Costos crawlers | - Solo datos AWS
- Costos por scan
- Reglas limitadas
- Setup inicial
- Latencia análisis |
| Casos de Uso | - Control acceso AWS
- Gestión usuarios
- Seguridad apps
- Auditoría accesos
- Compliance | - Data lakes S3
- Analytics
- ML/BI
- Gobierno datos
- ETL centralizado | - Inventario datos
- Búsqueda assets
- ETL automatizado
- Metadata central
- Discovery datos | - Validación ETL
- Monitoreo calidad
- Compliance datos
- Testing datos
- Alertas calidad |
| Modelo de Pricing | - Sin costo adicional
- Incluido en AWS
- Límites de recursos
- Sin cargo uso
- Sin cargo storage | - Por TB procesado
- Almacenamiento S3
- Transacciones
- Metadata storage
- Features premium | - Por objeto catalogado
- Tiempo crawler
- Storage metadata
- Requests API
- Sin costo consulta | - Por evaluación
- Volumen escaneado
- Reglas activas
- Storage resultados
- Alertas configuradas |
<aside>
🔒
IAM vs Lake Formation

IAM es como el guardia de seguridad del edificio entero de AWS que decide quién puede entrar a qué pisos, mientras que Lake Formation es como el bibliotecario especializado que controla específicamente quién puede leer, escribir o modificar cada libro (dato) dentro de tu data lake.
Trabajan juntos: IAM maneja el acceso general a los servicios, y Lake Formation se especializa en el control fino de los datos.
</aside>
<aside>
📒
Otros servicios de gobierno y seguridad de datos
- Amazon Macie: Descubrimiento y protección de datos sensibles.
</aside>
Processing Layer (Procesamiento de Datos)
