250126 PAE IDIAN Programa de Alta Especialización Internacional en Ingeniería de Datos con Inteligencia Artificial en la Nube

Docentes Especialistas

Fecha de inicio

25 DE ENERO

Horarios

Fecha de finalizacion

9 CERTIFICADOS

Docentes Expertos

¿Qué aprenderás en este curso?

Publico objetivo

1. Ingenieros de sistemas, software o datos que quieren especializarse en infraestructuras cloud y automatización inteligente.
2. Analistas, científicos de datos o expertos BI que buscan diseñar sistemas de ingeniería y pipelines multicloud.
3. Consultores tecnológicos y líderes digitales que necesitan integrar IA, analítica y gobierno del dato
4. Profesionales de sectores clave (financiero, industrial, minero, educativo o público) que desean optimizar procesos con ingeniería de datos e IA.
5. Emprendedores y desarrolladores que aspiran a crear soluciones inteligentes basadas en datos y nube.

Resultados esperados

Modulo I

FUNDAMENTOS DE INGENIERÍA DE DATOS Y CLOUD COMPUTING PARA BIG DATA

El Rol del Ingeniero de Datos en la Era Cloud

¿Qué hace un ingeniero de datos hoy? Funciones, responsabilidades y habilidades clave.
Diferencias entre Data Engineer, Data Scientist y Data Analyst.
Ecosistema de trabajo: desde la extracción de datos hasta su visualización.
Herramientas y lenguajes más usados: Python, SQL, Spark y Databricks.
Flujos de trabajo colaborativos en entornos cloud.

Fundamentos de Procesamiento de Datos

Qué es un pipeline de datos y cómo se construye.
Conceptos ETL y ELT: diferencias, ventajas y casos prácticos.
Procesamiento por lotes (Batch) vs. procesamiento en tiempo real (Streaming).
Ingeniería de flujo de datos: Dataflow, Event-driven, Pub/Sub
Ejemplo práctico: flujo de datos desde una API hacia un Data Lake.

Tecnologías Clave para la Ingeniería de Datos

Introducción a los frameworks más utilizados: Apache Spark, Kafka, Hadoop, Airflow.
Cómo se conectan estas herramientas dentro de una solución de ingeniería de datos moderna.
Ejemplo: pipeline de ingesta + procesamiento + almacenamiento.
Tendencias actuales: Serverless data pipelines, DataOps e IA asistida para
ingeniería de datos.

Cloud Computing para Big Data

¿Qué es la computación en la nube?
Conceptos de infraestructura y servicios gestionados.
Modelos de servicio: IaaS, PaaS, SaaS.
Comparativa práctica: AWS vs. Azure vs. Google Cloud Platform.
Principales servicios cloud para Big Data:

1. AWS Glue, EMR, Redshift
2. Azure Synapse, Data Factory, Fabric
3. Google BigQuery, Dataflow, Pub/Sub.

Diseño básico de una ingeniería Big Data en la nube.

Modulo II

INTRODUCCIÓN A LA INGENIERÍA DE DATOS EN LA NUBE

Ecosistema de Datos e Inteligencia Artificial en la Era Cloud

Evolución del dato: del almacenamiento local al entorno multicloud.
Cómo la nube transforma la ingeniería de datos y la IA.
El ciclo de vida del dato: captura, procesamiento, análisis, automatización y visualización.
Relación entre Cloud Computing, Data Engineering, Data Science e IA.

Fundamentos de Big Data y Procesamiento Distribuido

Concepto y pilares de Big Data: las 5V (Volumen, Velocidad, Variedad, Veracidad, Valor).
Diferencias entre Big Data, Ciencia de Datos e Ingeniería de Datos.
Ecosistema moderno: del Data Warehouse tradicional al Data Lakehouse.
Tecnologías clave: Apache Spark, Hadoop, Kafka y Databricks.

Ingeniería de Datos Moderna y Escalable

Principios de diseño de ingeniería de datos en la nube.
Tipos de ingeniería: Lambda, Kappa y Data Mesh.
Integración entre almacenamiento, cómputo y análisis.
Modelos de despliegue: nube pública, privada, híbrida y multicloud.
Introducción a Microsoft Fabric, Azure Synapse y Google BigQuery.

Procesamiento de Datos: Batch, Streaming y Tiempo Real

Conceptos clave: ¿qué es el procesamiento por lotes (Batch) y streaming (tiempo real)?
Ingeniería orientada a flujos de datos continuos.
Casos de uso: analítica histórica, monitoreo inteligente y dashboards en vivo.
Herramientas líderes: Apache Spark, Apache Flink y Databricks para procesamiento distribuido.
Diseño de data pipelines híbridos: Batch + Streaming.
Optimización del rendimiento en entornos Cloud-Data.

Gobierno, Calidad y Seguridad del Dato en la Nube

Importancia de la gobernanza de datos en entornos distribuidos.
Principios de calidad, linaje y trazabilidad del dato.
Seguridad, acceso y cumplimiento normativo (IAM, GDPR, ISO 27001).
Ética e IA responsable en el ciclo de vida del dato.

Laboratorio Práctico Integrador

Diseño de una ingeniería de datos básica multicloud (Azure – AWS – GCP).
Implementación de un Data Lake y pipeline inicial.
Visualización y monitoreo de los recursos cloud.
Documentación técnica del flujo de datos y gobernanza aplicada.

Modulo III

INGENIERÍA DE DATOS EN LA NUBE: FLUJOS, ESCALABILIDAD Y CLOUD COMPUTING

Fundamentos de Computación en la Nube

Evolución de la computación: del servidor local al entorno multicloud.
Modelos de servicio: IaaS, PaaS, SaaS – cuándo y cómo elegirlos.
Principales plataformas cloud (Azure, AWS, GCP): fortalezas, diferencias y sinergias.
Principios esenciales: seguridad, escalabilidad, disponibilidad y costoeficiencia.
Sistemas de ingeniería híbridos y multicloud: interoperabilidad entre servicios.
Casos reales de empresas que migraron a la nube con éxito.

Procesamiento de Datos: Lotes, Flujos y Tiempo Real

Conceptos clave: ¿qué es el procesamiento por lotes (Batch) y streaming (tiempo real)?
Ingeniería orientada a flujos de datos continuos.
Casos de uso: analítica histórica, monitoreo inteligente y dashboards en vivo.
Herramientas líderes: Apache Spark, Apache Flink y Databricks para procesamiento distribuido.
Diseño de data pipelines híbridos: Batch + Streaming.
Optimización del rendimiento en entornos Cloud-Data.

Introducción a Kafka e Ingeniería de Datos Basada en Eventos

Conceptos fundamentales de Apache Kafka y su ecosistema.
Productores, consumidores y topics: cómo se comunican los sistemas modernos.
Patrones event-driven y su impacto en la velocidad de las organizaciones.
Comparativa: sistemas de ingeniería tradicionales vs. sistemas de ingeniería basados en eventos.
Integración con Spark Streaming, Flink y servicios Cloud (Event Hub, Pub/Sub, Kinesis).
Casos prácticos:

1. Notificaciones en tiempo real
2. Monitoreo de transacciones financieras
3. Sensores IoT y telemetría industrial

Laboratorio Práctico Integrador

Configuración de un entorno de práctica en Azure o Google Cloud.
Implementación de un pipeline de datos simple con Spark y Kafka.
Simulación de un flujo de eventos en tiempo real (Event Hub / Pub/Sub).
Visualización del resultado en Power BI o Fabric.
Evaluación: documentación del flujo de datos y su diseño de ingeniería.

Modulo IV

PYTHON APLICADO A LA ARQUITECTURA E INGENIERÍA DE DATOS CLOUD

Fundamentos de Automatización y Analítica Inteligente con Python

Conceptos de Inteligencia Artificial, Aprendizaje Automático (Machine Learning) y Minería de Datos en entornos cloud.
Aplicaciones y casos de uso en la industria 4.0: predicción, detección, automatización y optimización.
Etapas del ciclo de vida del dato: ingesta, limpieza, modelado, entrenamiento y despliegue.
Rol de Python en la Ingeniería de Datos, IA y Cloud Computing.
Conexión con servicios de nube: Azure Machine Learning, AWS Sagemaker y Google Vertex AI.

Python para la Implementación de Técnicas de IA

Fundamentos del lenguaje Python: sintaxis, estructuras de datos y buenas prácticas.
Librerías esenciales para ciencia e ingeniería de datos: NumPy, Pandas, Matplotlib, Seaborn, Plotly.
Gestión y transformación de grandes volúmenes de datos con Dask y PySpark.
Modelado predictivo con Scikit-Learn y TensorFlow/Keras.
Uso de APIs de IA generativa y servicios cognitivos (OpenAI API, Azure Cognitive Services).
Implementación de flujos de machine learning automatizados en Databricks Notebooks.

Procesamiento y Manejo de Datos

Manipulación de datos estructurados y no estructurados con Pandas y NumPy.
Conexión e interacción con bases de datos relacionales y NoSQL: SQLAlchemy, MongoDB, BigQuery, Azure SQL, PostgreSQL.
Procesamiento distribuido y pipelines de datos con Apache Spark y PySpark.
Integración de Python con Apache Kafka y Azure Event Hub para datos en tiempo real.
Desarrollo de flujos ETL y ELT con Airflow, Azure Data Factory y Databricks.

Árboles de Decisión y Reglas de Clasificación y Asociación

Árboles de decisión y algoritmos de aprendizaje supervisado: ID3, C4.5, Random Forest, Gradient Boosting y XGBoost.
Evaluación y métricas de rendimiento: Curva ROC, precisión, recall y validación cruzada
Reglas de clasificación y asociación: Apriori, FP-Growth y ECLAT.
Aplicación práctica en detección de patrones, segmentación y análisis de comportamiento del cliente.
Implementación distribuida de modelos en Spark MLlib y Databricks ML.

Redes Neuronales Artificiales y Deep Learning

Conceptos clave de redes neuronales artificiales (ANN) y aprendizaje profundo (Deep Learning).
Modelos predictivos en TensorFlow, PyTorch y Keras.
Redes neuronales multicapa (MLP) y optimización de hiperparámetros.
Redes recurrentes (RNN, LSTM, GRU) para series temporales y predicciones financieras.
Redes convolucionales (CNN) aplicadas a imágenes, video y datos espaciales.
Streaming ML con Kafka y Databricks MLflow: detección de fraudes, IoT y predicción en tiempo real.
Despliegue de modelos de IA en producción usando Azure ML, AWS Sagemaker y Google AI Platform.

Modulo V

INGENIERÍA DE DATOS CON DATABRICKS E INTELIGENCIA ARTIFICIAL EN LA NUBE

Conceptos Básicos de Cloud y Databricks

Fundamentos de computación en la nube y servicios (IaaS, PaaS, SaaS).
Introducción a Azure y Databricks: componentes, estructura y ventajas.
Creación y configuración de un workspace y clúster en Databricks sobre Azure.
Exploración de la interfaz y principales herramientas colaborativas.

Procesamiento con Spark SQL

Fundamentos y estructura del motor Spark SQL.
Lectura y escritura de datos desde distintos formatos (JSON, CSV, Parquet, Delta).
Limpieza, manipulación y transformación de datos con consultas SQL distribuidas.
Consultas analíticas y visualización de resultados dentro de Databricks.

Procesamiento con PySpark

Introducción a la API PySpark para procesamiento distribuido.
Lectura y escritura de datos en múltiples formatos (JSON, CSV, Parquet, Delta).
Aplicación de métodos, funciones y UDFs para transformaciones complejas.
Exploración y visualización de resultados mediante notebooks en Databricks.

Optimizaciones en Delta Lake con PySpark

Introducción al ecosistema Delta Lake.
Creación y gestión de tablas Delta.
Uso de Delta Time Travel (DTT) para auditoría y control de versiones.
Técnicas de optimización: Z-Ordering, Partitioning, Vacuum, Optimize.

ETL con Spark SQL y PySpark

Diseño de procesos ETL y ELT escalables en la nube.
Extracción de datos desde diversas fuentes (bases SQL, Blob Storage, APIs).
Transformaciones complejas y validaciones de calidad.
Integración entre Spark SQL y PySpark en pipelines híbridos.

Incremental Data Processing

Definición de cargas full, incremental y temporales.
Funciones y estrategias para procesamiento incremental de datos.
Uso de herramientas como Merge, Auto Loader y Copy Into.

Workflows en Azure Databricks

Concepto y estructura de workflows.
Creación y gestión de pipelines automatizados.
Definición de Jobs, triggers y dependencias entre tareas.
Parametrización, monitoreo y ejecución de workflows escalables.

Delta Live Tables (DLT)

Introducción a las Delta Live Tables (DLT).
Diseño de pipelines automáticos con control de calidad integrado.
Implementación de validaciones y monitoreo de flujos.

Gobernanza en Databricks con Unity Catalog

Introducción a la gobernanza de datos en la nube.
Creación y gestión del metastore Unity Catalog.
Asignación de roles, permisos y políticas de acceso.
Configuración de Storage Credentials y External Locations.
Implementación de linaje y auditoría de datos.

Seguridad y Administración de Databricks

Administración de usuarios y grupos dentro del Unity Catalog.
Seguridad en red, cifrado y cumplimiento normativo.
Monitoreo de actividad y ejecución de auditorías.
Creación de políticas y buenas prácticas de seguridad.
Laboratorio: Gestión de usuarios, accesos y políticas de seguridad en Databricks.

Construyendo Dataflows y Pipelines con Azure Data Factory

Fundamentos de Azure Data Factory (ADF).
Creación de pipelines y flujos de transformación.
Integración nativa entre ADF y Databricks.
Orquestación de pipelines complejos y manejo de dependencias.

Real-Time Streaming con Event Hubs, Stream Analytics y Databricks

Introducción a Event Hubs y procesamiento en tiempo real.
Integración de Event Hubs con Databricks para ingesta de datos streaming.
Procesamiento de flujos con Spark Streaming y Azure Stream Analytics.

Dashboards en Databricks y Power BI

Generación de dashboards interactivos con PySpark y Spark SQL.
Conexión del Unity Catalog con Power BI.
Diseño de tableros analíticos en tiempo real.

CI/CD Features con Databricks

Introducción a CI/CD y DevOps en entornos de datos.
Uso de Git Repos, Databricks CLI y API.
Integración continua con Azure DevOps y GitHub Actions.

IA Generativa con Databricks

Fundamentos de Inteligencia Artificial Generativa y Modelos de Lenguaje Grande (LLM).
Integración de modelos de IA y Machine Learning dentro de Databricks.
Uso de Model Serving, embeddings y APIs de IA.
Casos de uso: asistentes de datos, clasificación y análisis inteligente.

Modulo VI

INGENIERÍA DE DATOS CON AWS E INTELIGENCIA ARTIFICIAL EN LA NUBE

Introducción a AWS Cloud e Ingeniería de Datos

Principios de Cloud Computing: infraestructura global de AWS, modelos de servicio (IaaS, PaaS, SaaS) y despliegue (público, privado, híbrido).
Ingeniería de Datos en AWS: componentes fundamentales, integración entre almacenamiento, cómputo, análisis e inteligencia artificial.
Comparación entre entornos On-Premise vs. Cloud-Native y buenas prácticas de migración.
Introducción a AWS Well-Architected Framework y sus cinco pilares: seguridad, rendimiento, fiabilidad, optimización de costos y eficiencia operativa.
Identity and Access Management (IAM): definición de roles, políticas, permisos y control de acceso seguro en sistemas de ingeniería distribuidos.

ETL & Data Pipelines Fundamentals

Introducción a los procesos ETL y ELT: diseño, componentes y beneficios en sistemas de
ingeniería escalables.
Servicios de AWS para ingeniería de datos: AWS Glue: integración, orquestación y automatización de pipelines de datos.
- AWS DataBrew: limpieza y transformación visual de datos.
- AWS Step Functions: coordinación de flujos ETL y automatización de procesos.
- Integración de ETL con Amazon S3, Lambda y Redshift para cargas de datos optimizadas.
Diseño de pipelines modernos basados en eventos (event-driven ETL).

Streaming Data e Ingeniería de Eventos

Fundamentos del procesamiento de datos en tiempo real y sistemas de ingeniería basados en eventos.
Modelos de procesamiento: Batch, Near-RealTime y Real-Time.
Servicios AWS para streaming:
- Amazon Kinesis (Data Streams, Data Firehose, Data Analytics): ingesta, almacenamiento y análisis continuo.
- AWS MSK (Managed Streaming for Apache Kafka): configuración, ventajas y casos de uso.
- Comparación Kinesis vs. Kafka: escalabilidad, latencia y estructura.
AWS IoT Core: conectividad, procesamiento de sensores e integración con flujos de streaming.
Integración con AWS Lambda y Glue Streaming para procesamiento en tiempo real.
Diseño de sistemas de ingeniería de datos basados en eventos (EDA).
Laboratorio: implementación de un flujo de datos en tiempo real con Kinesis, Lambda y Glue Streaming.

Relational & NoSQL DataBases en Arquitecturas de Datos

Diseño de arquitecturas de almacenamiento de datos en AWS:

1. Data Lakes, Data Warehouses y Lakehouse
  Architectures.

Introducción a bases de datos relacionales y NoSQL: diferencias, ventajas y casos de uso.
Servicios clave de AWS:

1. Amazon RDS: bases de datos relacionales administradas (PostgreSQL, MySQL, SQL Server, Oracle).
2. Amazon Aurora: arquitectura serverless y replicación automática.
3. Amazon DynamoDB: bases de datos NoSQL escalables, indexación y optimización de consultas.
4. Amazon DMS (Database Migration Service): estrategias de migración, replicación y
  modernización de datos.
5. AWS Glue Catalog y Lake Formation: metadatos, gobernanza y linaje de datos.

Laboratorio: creación de una arquitectura híbrida con RDS y DynamoDB para flujos de datos integrados.

Data Delivery, Visualization & Machine Learning en AWS

Estrategias de data delivery y consumo analítico: automatización con AWS Data Pipeline.
Servicios de consulta y análisis:

1. Amazon Athena: análisis sin servidor sobre datos en S3.
2. Amazon Redshift: modelado de Data Warehouse, optimización de consultas y escalabilidad.

Visualización de datos e inteligencia empresarial:

1. Amazon QuickSight: dashboards interactivos, integración con Redshift y S3.
2. AWS Glue Data Catalog para análisis centralizado.

Introducción al Machine Learning en AWS:

1. Amazon SageMaker: ciclo completo de ML (entrenamiento, evaluación, despliegue).
2. Integración de SageMaker con Glue, Lambda y Redshift para flujos analíticos avanzados.

Modulo VII

INGENIERÍA DE DATOS CON AZURE E INTELIGENCIA ARTIFICIAL EN LA NUBE

Cloud Computing & ETL Fundamentals
Cloud Computing:

Introducción a la computación en la nube: conceptos clave, tipos de servicios (IaaS, PaaS, SaaS) y modelos de despliegue (público, privado, híbrido, multicloud).
Principales componentes de Azure para arquitectura de datos: Data Factory, Synapse, Databricks, Fabric y Purview.
Comparación entre entornos On-Premise y CloudNative; ventajas de escalabilidad, elasticidad y seguridad.
Identity and Access Management (IAM): implementación con Azure Active Directory,
políticas de acceso y roles basados en seguridad (RBAC).

ETL Fundamentals:

Principios de arquitectura ETL/ELT y su aplicación en entornos distribuidos.
Servicios de Azure para integración y transformación:

1. Azure Data Factory: orquestación de pipelines.
2. Azure Data Flow: diseño visual y optimización de transformaciones.
3. Azure Synapse Pipelines: flujos avanzados de integración.

Buenas prácticas en diseño modular, versionamiento y monitoreo de pipelines.
Laboratorio: creación de un flujo ETL híbrido en Azure Data Factory con orquestación y validación.

Data Lakes & Architecture Implementation

Conceptos y componentes de un Data Lake moderno: arquitectura por capas (Raw, Curated, Analytics, Consumption).
Implementación de Azure Data Lake Storage Gen2: diseño jerárquico, particionamiento y control de acceso.
Integración del Data Lake con Synapse Analytics y Databricks para arquitecturas Lakehouse.
Automatización de cargas y versionado de datos.
Diseño de Arquitecturas de Datos en Azure (ADF + ADLS + Synapse + Power BI).
Governance & Security: políticas de acceso, cifrado y gestión del linaje con Microsoft Purview.
Laboratorio: creación de un Data Lake seguro e integrado con Synapse y Power BI.

Streaming Data & Event-Driven Engineering

Principios del procesamiento en flujo: diferencias entre Batch, Near Real-Time y Real- Time.
Diseño de arquitecturas orientadas a eventos (Event-Driven Architectures) en Azure.
Azure Event Hubs y IoT Hub: configuración, ingesta y transmisión de datos a gran escala.
Azure Stream Analytics: creación de flujos de procesamiento y agregaciones en tiempo real.
Integración con Apache Kafka (Azure Managed Kafka) y comparación con Event Hubs.
Azure Synapse Link: conexión en tiempo real entre bases operativas y analíticas.
Laboratorio: procesamiento de datos IoT con Event Hubs, Stream Analytics y Synapse.

Relational & NoSQL DataBases

Fundamentos de arquitectura de almacenamiento en la nube: Data Warehouses, Data Lakes y Lakehouses.
Introducción a bases de datos relacionales y NoSQL: diseño, indexación y escalabilidad

Servicios de Azure:

Azure SQL Database (SQL Server, PostgreSQL, MariaDB): configuración, rendimiento y replicación.
Azure Cosmos DB: bases NoSQL multimodelo (documentos, grafos, clave-valor, columnas) y replicación global.
Azure Synapse Analytics: arquitectura del Data Warehouse cloud-native, distribución de cómputo y optimización de consultas.
Azure Database Migration Service (DMS): migración desde entornos locales a cloud.

Laboratorio: diseño de un modelo relacional y NoSQL conectado al Data Lake y Synapse.

Data Delivery, Visualization & Intelligence

Data Delivery: integración y distribución de datos para consumo empresarial.
Servicios analíticos y de consulta:

1. Azure Synapse Analytics: análisis masivo y consultas paralelas.
2. Azure Data Explorer: análisis de series temporales y datos de telemetría.
3. Azure Fabric: entorno unificado para orquestar datos, analítica y BI.

Data Visualization:

1. Power BI: diseño de dashboards interactivos conectados al Data Lake y Synapse.
2. Microsoft Fabric + Power BI: visualización avanzada y análisis en tiempo real.

Machine Learning Integration:

1. Azure Machine Learning Studio: entrenamiento y despliegue de modelos de ML e IA integrados a Synapse.
2. Conexión con Azure Databricks para procesamiento distribuido y ML pipelines.

Laboratorio: creación de dashboards ejecutivos conectados al Data Lake y ejecución de un modelo predictivo en Azure ML.

Azure Data Engineering & Certification Orientation (DP-700)

Introducción a la ruta profesional de certificación DP-700: Data Engineer Associate.
Revisión de contenidos, dominios y competencias clave del Data Engineering en Microsoft Azure.
Guía práctica para la aplicación de buenas prácticas en pipelines, Data Lakes, Data Warehouses y orquestación con Data Factory y Synapse.
Lineamientos generales para la preparación técnica orientada a certificaciones internacionales.

Modulo VIII

INGENIERÍA DE DATOS CON GOOGLE CLOUD PLATFORM E INTELIGENCIA ARTIFICIAL EN LA NUBE

Fundamentos y Ingeniería de Google Cloud Platform

Cloud Computing:

Introducción a la computación en la nube: conceptos clave, tipos de servicios (IaaS, PaaS,
SaaS) y modelos de despliegue (público, privado, híbrido, multicloud).
Principales componentes de Azure para ingeniería de datos: Data Factory, Synapse, Databricks, Fabric y Purview.
Comparación entre entornos On-Premise y Cloud-Native; ventajas de escalabilidad, elasticidad y seguridad.
Identity and Access Management (IAM): implementación con Azure Active Directory, políticas de acceso y roles basados en seguridad (RBAC).

ETL Fundamentals:

Principios de ingeniería ETL/ELT y su aplicación en sistemas de ingeniería escalables.
Servicios de Azure para integración y transformación:

- Azure Data Factory: orquestación de pipelines.
- Azure Data Flow: diseño visual y optimización de transformaciones.
- Azure Synapse Pipelines: flujos avanzados de integración.
Buenas prácticas en diseño modular, versionamiento y monitoreo de pipelines.
Laboratorio: creación de un flujo ETL híbrido en Azure Data Factory con orquestación y validación.

Data Lakes & Ingeniería de Implementación

Conceptos y componentes de un Data Lake moderno: estructura por capas (Raw, Curated,
Analytics, Consumption).
Implementación de Azure Data Lake Storage Gen2: diseño jerárquico, particionamiento y
control de acceso.
Integración del Data Lake con Synapse Analytics y Databricks para sistemas Lakehouse.
Automatización de cargas y versionado de datos.
Diseño de Sistemas de Ingeniería de Datos en Azure (ADF + ADLS + Synapse + Power BI).
Governance & Security: políticas de acceso, cifrado y gestión del linaje con Microsoft Purview.
Laboratorio: creación de un Data Lake seguro e integrado con Synapse y Power BI.

Procesamiento de Datos, Big Data y Streaming

Ingeniería de Procesamiento de Datos en GCP: diseño de pipelines distribuidos y sistemas de ingeniería basados en eventos (event-driven).
Pub/Sub: estructura, temas, suscripciones, patrones de mensajería y buenas prácticas.
Comparación entre Pub/Sub y Kafka en GCP.
Google Kubernetes Engine (GKE): despliegue y orquestación de contenedores para
procesamiento masivo de datos.
BigQuery: modelado de datos, consultas SQL avanzadas, almacenamiento columnar y
optimización de costos.
Cloud Dataflow y Dataproc: procesamiento batch y streaming con Apache Beam y Spark.
Dataform y Composer: orquestación y automatización de pipelines de datos.

Gobierno de Datos, Machine Learning e Inteligencia Artificial en GCP

Gobernanza e Ingeniería de Datos en GCP:
- Diseño de sistemas Lakehouse con BigQuery, Dataplex y Data Catalog.
- Gestión de metadatos, linaje, políticas de acceso y cumplimiento normativo.
- Implementación de modelos de gobierno con Dataplex (dominios, zonas y data
  mesh).
Automatización y DataOps: flujos con Cloud Scheduler, Workflows y Composer.
Machine Learning & AI:

- Introducción a Vertex AI: entrenamiento, despliegue y monitoreo de modelos.
- BigQuery ML: creación de modelos predictivos mediante SQL.
- Integración de IA generativa con Gemini API, Vertex AI Studio y LangChain.
Aplicaciones prácticas de IA:
- Vision AI, Natural Language API, Translation API y Speech-to-Text.
- Integración de modelos en pipelines de datos.

Modulo IX

INGENIERÍA DE DATOS CON MICROSOFT FABRIC E INTELIGENCIA ARTIFICIAL EN LA NUBE

Introducción a Microsoft Fabric y la Ingeniería de Datos Moderna

Fundamentos del análisis de extremo a extremo en la nube.
Ecosistema Microsoft Fabric: Data Factory, Synapse, Power BI, OneLake y Copilot.
Conceptos de ingeniería unificada: workspaces, capacidades, dominios y lakehouse.
Fabric como pilar de la ingeniería Lakehouse y Data Mesh.
Laboratorio: Exploración guiada del entorno Fabric y configuración de un workspace.

Data Lakes, OneLake y el Modelo Lakehouse

¿Qué es un Data Lakehouse y por qué reemplaza a los modelos tradicionales?
OneLake como almacenamiento centralizado en Microsoft Fabric.
Diferencias entre Lakehouse y Warehouse en entornos cloud.
Tablas Delta Lake: estructura, ventajas y comparación con Parquet.
Laboratorio: Creación y exploración de un Lakehouse con tablas Delta.

Procesamiento Distribuido con Apache Spark en Fabric

Introducción a Notebooks en Microsoft Fabric.
Ejecución de código PySpark para ingesta y transformación de datos.
Lectura y escritura en tablas Delta Lake.
Visualización de resultados y generación de datasets analíticos.
Laboratorio: Transformación de datos en Spark y registro en el Lakehouse.

Ingesta de Datos con Dataflows Gen2

Qué son los Dataflows Gen2 y cuándo utilizarlos frente a pipelines.
Conectores y orígenes de datos disponibles (Azure, SQL, APIs, CSV, JSON).
Transformaciones visuales con Power Query Online.
Escritura y actualización de datos en Lakehouse
- Warehouse.
Laboratorio: Ingesta de datos externos y transformación sin código.

Orquestación y Movimiento de Datos

Introducción a los Pipelines en Fabric y su relación con Data Factory.
Triggers, actividades, condiciones y dependencias.
Reutilización de notebooks en pipelines.
Integración completa de experiencias: Dataflows → Lakehouse → Power BI.
Laboratorio: Construcción de un flujo automatizado end-to-end en Fabric.

Ingeniería de Datos para el Modelo de Medallas en el Lakehouse.

Principios del modelo de medallas (Bronze, Silver, Gold).
Organización de carpetas, tablas y linaje del dato.
Políticas de calidad, validación y retención de datos.
Integración con Fabric Pipelines y Spark Notebooks.
Laboratorio: Implementación práctica del modelo medallion en OneLake.

Inteligencia y Procesamiento en Tiempo Real

Introducción a Eventstream y Eventhouse en Fabric.
Sistemas de ingeniería basados en eventos para análisis en tiempo real.
Conexión con Event Hubs y flujo de streaming continuo.
Visualización de eventos y alertas en dashboards Power BI.
Laboratorio: Configuración de flujo en tiempo real con Eventstream y análisis inmediato.

Almacenamiento, Supervisión y Seguridad de los Datos

Introducción al Data Warehouse en Microsoft Fabric.
Diferencias funcionales y estructurales con el Lakehouse.
Monitoreo de cargas y rendimiento con métricas integradas.
Gestión de roles, permisos y políticas de acceso seguro.
Laboratorio: Creación de un Warehouse con control de acceso y monitoreo.

CI/CD, Gobernanza y Administración en Fabric

Fundamentos de DevOps y control de versiones en Fabric.
Integración con Git y entornos de despliegue (desarrollo, prueba, producción).
Políticas de seguridad, cumplimiento y auditoría.
Administración centralizada desde Admin Portal y monitoreo con Purview.
Laboratorio: Configuración de control de versiones y políticas de gobierno de datos.

Proyecto Integrador End-to-End

Diseño de un sistema de ingeniería completo de datos en Fabric: desde la ingesta hasta la
visualización.
Integración de Dataflows, Pipelines, Lakehouse, Spark y Power BI.
Aplicación de buenas prácticas de ingeniería de datos, linaje y calidad del dato.
Laboratorio Final: implementación de un ecosistema de datos empresarial con Microsoft
Fabric y OneLake.

Modulo X

Modulo XI

Modulo XII

Modulo I

FUNDAMENTOS DE INGENIERÍA DE DATOS Y CLOUD COMPUTING PARA BIG DATA

El Rol del Ingeniero de Datos en la Era Cloud

¿Qué hace un ingeniero de datos hoy? Funciones, responsabilidades y habilidades clave.
Diferencias entre Data Engineer, Data Scientist y Data Analyst.
Ecosistema de trabajo: desde la extracción de datos hasta su visualización.
Herramientas y lenguajes más usados: Python, SQL, Spark y Databricks.
Flujos de trabajo colaborativos en entornos cloud.

Fundamentos de Procesamiento de Datos

Qué es un pipeline de datos y cómo se construye.
Conceptos ETL y ELT: diferencias, ventajas y casos prácticos.
Procesamiento por lotes (Batch) vs. procesamiento en tiempo real (Streaming).
Ingeniería de flujo de datos: Dataflow, Event-driven, Pub/Sub
Ejemplo práctico: flujo de datos desde una API hacia un Data Lake.

Tecnologías Clave para la Ingeniería de Datos

Introducción a los frameworks más utilizados: Apache Spark, Kafka, Hadoop, Airflow.
Cómo se conectan estas herramientas dentro de una solución de ingeniería de datos moderna.
Ejemplo: pipeline de ingesta + procesamiento + almacenamiento.
Tendencias actuales: Serverless data pipelines, DataOps e IA asistida para
ingeniería de datos.

Cloud Computing para Big Data

¿Qué es la computación en la nube?
Conceptos de infraestructura y servicios gestionados.
Modelos de servicio: IaaS, PaaS, SaaS.
Comparativa práctica: AWS vs. Azure vs. Google Cloud Platform.
Principales servicios cloud para Big Data:

1. AWS Glue, EMR, Redshift
2. Azure Synapse, Data Factory, Fabric
3. Google BigQuery, Dataflow, Pub/Sub.

Diseño básico de una ingeniería Big Data en la nube.

Modulo II

INTRODUCCIÓN A LA INGENIERÍA DE DATOS EN LA NUBE

Ecosistema de Datos e Inteligencia Artificial en la Era Cloud

Evolución del dato: del almacenamiento local al entorno multicloud.
Cómo la nube transforma la ingeniería de datos y la IA.
El ciclo de vida del dato: captura, procesamiento, análisis, automatización y visualización.
Relación entre Cloud Computing, Data Engineering, Data Science e IA.

Fundamentos de Big Data y Procesamiento Distribuido

Concepto y pilares de Big Data: las 5V (Volumen, Velocidad, Variedad, Veracidad, Valor).
Diferencias entre Big Data, Ciencia de Datos e Ingeniería de Datos.
Ecosistema moderno: del Data Warehouse tradicional al Data Lakehouse.
Tecnologías clave: Apache Spark, Hadoop, Kafka y Databricks.

Ingeniería de Datos Moderna y Escalable

Principios de diseño de ingeniería de datos en la nube.
Tipos de ingeniería: Lambda, Kappa y Data Mesh.
Integración entre almacenamiento, cómputo y análisis.
Modelos de despliegue: nube pública, privada, híbrida y multicloud.
Introducción a Microsoft Fabric, Azure Synapse y Google BigQuery.

Procesamiento de Datos: Batch, Streaming y Tiempo Real

Conceptos clave: ¿qué es el procesamiento por lotes (Batch) y streaming (tiempo real)?
Ingeniería orientada a flujos de datos continuos.
Casos de uso: analítica histórica, monitoreo inteligente y dashboards en vivo.
Herramientas líderes: Apache Spark, Apache Flink y Databricks para procesamiento distribuido.
Diseño de data pipelines híbridos: Batch + Streaming.
Optimización del rendimiento en entornos Cloud-Data.

Gobierno, Calidad y Seguridad del Dato en la Nube

Importancia de la gobernanza de datos en entornos distribuidos.
Principios de calidad, linaje y trazabilidad del dato.
Seguridad, acceso y cumplimiento normativo (IAM, GDPR, ISO 27001).
Ética e IA responsable en el ciclo de vida del dato.

Laboratorio Práctico Integrador

Diseño de una ingeniería de datos básica multicloud (Azure – AWS – GCP).
Implementación de un Data Lake y pipeline inicial.
Visualización y monitoreo de los recursos cloud.
Documentación técnica del flujo de datos y gobernanza aplicada.

Modulo III

INGENIERÍA DE DATOS EN LA NUBE: FLUJOS, ESCALABILIDAD Y CLOUD COMPUTING

Fundamentos de Computación en la Nube

Evolución de la computación: del servidor local al entorno multicloud.
Modelos de servicio: IaaS, PaaS, SaaS – cuándo y cómo elegirlos.
Principales plataformas cloud (Azure, AWS, GCP): fortalezas, diferencias y sinergias.
Principios esenciales: seguridad, escalabilidad, disponibilidad y costoeficiencia.
Sistemas de ingeniería híbridos y multicloud: interoperabilidad entre servicios.
Casos reales de empresas que migraron a la nube con éxito.

Procesamiento de Datos: Lotes, Flujos y Tiempo Real

Conceptos clave: ¿qué es el procesamiento por lotes (Batch) y streaming (tiempo real)?
Ingeniería orientada a flujos de datos continuos.
Casos de uso: analítica histórica, monitoreo inteligente y dashboards en vivo.
Herramientas líderes: Apache Spark, Apache Flink y Databricks para procesamiento distribuido.
Diseño de data pipelines híbridos: Batch + Streaming.
Optimización del rendimiento en entornos Cloud-Data.

Introducción a Kafka e Ingeniería de Datos Basada en Eventos

Conceptos fundamentales de Apache Kafka y su ecosistema.
Productores, consumidores y topics: cómo se comunican los sistemas modernos.
Patrones event-driven y su impacto en la velocidad de las organizaciones.
Comparativa: sistemas de ingeniería tradicionales vs. sistemas de ingeniería basados en eventos.
Integración con Spark Streaming, Flink y servicios Cloud (Event Hub, Pub/Sub, Kinesis).
Casos prácticos:

1. Notificaciones en tiempo real
2. Monitoreo de transacciones financieras
3. Sensores IoT y telemetría industrial

Laboratorio Práctico Integrador

Configuración de un entorno de práctica en Azure o Google Cloud.
Implementación de un pipeline de datos simple con Spark y Kafka.
Simulación de un flujo de eventos en tiempo real (Event Hub / Pub/Sub).
Visualización del resultado en Power BI o Fabric.
Evaluación: documentación del flujo de datos y su diseño de ingeniería.

Modulo IV

PYTHON APLICADO A LA ARQUITECTURA E INGENIERÍA DE DATOS CLOUD

Fundamentos de Automatización y Analítica Inteligente con Python

Conceptos de Inteligencia Artificial, Aprendizaje Automático (Machine Learning) y Minería de Datos en entornos cloud.
Aplicaciones y casos de uso en la industria 4.0: predicción, detección, automatización y optimización.
Etapas del ciclo de vida del dato: ingesta, limpieza, modelado, entrenamiento y despliegue.
Rol de Python en la Ingeniería de Datos, IA y Cloud Computing.
Conexión con servicios de nube: Azure Machine Learning, AWS Sagemaker y Google Vertex AI.

Python para la Implementación de Técnicas de IA

Fundamentos del lenguaje Python: sintaxis, estructuras de datos y buenas prácticas.
Librerías esenciales para ciencia e ingeniería de datos: NumPy, Pandas, Matplotlib, Seaborn, Plotly.
Gestión y transformación de grandes volúmenes de datos con Dask y PySpark.
Modelado predictivo con Scikit-Learn y TensorFlow/Keras.
Uso de APIs de IA generativa y servicios cognitivos (OpenAI API, Azure Cognitive Services).
Implementación de flujos de machine learning automatizados en Databricks Notebooks.

Procesamiento y Manejo de Datos

Manipulación de datos estructurados y no estructurados con Pandas y NumPy.
Conexión e interacción con bases de datos relacionales y NoSQL: SQLAlchemy, MongoDB, BigQuery, Azure SQL, PostgreSQL.
Procesamiento distribuido y pipelines de datos con Apache Spark y PySpark.
Integración de Python con Apache Kafka y Azure Event Hub para datos en tiempo real.
Desarrollo de flujos ETL y ELT con Airflow, Azure Data Factory y Databricks.

Árboles de Decisión y Reglas de Clasificación y Asociación

Árboles de decisión y algoritmos de aprendizaje supervisado: ID3, C4.5, Random Forest, Gradient Boosting y XGBoost.
Evaluación y métricas de rendimiento: Curva ROC, precisión, recall y validación cruzada
Reglas de clasificación y asociación: Apriori, FP-Growth y ECLAT.
Aplicación práctica en detección de patrones, segmentación y análisis de comportamiento del cliente.
Implementación distribuida de modelos en Spark MLlib y Databricks ML.

Redes Neuronales Artificiales y Deep Learning

Conceptos clave de redes neuronales artificiales (ANN) y aprendizaje profundo (Deep Learning).
Modelos predictivos en TensorFlow, PyTorch y Keras.
Redes neuronales multicapa (MLP) y optimización de hiperparámetros.
Redes recurrentes (RNN, LSTM, GRU) para series temporales y predicciones financieras.
Redes convolucionales (CNN) aplicadas a imágenes, video y datos espaciales.
Streaming ML con Kafka y Databricks MLflow: detección de fraudes, IoT y predicción en tiempo real.
Despliegue de modelos de IA en producción usando Azure ML, AWS Sagemaker y Google AI Platform.

Modulo V

INGENIERÍA DE DATOS CON DATABRICKS E INTELIGENCIA ARTIFICIAL EN LA NUBE

Conceptos Básicos de Cloud y Databricks

Fundamentos de computación en la nube y servicios (IaaS, PaaS, SaaS).
Introducción a Azure y Databricks: componentes, estructura y ventajas.
Creación y configuración de un workspace y clúster en Databricks sobre Azure.
Exploración de la interfaz y principales herramientas colaborativas.

Procesamiento con Spark SQL

Fundamentos y estructura del motor Spark SQL.
Lectura y escritura de datos desde distintos formatos (JSON, CSV, Parquet, Delta).
Limpieza, manipulación y transformación de datos con consultas SQL distribuidas.
Consultas analíticas y visualización de resultados dentro de Databricks.

Procesamiento con PySpark

Introducción a la API PySpark para procesamiento distribuido.
Lectura y escritura de datos en múltiples formatos (JSON, CSV, Parquet, Delta).
Aplicación de métodos, funciones y UDFs para transformaciones complejas.
Exploración y visualización de resultados mediante notebooks en Databricks.

Optimizaciones en Delta Lake con PySpark

Introducción al ecosistema Delta Lake.
Creación y gestión de tablas Delta.
Uso de Delta Time Travel (DTT) para auditoría y control de versiones.
Técnicas de optimización: Z-Ordering, Partitioning, Vacuum, Optimize.

ETL con Spark SQL y PySpark

Diseño de procesos ETL y ELT escalables en la nube.
Extracción de datos desde diversas fuentes (bases SQL, Blob Storage, APIs).
Transformaciones complejas y validaciones de calidad.
Integración entre Spark SQL y PySpark en pipelines híbridos.

Incremental Data Processing

Definición de cargas full, incremental y temporales.
Funciones y estrategias para procesamiento incremental de datos.
Uso de herramientas como Merge, Auto Loader y Copy Into.

Workflows en Azure Databricks

Concepto y estructura de workflows.
Creación y gestión de pipelines automatizados.
Definición de Jobs, triggers y dependencias entre tareas.
Parametrización, monitoreo y ejecución de workflows escalables.

Delta Live Tables (DLT)

Introducción a las Delta Live Tables (DLT).
Diseño de pipelines automáticos con control de calidad integrado.
Implementación de validaciones y monitoreo de flujos.

Gobernanza en Databricks con Unity Catalog

Introducción a la gobernanza de datos en la nube.
Creación y gestión del metastore Unity Catalog.
Asignación de roles, permisos y políticas de acceso.
Configuración de Storage Credentials y External Locations.
Implementación de linaje y auditoría de datos.

Seguridad y Administración de Databricks

Administración de usuarios y grupos dentro del Unity Catalog.
Seguridad en red, cifrado y cumplimiento normativo.
Monitoreo de actividad y ejecución de auditorías.
Creación de políticas y buenas prácticas de seguridad.
Laboratorio: Gestión de usuarios, accesos y políticas de seguridad en Databricks.

Construyendo Dataflows y Pipelines con Azure Data Factory

Fundamentos de Azure Data Factory (ADF).
Creación de pipelines y flujos de transformación.
Integración nativa entre ADF y Databricks.
Orquestación de pipelines complejos y manejo de dependencias.

Real-Time Streaming con Event Hubs, Stream Analytics y Databricks

Introducción a Event Hubs y procesamiento en tiempo real.
Integración de Event Hubs con Databricks para ingesta de datos streaming.
Procesamiento de flujos con Spark Streaming y Azure Stream Analytics.

Dashboards en Databricks y Power BI

Generación de dashboards interactivos con PySpark y Spark SQL.
Conexión del Unity Catalog con Power BI.
Diseño de tableros analíticos en tiempo real.

CI/CD Features con Databricks

Introducción a CI/CD y DevOps en entornos de datos.
Uso de Git Repos, Databricks CLI y API.
Integración continua con Azure DevOps y GitHub Actions.

IA Generativa con Databricks

Fundamentos de Inteligencia Artificial Generativa y Modelos de Lenguaje Grande (LLM).
Integración de modelos de IA y Machine Learning dentro de Databricks.
Uso de Model Serving, embeddings y APIs de IA.
Casos de uso: asistentes de datos, clasificación y análisis inteligente.

Modulo VI

INGENIERÍA DE DATOS CON AWS E INTELIGENCIA ARTIFICIAL EN LA NUBE

Introducción a AWS Cloud e Ingeniería de Datos

Principios de Cloud Computing: infraestructura global de AWS, modelos de servicio (IaaS, PaaS, SaaS) y despliegue (público, privado, híbrido).
Ingeniería de Datos en AWS: componentes fundamentales, integración entre almacenamiento, cómputo, análisis e inteligencia artificial.
Comparación entre entornos On-Premise vs. Cloud-Native y buenas prácticas de migración.
Introducción a AWS Well-Architected Framework y sus cinco pilares: seguridad, rendimiento, fiabilidad, optimización de costos y eficiencia operativa.
Identity and Access Management (IAM): definición de roles, políticas, permisos y control de acceso seguro en sistemas de ingeniería distribuidos.

ETL & Data Pipelines Fundamentals

Introducción a los procesos ETL y ELT: diseño, componentes y beneficios en sistemas de
ingeniería escalables.
Servicios de AWS para ingeniería de datos: AWS Glue: integración, orquestación y automatización de pipelines de datos.
- AWS DataBrew: limpieza y transformación visual de datos.
- AWS Step Functions: coordinación de flujos ETL y automatización de procesos.
- Integración de ETL con Amazon S3, Lambda y Redshift para cargas de datos optimizadas.
Diseño de pipelines modernos basados en eventos (event-driven ETL).

Streaming Data e Ingeniería de Eventos

Fundamentos del procesamiento de datos en tiempo real y sistemas de ingeniería basados en eventos.
Modelos de procesamiento: Batch, Near-RealTime y Real-Time.
Servicios AWS para streaming:
- Amazon Kinesis (Data Streams, Data Firehose, Data Analytics): ingesta, almacenamiento y análisis continuo.
- AWS MSK (Managed Streaming for Apache Kafka): configuración, ventajas y casos de uso.
- Comparación Kinesis vs. Kafka: escalabilidad, latencia y estructura.
AWS IoT Core: conectividad, procesamiento de sensores e integración con flujos de streaming.
Integración con AWS Lambda y Glue Streaming para procesamiento en tiempo real.
Diseño de sistemas de ingeniería de datos basados en eventos (EDA).
Laboratorio: implementación de un flujo de datos en tiempo real con Kinesis, Lambda y Glue Streaming.

Relational & NoSQL DataBases en Arquitecturas de Datos

Diseño de arquitecturas de almacenamiento de datos en AWS:

1. Data Lakes, Data Warehouses y Lakehouse
  Architectures.

Introducción a bases de datos relacionales y NoSQL: diferencias, ventajas y casos de uso.
Servicios clave de AWS:

1. Amazon RDS: bases de datos relacionales administradas (PostgreSQL, MySQL, SQL Server, Oracle).
2. Amazon Aurora: arquitectura serverless y replicación automática.
3. Amazon DynamoDB: bases de datos NoSQL escalables, indexación y optimización de consultas.
4. Amazon DMS (Database Migration Service): estrategias de migración, replicación y
  modernización de datos.
5. AWS Glue Catalog y Lake Formation: metadatos, gobernanza y linaje de datos.

Laboratorio: creación de una arquitectura híbrida con RDS y DynamoDB para flujos de datos integrados.

Data Delivery, Visualization & Machine Learning en AWS

Estrategias de data delivery y consumo analítico: automatización con AWS Data Pipeline.
Servicios de consulta y análisis:

1. Amazon Athena: análisis sin servidor sobre datos en S3.
2. Amazon Redshift: modelado de Data Warehouse, optimización de consultas y escalabilidad.

Visualización de datos e inteligencia empresarial:

1. Amazon QuickSight: dashboards interactivos, integración con Redshift y S3.
2. AWS Glue Data Catalog para análisis centralizado.

Introducción al Machine Learning en AWS:

1. Amazon SageMaker: ciclo completo de ML (entrenamiento, evaluación, despliegue).
2. Integración de SageMaker con Glue, Lambda y Redshift para flujos analíticos avanzados.

Modulo VII

INGENIERÍA DE DATOS CON AZURE E INTELIGENCIA ARTIFICIAL EN LA NUBE

Cloud Computing & ETL Fundamentals
Cloud Computing:

Introducción a la computación en la nube: conceptos clave, tipos de servicios (IaaS, PaaS, SaaS) y modelos de despliegue (público, privado, híbrido, multicloud).
Principales componentes de Azure para arquitectura de datos: Data Factory, Synapse, Databricks, Fabric y Purview.
Comparación entre entornos On-Premise y CloudNative; ventajas de escalabilidad, elasticidad y seguridad.
Identity and Access Management (IAM): implementación con Azure Active Directory,
políticas de acceso y roles basados en seguridad (RBAC).

ETL Fundamentals:

Principios de arquitectura ETL/ELT y su aplicación en entornos distribuidos.
Servicios de Azure para integración y transformación:

1. Azure Data Factory: orquestación de pipelines.
2. Azure Data Flow: diseño visual y optimización de transformaciones.
3. Azure Synapse Pipelines: flujos avanzados de integración.

Buenas prácticas en diseño modular, versionamiento y monitoreo de pipelines.
Laboratorio: creación de un flujo ETL híbrido en Azure Data Factory con orquestación y validación.

Data Lakes & Architecture Implementation

Conceptos y componentes de un Data Lake moderno: arquitectura por capas (Raw, Curated, Analytics, Consumption).
Implementación de Azure Data Lake Storage Gen2: diseño jerárquico, particionamiento y control de acceso.
Integración del Data Lake con Synapse Analytics y Databricks para arquitecturas Lakehouse.
Automatización de cargas y versionado de datos.
Diseño de Arquitecturas de Datos en Azure (ADF + ADLS + Synapse + Power BI).
Governance & Security: políticas de acceso, cifrado y gestión del linaje con Microsoft Purview.
Laboratorio: creación de un Data Lake seguro e integrado con Synapse y Power BI.

Streaming Data & Event-Driven Engineering

Principios del procesamiento en flujo: diferencias entre Batch, Near Real-Time y Real- Time.
Diseño de arquitecturas orientadas a eventos (Event-Driven Architectures) en Azure.
Azure Event Hubs y IoT Hub: configuración, ingesta y transmisión de datos a gran escala.
Azure Stream Analytics: creación de flujos de procesamiento y agregaciones en tiempo real.
Integración con Apache Kafka (Azure Managed Kafka) y comparación con Event Hubs.
Azure Synapse Link: conexión en tiempo real entre bases operativas y analíticas.
Laboratorio: procesamiento de datos IoT con Event Hubs, Stream Analytics y Synapse.

Relational & NoSQL DataBases

Fundamentos de arquitectura de almacenamiento en la nube: Data Warehouses, Data Lakes y Lakehouses.
Introducción a bases de datos relacionales y NoSQL: diseño, indexación y escalabilidad

Servicios de Azure:

Azure SQL Database (SQL Server, PostgreSQL, MariaDB): configuración, rendimiento y replicación.
Azure Cosmos DB: bases NoSQL multimodelo (documentos, grafos, clave-valor, columnas) y replicación global.
Azure Synapse Analytics: arquitectura del Data Warehouse cloud-native, distribución de cómputo y optimización de consultas.
Azure Database Migration Service (DMS): migración desde entornos locales a cloud.

Laboratorio: diseño de un modelo relacional y NoSQL conectado al Data Lake y Synapse.

Data Delivery, Visualization & Intelligence

Data Delivery: integración y distribución de datos para consumo empresarial.
Servicios analíticos y de consulta:

1. Azure Synapse Analytics: análisis masivo y consultas paralelas.
2. Azure Data Explorer: análisis de series temporales y datos de telemetría.
3. Azure Fabric: entorno unificado para orquestar datos, analítica y BI.

Data Visualization:

1. Power BI: diseño de dashboards interactivos conectados al Data Lake y Synapse.
2. Microsoft Fabric + Power BI: visualización avanzada y análisis en tiempo real.

Machine Learning Integration:

1. Azure Machine Learning Studio: entrenamiento y despliegue de modelos de ML e IA integrados a Synapse.
2. Conexión con Azure Databricks para procesamiento distribuido y ML pipelines.

Laboratorio: creación de dashboards ejecutivos conectados al Data Lake y ejecución de un modelo predictivo en Azure ML.

Azure Data Engineering & Certification Orientation (DP-700)

Introducción a la ruta profesional de certificación DP-700: Data Engineer Associate.
Revisión de contenidos, dominios y competencias clave del Data Engineering en Microsoft Azure.
Guía práctica para la aplicación de buenas prácticas en pipelines, Data Lakes, Data Warehouses y orquestación con Data Factory y Synapse.
Lineamientos generales para la preparación técnica orientada a certificaciones internacionales.

Modulo VIII

INGENIERÍA DE DATOS CON GOOGLE CLOUD PLATFORM E INTELIGENCIA ARTIFICIAL EN LA NUBE

Fundamentos y Ingeniería de Google Cloud Platform

Cloud Computing:

Introducción a la computación en la nube: conceptos clave, tipos de servicios (IaaS, PaaS,
SaaS) y modelos de despliegue (público, privado, híbrido, multicloud).
Principales componentes de Azure para ingeniería de datos: Data Factory, Synapse, Databricks, Fabric y Purview.
Comparación entre entornos On-Premise y Cloud-Native; ventajas de escalabilidad, elasticidad y seguridad.
Identity and Access Management (IAM): implementación con Azure Active Directory, políticas de acceso y roles basados en seguridad (RBAC).

ETL Fundamentals:

Principios de ingeniería ETL/ELT y su aplicación en sistemas de ingeniería escalables.
Servicios de Azure para integración y transformación:

- Azure Data Factory: orquestación de pipelines.
- Azure Data Flow: diseño visual y optimización de transformaciones.
- Azure Synapse Pipelines: flujos avanzados de integración.
Buenas prácticas en diseño modular, versionamiento y monitoreo de pipelines.
Laboratorio: creación de un flujo ETL híbrido en Azure Data Factory con orquestación y validación.

Data Lakes & Ingeniería de Implementación

Conceptos y componentes de un Data Lake moderno: estructura por capas (Raw, Curated,
Analytics, Consumption).
Implementación de Azure Data Lake Storage Gen2: diseño jerárquico, particionamiento y
control de acceso.
Integración del Data Lake con Synapse Analytics y Databricks para sistemas Lakehouse.
Automatización de cargas y versionado de datos.
Diseño de Sistemas de Ingeniería de Datos en Azure (ADF + ADLS + Synapse + Power BI).
Governance & Security: políticas de acceso, cifrado y gestión del linaje con Microsoft Purview.
Laboratorio: creación de un Data Lake seguro e integrado con Synapse y Power BI.

Procesamiento de Datos, Big Data y Streaming

Ingeniería de Procesamiento de Datos en GCP: diseño de pipelines distribuidos y sistemas de ingeniería basados en eventos (event-driven).
Pub/Sub: estructura, temas, suscripciones, patrones de mensajería y buenas prácticas.
Comparación entre Pub/Sub y Kafka en GCP.
Google Kubernetes Engine (GKE): despliegue y orquestación de contenedores para
procesamiento masivo de datos.
BigQuery: modelado de datos, consultas SQL avanzadas, almacenamiento columnar y
optimización de costos.
Cloud Dataflow y Dataproc: procesamiento batch y streaming con Apache Beam y Spark.
Dataform y Composer: orquestación y automatización de pipelines de datos.

Gobierno de Datos, Machine Learning e Inteligencia Artificial en GCP

Gobernanza e Ingeniería de Datos en GCP:
- Diseño de sistemas Lakehouse con BigQuery, Dataplex y Data Catalog.
- Gestión de metadatos, linaje, políticas de acceso y cumplimiento normativo.
- Implementación de modelos de gobierno con Dataplex (dominios, zonas y data
  mesh).
Automatización y DataOps: flujos con Cloud Scheduler, Workflows y Composer.
Machine Learning & AI:

- Introducción a Vertex AI: entrenamiento, despliegue y monitoreo de modelos.
- BigQuery ML: creación de modelos predictivos mediante SQL.
- Integración de IA generativa con Gemini API, Vertex AI Studio y LangChain.
Aplicaciones prácticas de IA:
- Vision AI, Natural Language API, Translation API y Speech-to-Text.
- Integración de modelos en pipelines de datos.

Modulo IX

INGENIERÍA DE DATOS CON MICROSOFT FABRIC E INTELIGENCIA ARTIFICIAL EN LA NUBE

Introducción a Microsoft Fabric y la Ingeniería de Datos Moderna

Fundamentos del análisis de extremo a extremo en la nube.
Ecosistema Microsoft Fabric: Data Factory, Synapse, Power BI, OneLake y Copilot.
Conceptos de ingeniería unificada: workspaces, capacidades, dominios y lakehouse.
Fabric como pilar de la ingeniería Lakehouse y Data Mesh.
Laboratorio: Exploración guiada del entorno Fabric y configuración de un workspace.

Data Lakes, OneLake y el Modelo Lakehouse

¿Qué es un Data Lakehouse y por qué reemplaza a los modelos tradicionales?
OneLake como almacenamiento centralizado en Microsoft Fabric.
Diferencias entre Lakehouse y Warehouse en entornos cloud.
Tablas Delta Lake: estructura, ventajas y comparación con Parquet.
Laboratorio: Creación y exploración de un Lakehouse con tablas Delta.

Procesamiento Distribuido con Apache Spark en Fabric

Introducción a Notebooks en Microsoft Fabric.
Ejecución de código PySpark para ingesta y transformación de datos.
Lectura y escritura en tablas Delta Lake.
Visualización de resultados y generación de datasets analíticos.
Laboratorio: Transformación de datos en Spark y registro en el Lakehouse.

Ingesta de Datos con Dataflows Gen2

Qué son los Dataflows Gen2 y cuándo utilizarlos frente a pipelines.
Conectores y orígenes de datos disponibles (Azure, SQL, APIs, CSV, JSON).
Transformaciones visuales con Power Query Online.
Escritura y actualización de datos en Lakehouse
- Warehouse.
Laboratorio: Ingesta de datos externos y transformación sin código.

Orquestación y Movimiento de Datos

Introducción a los Pipelines en Fabric y su relación con Data Factory.
Triggers, actividades, condiciones y dependencias.
Reutilización de notebooks en pipelines.
Integración completa de experiencias: Dataflows → Lakehouse → Power BI.
Laboratorio: Construcción de un flujo automatizado end-to-end en Fabric.

Ingeniería de Datos para el Modelo de Medallas en el Lakehouse.

Principios del modelo de medallas (Bronze, Silver, Gold).
Organización de carpetas, tablas y linaje del dato.
Políticas de calidad, validación y retención de datos.
Integración con Fabric Pipelines y Spark Notebooks.
Laboratorio: Implementación práctica del modelo medallion en OneLake.

Inteligencia y Procesamiento en Tiempo Real

Introducción a Eventstream y Eventhouse en Fabric.
Sistemas de ingeniería basados en eventos para análisis en tiempo real.
Conexión con Event Hubs y flujo de streaming continuo.
Visualización de eventos y alertas en dashboards Power BI.
Laboratorio: Configuración de flujo en tiempo real con Eventstream y análisis inmediato.

Almacenamiento, Supervisión y Seguridad de los Datos

Introducción al Data Warehouse en Microsoft Fabric.
Diferencias funcionales y estructurales con el Lakehouse.
Monitoreo de cargas y rendimiento con métricas integradas.
Gestión de roles, permisos y políticas de acceso seguro.
Laboratorio: Creación de un Warehouse con control de acceso y monitoreo.

CI/CD, Gobernanza y Administración en Fabric

Fundamentos de DevOps y control de versiones en Fabric.
Integración con Git y entornos de despliegue (desarrollo, prueba, producción).
Políticas de seguridad, cumplimiento y auditoría.
Administración centralizada desde Admin Portal y monitoreo con Purview.
Laboratorio: Configuración de control de versiones y políticas de gobierno de datos.

Proyecto Integrador End-to-End

Diseño de un sistema de ingeniería completo de datos en Fabric: desde la ingesta hasta la
visualización.
Integración de Dataflows, Pipelines, Lakehouse, Spark y Power BI.
Aplicación de buenas prácticas de ingeniería de datos, linaje y calidad del dato.
Laboratorio Final: implementación de un ecosistema de datos empresarial con Microsoft
Fabric y OneLake.

"Este programa me ayudó a fortalecer mi investigación con herramientas estadísticas y de inteligencia artificial. Es práctico, completo y totalmente aplicable a tesis y proyectos académicos."

"Gracias a este programa, logré estructurar mi tesis doctoral con un enfoque metodológico sólido. Las herramientas de inteligencia artificial que aprendí me ayudaron a analizar grandes volúmenes de datos de forma eficiente."

"La combinación entre estadística aplicada e IA fue justo lo que necesitaba para llevar mis investigaciones al siguiente nivel. Recomiendo esta especialización a todo investigador serio."

"El programa no solo me dio conocimientos técnicos, también me enseñó a aplicarlos en el contexto real de mi tesis. ¡Una inversión totalmente valiosa!"

"Aprendí a utilizar metodologías científicas rigurosas junto con herramientas prácticas de IA, lo que ha mejorado significativamente la calidad de mis reportes y modelos."