USD
  • PEN
  • USD
  • EUR
  • COP
  • BOB
  • MXN
  • CLP
  • BRL
1
USD
  • PEN
  • USD
  • EUR
  • COP
  • BOB
  • MXN
  • CLP
  • BRL
1

250126 PAE IDIAN Programa de Alta Especialización Internacional en Ingeniería de Datos con Inteligencia Artificial en la Nube

Docentes Especialistas

Fecha de inicio

25 DE ENERO

Horarios

Fecha de finalizacion

9 CERTIFICADOS

Docentes Expertos

Docentes Expertos

¿Qué aprenderás en este curso?

Publico objetivo

Resultados esperados

FUNDAMENTOS DE INGENIERÍA DE DATOS Y CLOUD COMPUTING PARA BIG DATA

El Rol del Ingeniero de Datos en la Era Cloud

  • ¿Qué hace un ingeniero de datos hoy? Funciones, responsabilidades y habilidades clave.
  • Diferencias entre Data Engineer, Data Scientist y Data Analyst.
  • Ecosistema de trabajo: desde la extracción de datos hasta su visualización.
  • Herramientas y lenguajes más usados: Python, SQL, Spark y Databricks.
  • Flujos de trabajo colaborativos en entornos cloud.

Fundamentos de Procesamiento de Datos

  • Qué es un pipeline de datos y cómo se construye.
  • Conceptos ETL y ELT: diferencias, ventajas y casos prácticos.
  •  Procesamiento por lotes (Batch) vs. procesamiento en tiempo real (Streaming).
  • Ingeniería de flujo de datos: Dataflow, Event-driven, Pub/Sub
  • Ejemplo práctico: flujo de datos desde una API hacia un Data Lake.

Tecnologías Clave para la Ingeniería de Datos

  • Introducción a los frameworks más utilizados: Apache Spark, Kafka, Hadoop, Airflow.
  • Cómo se conectan estas herramientas dentro de una solución de ingeniería de datos moderna.
  • Ejemplo: pipeline de ingesta + procesamiento + almacenamiento.
  • Tendencias actuales: Serverless data pipelines, DataOps e IA asistida para
    ingeniería de datos.

Cloud Computing para Big Data

  • ¿Qué es la computación en la nube?
  • Conceptos de infraestructura y servicios gestionados.
  • Modelos de servicio: IaaS, PaaS, SaaS.
  • Comparativa práctica: AWS vs. Azure vs. Google Cloud Platform.
  • Principales servicios cloud para Big Data:
    1.  AWS Glue, EMR, Redshift
    2. Azure Synapse, Data Factory, Fabric
    3. Google BigQuery, Dataflow, Pub/Sub.
  • Diseño básico de una ingeniería Big Data en la nube.

INTRODUCCIÓN A LA INGENIERÍA DE DATOS EN LA NUBE

Ecosistema de Datos e Inteligencia Artificial en la Era Cloud

  •  Evolución del dato: del almacenamiento local al entorno multicloud.
  • Cómo la nube transforma la ingeniería de datos y la IA.
  • El ciclo de vida del dato: captura, procesamiento, análisis, automatización y visualización.
  • Relación entre Cloud Computing, Data Engineering, Data Science e IA.

Fundamentos de Big Data y Procesamiento Distribuido

  • Concepto y pilares de Big Data: las 5V (Volumen, Velocidad, Variedad, Veracidad, Valor).
  • Diferencias entre Big Data, Ciencia de Datos e Ingeniería de Datos.
  • Ecosistema moderno: del Data Warehouse tradicional al Data Lakehouse.
  • Tecnologías clave: Apache Spark, Hadoop, Kafka y Databricks.

Ingeniería de Datos Moderna y Escalable

  • Principios de diseño de ingeniería de datos en la nube.
  • Tipos de ingeniería: Lambda, Kappa y Data Mesh.
  • Integración entre almacenamiento, cómputo y análisis.
  • Modelos de despliegue: nube pública, privada, híbrida y multicloud.
  • Introducción a Microsoft Fabric, Azure Synapse y Google BigQuery.

Procesamiento de Datos: Batch, Streaming y Tiempo Real

  • Conceptos clave: ¿qué es el procesamiento por lotes (Batch) y streaming (tiempo real)?
  • Ingeniería orientada a flujos de datos continuos.
  • Casos de uso: analítica histórica, monitoreo inteligente y dashboards en vivo.
  • Herramientas líderes: Apache Spark, Apache Flink y Databricks para procesamiento distribuido.
  • Diseño de data pipelines híbridos: Batch + Streaming.
  • Optimización del rendimiento en entornos Cloud-Data.

Gobierno, Calidad y Seguridad del Dato en la Nube

  • Importancia de la gobernanza de datos en entornos distribuidos.
  • Principios de calidad, linaje y trazabilidad del dato.
  • Seguridad, acceso y cumplimiento normativo (IAM, GDPR, ISO 27001).
  • Ética e IA responsable en el ciclo de vida del dato.

Laboratorio Práctico Integrador

  • Diseño de una ingeniería de datos básica multicloud (Azure – AWS – GCP).
  • Implementación de un Data Lake y pipeline inicial.
  • Visualización y monitoreo de los recursos cloud.
  • Documentación técnica del flujo de datos y gobernanza aplicada.

INGENIERÍA DE DATOS EN LA NUBE: FLUJOS, ESCALABILIDAD Y CLOUD COMPUTING

Fundamentos de Computación en la Nube

  • Evolución de la computación: del servidor local al entorno multicloud.
  • Modelos de servicio: IaaS, PaaS, SaaS – cuándo y cómo elegirlos.
  • Principales plataformas cloud (Azure, AWS, GCP): fortalezas, diferencias y sinergias.
  • Principios esenciales: seguridad, escalabilidad, disponibilidad y costoeficiencia.
  • Sistemas de ingeniería híbridos y multicloud: interoperabilidad entre servicios.
  • Casos reales de empresas que migraron a la nube con éxito.

Procesamiento de Datos: Lotes, Flujos y Tiempo Real

  • Conceptos clave: ¿qué es el procesamiento por lotes (Batch) y streaming (tiempo real)?
  • Ingeniería orientada a flujos de datos continuos.
  • Casos de uso: analítica histórica, monitoreo inteligente y dashboards en vivo.
  • Herramientas líderes: Apache Spark, Apache Flink y Databricks para procesamiento distribuido.
  • Diseño de data pipelines híbridos: Batch + Streaming.
  • Optimización del rendimiento en entornos Cloud-Data.

Introducción a Kafka e Ingeniería de Datos Basada en Eventos

  • Conceptos fundamentales de Apache Kafka y su ecosistema.
  • Productores, consumidores y topics: cómo se comunican los sistemas modernos.
  • Patrones event-driven y su impacto en la velocidad de las organizaciones.
  • Comparativa: sistemas de ingeniería tradicionales vs. sistemas de ingeniería basados en eventos.
  • Integración con Spark Streaming, Flink y servicios Cloud (Event Hub, Pub/Sub, Kinesis).
  • Casos prácticos:
    1. Notificaciones en tiempo real
    2. Monitoreo de transacciones financieras
    3. Sensores IoT y telemetría industrial

Laboratorio Práctico Integrador

  • Configuración de un entorno de práctica en Azure o Google Cloud.
  • Implementación de un pipeline de datos simple con Spark y Kafka.
  • Simulación de un flujo de eventos en tiempo real (Event Hub / Pub/Sub).
  • Visualización del resultado en Power BI o Fabric.
  • Evaluación: documentación del flujo de datos y su diseño de ingeniería.

PYTHON APLICADO A LA ARQUITECTURA E INGENIERÍA DE DATOS CLOUD

Fundamentos de Automatización y Analítica Inteligente con Python

  • Conceptos de Inteligencia Artificial, Aprendizaje Automático (Machine Learning) y Minería de Datos en entornos cloud.
  • Aplicaciones y casos de uso en la industria 4.0: predicción, detección, automatización y optimización.
  • Etapas del ciclo de vida del dato: ingesta, limpieza, modelado, entrenamiento y despliegue.
  • Rol de Python en la Ingeniería de Datos, IA y Cloud Computing.
  • Conexión con servicios de nube: Azure Machine Learning, AWS Sagemaker y Google Vertex AI.

Python para la Implementación de Técnicas de IA

  • Fundamentos del lenguaje Python: sintaxis, estructuras de datos y buenas prácticas.
  • Librerías esenciales para ciencia e ingeniería de datos: NumPy, Pandas, Matplotlib, Seaborn, Plotly.
  • Gestión y transformación de grandes volúmenes de datos con Dask y PySpark.
  • Modelado predictivo con Scikit-Learn y TensorFlow/Keras.
  • Uso de APIs de IA generativa y servicios cognitivos (OpenAI API, Azure Cognitive Services).
  • Implementación de flujos de machine learning automatizados en Databricks Notebooks.

Procesamiento y Manejo de Datos

  • Manipulación de datos estructurados y no estructurados con Pandas y NumPy.
  • Conexión e interacción con bases de datos relacionales y NoSQL: SQLAlchemy, MongoDB, BigQuery, Azure SQL, PostgreSQL.
  • Procesamiento distribuido y pipelines de datos con Apache Spark y PySpark.
  • Integración de Python con Apache Kafka y Azure Event Hub para datos en tiempo real.
  • Desarrollo de flujos ETL y ELT con Airflow, Azure Data Factory y Databricks.

Árboles de Decisión y Reglas de Clasificación y Asociación

  • Árboles de decisión y algoritmos de aprendizaje supervisado: ID3, C4.5, Random Forest, Gradient Boosting y XGBoost.
  • Evaluación y métricas de rendimiento: Curva ROC, precisión, recall y validación cruzada
  • Reglas de clasificación y asociación: Apriori, FP-Growth y ECLAT.
  • Aplicación práctica en detección de patrones, segmentación y análisis de comportamiento del cliente.
  • Implementación distribuida de modelos en Spark MLlib y Databricks ML.

Redes Neuronales Artificiales y Deep Learning

  • Conceptos clave de redes neuronales artificiales (ANN) y aprendizaje profundo (Deep Learning).
  • Modelos predictivos en TensorFlow, PyTorch y Keras.
  • Redes neuronales multicapa (MLP) y optimización de hiperparámetros.
  • Redes recurrentes (RNN, LSTM, GRU) para series temporales y predicciones financieras.
  • Redes convolucionales (CNN) aplicadas a imágenes, video y datos espaciales.
  • Streaming ML con Kafka y Databricks MLflow: detección de fraudes, IoT y predicción en tiempo real.
  • Despliegue de modelos de IA en producción usando Azure ML, AWS Sagemaker y Google AI Platform.

INGENIERÍA DE DATOS CON DATABRICKS E INTELIGENCIA ARTIFICIAL EN LA NUBE

Conceptos Básicos de Cloud y Databricks

  • Fundamentos de computación en la nube y servicios (IaaS, PaaS, SaaS).
  • Introducción a Azure y Databricks: componentes, estructura y ventajas.
  • Creación y configuración de un workspace y clúster en Databricks sobre Azure.
  • Exploración de la interfaz y principales herramientas colaborativas.

Procesamiento con Spark SQL

  • Fundamentos y estructura del motor Spark SQL.
  • Lectura y escritura de datos desde distintos formatos (JSON, CSV, Parquet, Delta).
  • Limpieza, manipulación y transformación de datos con consultas SQL distribuidas.
  • Consultas analíticas y visualización de resultados dentro de Databricks.

Procesamiento con PySpark

  • Introducción a la API PySpark para procesamiento distribuido.
  • Lectura y escritura de datos en múltiples formatos (JSON, CSV, Parquet, Delta).
  • Aplicación de métodos, funciones y UDFs para transformaciones complejas.
  • Exploración y visualización de resultados mediante notebooks en Databricks.

Optimizaciones en Delta Lake con PySpark

  • Introducción al ecosistema Delta Lake.
  • Creación y gestión de tablas Delta.
  • Uso de Delta Time Travel (DTT) para auditoría y control de versiones.
  • Técnicas de optimización: Z-Ordering, Partitioning, Vacuum, Optimize.

ETL con Spark SQL y PySpark

  • Diseño de procesos ETL y ELT escalables en la nube.
  • Extracción de datos desde diversas fuentes (bases SQL, Blob Storage, APIs).
  • Transformaciones complejas y validaciones de calidad.
  • Integración entre Spark SQL y PySpark en pipelines híbridos.

Incremental Data Processing

  • Definición de cargas full, incremental y temporales.
  • Funciones y estrategias para procesamiento incremental de datos.
  • Uso de herramientas como Merge, Auto Loader y Copy Into.

Workflows en Azure Databricks

  • Concepto y estructura de workflows.
  • Creación y gestión de pipelines automatizados.
  • Definición de Jobs, triggers y dependencias entre tareas.
  • Parametrización, monitoreo y ejecución de workflows escalables.

Delta Live Tables (DLT)

  • Introducción a las Delta Live Tables (DLT).
  • Diseño de pipelines automáticos con control de calidad integrado.
  • Implementación de validaciones y monitoreo de flujos.

Gobernanza en Databricks con Unity Catalog

  • Introducción a la gobernanza de datos en la nube.
  • Creación y gestión del metastore Unity Catalog.
  • Asignación de roles, permisos y políticas de acceso.
  • Configuración de Storage Credentials y External Locations.
  • Implementación de linaje y auditoría de datos.

Seguridad y Administración de Databricks

  • Administración de usuarios y grupos dentro del Unity Catalog.
  • Seguridad en red, cifrado y cumplimiento normativo.
  • Monitoreo de actividad y ejecución de auditorías.
  • Creación de políticas y buenas prácticas de seguridad.
  • Laboratorio: Gestión de usuarios, accesos y políticas de seguridad en Databricks.

Construyendo Dataflows y Pipelines con Azure Data Factory

  • Fundamentos de Azure Data Factory (ADF).
  • Creación de pipelines y flujos de transformación.
  • Integración nativa entre ADF y Databricks.
  • Orquestación de pipelines complejos y manejo de dependencias.

Real-Time Streaming con Event Hubs, Stream Analytics y Databricks

  • Introducción a Event Hubs y procesamiento en tiempo real.
  • Integración de Event Hubs con Databricks para ingesta de datos streaming.
  • Procesamiento de flujos con Spark Streaming y Azure Stream Analytics.

Dashboards en Databricks y Power BI

  • Generación de dashboards interactivos con PySpark y Spark SQL.
  • Conexión del Unity Catalog con Power BI.
  • Diseño de tableros analíticos en tiempo real.

CI/CD Features con Databricks

  • Introducción a CI/CD y DevOps en entornos de datos.
  • Uso de Git Repos, Databricks CLI y API.
  • Integración continua con Azure DevOps y GitHub Actions.

IA Generativa con Databricks

  • Fundamentos de Inteligencia Artificial Generativa y Modelos de Lenguaje Grande (LLM).
  • Integración de modelos de IA y Machine Learning dentro de Databricks.
  • Uso de Model Serving, embeddings y APIs de IA.
  • Casos de uso: asistentes de datos, clasificación y análisis inteligente.

INGENIERÍA DE DATOS CON AWS E INTELIGENCIA ARTIFICIAL EN LA NUBE

Introducción a AWS Cloud e Ingeniería de Datos

  • Principios de Cloud Computing: infraestructura global de AWS, modelos de servicio (IaaS, PaaS, SaaS) y despliegue (público, privado, híbrido).
  • Ingeniería de Datos en AWS: componentes fundamentales, integración entre almacenamiento, cómputo, análisis e inteligencia artificial.
  • Comparación entre entornos On-Premise vs. Cloud-Native y buenas prácticas de migración.
  • Introducción a AWS Well-Architected Framework y sus cinco pilares: seguridad, rendimiento, fiabilidad, optimización de costos y eficiencia operativa.
  • Identity and Access Management (IAM): definición de roles, políticas, permisos y control de acceso seguro en sistemas de ingeniería distribuidos.

ETL & Data Pipelines Fundamentals

  • Introducción a los procesos ETL y ELT: diseño, componentes y beneficios en sistemas de
    ingeniería escalables.
  • Servicios de AWS para ingeniería de datos: AWS Glue: integración, orquestación y automatización de pipelines de datos.
    • AWS DataBrew: limpieza y transformación visual de datos.
    • AWS Step Functions: coordinación de flujos ETL y automatización de procesos.
    • Integración de ETL con Amazon S3, Lambda y Redshift para cargas de datos optimizadas.
  • Diseño de pipelines modernos basados en eventos (event-driven ETL).

Streaming Data e Ingeniería de Eventos

  • Fundamentos del procesamiento de datos en tiempo real y sistemas de ingeniería basados en eventos.
  • Modelos de procesamiento: Batch, Near-RealTime y Real-Time.
  • Servicios AWS para streaming:
    • Amazon Kinesis (Data Streams, Data Firehose, Data Analytics): ingesta, almacenamiento y análisis continuo.
    • AWS MSK (Managed Streaming for Apache Kafka): configuración, ventajas y casos de uso.
    • Comparación Kinesis vs. Kafka: escalabilidad, latencia y estructura.
  • AWS IoT Core: conectividad, procesamiento de sensores e integración con flujos de streaming.
  • Integración con AWS Lambda y Glue Streaming para procesamiento en tiempo real.
  • Diseño de sistemas de ingeniería de datos basados en eventos (EDA).
  • Laboratorio: implementación de un flujo de datos en tiempo real con Kinesis, Lambda y Glue Streaming.

Relational & NoSQL DataBases en Arquitecturas de Datos

  • Diseño de arquitecturas de almacenamiento de datos en AWS:
    1. Data Lakes, Data Warehouses y Lakehouse
      Architectures.
  • Introducción a bases de datos relacionales y NoSQL: diferencias, ventajas y casos de uso.
  • Servicios clave de AWS:
    1. Amazon RDS: bases de datos relacionales administradas (PostgreSQL, MySQL, SQL Server, Oracle).
    2. Amazon Aurora: arquitectura serverless y replicación automática.
    3. Amazon DynamoDB: bases de datos NoSQL escalables, indexación y optimización de consultas.
    4. Amazon DMS (Database Migration Service): estrategias de migración, replicación y
      modernización de datos.
    5. AWS Glue Catalog y Lake Formation: metadatos, gobernanza y linaje de datos.
  • Laboratorio: creación de una arquitectura híbrida con RDS y DynamoDB para flujos de datos integrados.

Data Delivery, Visualization & Machine Learning en AWS

  • Estrategias de data delivery y consumo analítico: automatización con AWS Data Pipeline.
  • Servicios de consulta y análisis:
    1. Amazon Athena: análisis sin servidor sobre datos en S3.
    2. Amazon Redshift: modelado de Data Warehouse, optimización de consultas y escalabilidad.
  • Visualización de datos e inteligencia empresarial:
    1. Amazon QuickSight: dashboards interactivos, integración con Redshift y S3.
    2. AWS Glue Data Catalog para análisis centralizado.
  • Introducción al Machine Learning en AWS:
    1. Amazon SageMaker: ciclo completo de ML (entrenamiento, evaluación, despliegue).
    2. Integración de SageMaker con Glue, Lambda y Redshift para flujos analíticos avanzados.

INGENIERÍA DE DATOS CON AZURE E INTELIGENCIA ARTIFICIAL EN LA NUBE

Cloud Computing & ETL Fundamentals
Cloud Computing:

  • Introducción a la computación en la nube: conceptos clave, tipos de servicios (IaaS, PaaS, SaaS) y modelos de despliegue (público, privado, híbrido, multicloud).
  • Principales componentes de Azure para arquitectura de datos: Data Factory, Synapse, Databricks, Fabric y Purview.
  • Comparación entre entornos On-Premise y CloudNative; ventajas de escalabilidad, elasticidad y seguridad.
  • Identity and Access Management (IAM): implementación con Azure Active Directory,
    políticas de acceso y roles basados en seguridad (RBAC).

ETL Fundamentals:

  • Principios de arquitectura ETL/ELT y su aplicación en entornos distribuidos.
  • Servicios de Azure para integración y transformación:
    1. Azure Data Factory: orquestación de pipelines.
    2. Azure Data Flow: diseño visual y optimización de transformaciones.
    3. Azure Synapse Pipelines: flujos avanzados de integración.
  • Buenas prácticas en diseño modular, versionamiento y monitoreo de pipelines.
  • Laboratorio: creación de un flujo ETL híbrido en Azure Data Factory con orquestación y validación.

Data Lakes & Architecture Implementation

  • Conceptos y componentes de un Data Lake moderno: arquitectura por capas (Raw, Curated, Analytics, Consumption).
  • Implementación de Azure Data Lake Storage Gen2: diseño jerárquico, particionamiento y control de acceso.
  • Integración del Data Lake con Synapse Analytics y Databricks para arquitecturas Lakehouse.
  • Automatización de cargas y versionado de datos.
  • Diseño de Arquitecturas de Datos en Azure (ADF + ADLS + Synapse + Power BI).
  • Governance & Security: políticas de acceso, cifrado y gestión del linaje con Microsoft Purview.
  • Laboratorio: creación de un Data Lake seguro e integrado con Synapse y Power BI.

Streaming Data & Event-Driven Engineering

  • Principios del procesamiento en flujo: diferencias entre Batch, Near Real-Time y Real- Time.
  • Diseño de arquitecturas orientadas a eventos (Event-Driven Architectures) en Azure.
  • Azure Event Hubs y IoT Hub: configuración, ingesta y transmisión de datos a gran escala.
  • Azure Stream Analytics: creación de flujos de procesamiento y agregaciones en tiempo real.
  • Integración con Apache Kafka (Azure Managed Kafka) y comparación con Event Hubs.
  • Azure Synapse Link: conexión en tiempo real entre bases operativas y analíticas.
  • Laboratorio: procesamiento de datos IoT con Event Hubs, Stream Analytics y Synapse.

Relational & NoSQL DataBases

  • Fundamentos de arquitectura de almacenamiento en la nube: Data Warehouses, Data Lakes y Lakehouses.
  • Introducción a bases de datos relacionales y NoSQL: diseño, indexación y escalabilidad

Servicios de Azure:

  • Azure SQL Database (SQL Server, PostgreSQL, MariaDB): configuración, rendimiento y replicación.
  • Azure Cosmos DB: bases NoSQL multimodelo (documentos, grafos, clave-valor, columnas) y replicación global.
  • Azure Synapse Analytics: arquitectura del Data Warehouse cloud-native, distribución de cómputo y optimización de consultas.
  • Azure Database Migration Service (DMS): migración desde entornos locales a cloud.

Laboratorio: diseño de un modelo relacional y NoSQL conectado al Data Lake y Synapse.

Data Delivery, Visualization & Intelligence

  • Data Delivery: integración y distribución de datos para consumo empresarial.
  • Servicios analíticos y de consulta:
    1. Azure Synapse Analytics: análisis masivo y consultas paralelas.
    2. Azure Data Explorer: análisis de series temporales y datos de telemetría.
    3. Azure Fabric: entorno unificado para orquestar datos, analítica y BI.
  • Data Visualization:
    1. Power BI: diseño de dashboards interactivos conectados al Data Lake y Synapse.
    2. Microsoft Fabric + Power BI: visualización avanzada y análisis en tiempo real.
  • Machine Learning Integration:
    1. Azure Machine Learning Studio: entrenamiento y despliegue de modelos de ML e IA integrados a Synapse.
    2. Conexión con Azure Databricks para procesamiento distribuido y ML pipelines.
  • Laboratorio: creación de dashboards ejecutivos conectados al Data Lake y ejecución de un modelo predictivo en Azure ML.

Azure Data Engineering & Certification Orientation (DP-700)

  • Introducción a la ruta profesional de certificación DP-700: Data Engineer Associate.
  • Revisión de contenidos, dominios y competencias clave del Data Engineering en Microsoft Azure.
  • Guía práctica para la aplicación de buenas prácticas en pipelines, Data Lakes, Data Warehouses y orquestación con Data Factory y Synapse.
  • Lineamientos generales para la preparación técnica orientada a certificaciones internacionales.

INGENIERÍA DE DATOS CON GOOGLE CLOUD PLATFORM E INTELIGENCIA ARTIFICIAL EN LA NUBE

Fundamentos y Ingeniería de Google Cloud Platform

Cloud Computing:

  • Introducción a la computación en la nube: conceptos clave, tipos de servicios (IaaS, PaaS,
    SaaS) y modelos de despliegue (público, privado, híbrido, multicloud).
  • Principales componentes de Azure para ingeniería de datos: Data Factory, Synapse, Databricks, Fabric y Purview.
  • Comparación entre entornos On-Premise y Cloud-Native; ventajas de escalabilidad, elasticidad y seguridad.
  • Identity and Access Management (IAM): implementación con Azure Active Directory, políticas de acceso y roles basados en seguridad (RBAC).

ETL Fundamentals:

  • Principios de ingeniería ETL/ELT y su aplicación en sistemas de ingeniería escalables.
  • Servicios de Azure para integración y transformación:
    • Azure Data Factory: orquestación de pipelines.
    • Azure Data Flow: diseño visual y optimización de transformaciones.
    • Azure Synapse Pipelines: flujos avanzados de integración.
  • Buenas prácticas en diseño modular, versionamiento y monitoreo de pipelines.
  • Laboratorio: creación de un flujo ETL híbrido en Azure Data Factory con orquestación y validación.

Data Lakes & Ingeniería de Implementación

  • Conceptos y componentes de un Data Lake moderno: estructura por capas (Raw, Curated,
    Analytics, Consumption).
  • Implementación de Azure Data Lake Storage Gen2: diseño jerárquico, particionamiento y
    control de acceso.
  • Integración del Data Lake con Synapse Analytics y Databricks para sistemas Lakehouse.
  • Automatización de cargas y versionado de datos.
  • Diseño de Sistemas de Ingeniería de Datos en Azure (ADF + ADLS + Synapse + Power BI).
  • Governance & Security: políticas de acceso, cifrado y gestión del linaje con Microsoft Purview.
  • Laboratorio: creación de un Data Lake seguro e integrado con Synapse y Power BI.

Procesamiento de Datos, Big Data y Streaming

  • Ingeniería de Procesamiento de Datos en GCP: diseño de pipelines distribuidos y sistemas de ingeniería basados en eventos (event-driven).
  • Pub/Sub: estructura, temas, suscripciones, patrones de mensajería y buenas prácticas.
  • Comparación entre Pub/Sub y Kafka en GCP.
  • Google Kubernetes Engine (GKE): despliegue y orquestación de contenedores para
    procesamiento masivo de datos.
  • BigQuery: modelado de datos, consultas SQL avanzadas, almacenamiento columnar y
    optimización de costos.
  • Cloud Dataflow y Dataproc: procesamiento batch y streaming con Apache Beam y Spark.
  • Dataform y Composer: orquestación y automatización de pipelines de datos.

Gobierno de Datos, Machine Learning e Inteligencia Artificial en GCP

  • Gobernanza e Ingeniería de Datos en GCP:
    • Diseño de sistemas Lakehouse con BigQuery, Dataplex y Data Catalog.
    • Gestión de metadatos, linaje, políticas de acceso y cumplimiento normativo.
    • Implementación de modelos de gobierno con Dataplex (dominios, zonas y data
      mesh).
  • Automatización y DataOps: flujos con Cloud Scheduler, Workflows y Composer.
  • Machine Learning & AI:
    • Introducción a Vertex AI: entrenamiento, despliegue y monitoreo de modelos.
    • BigQuery ML: creación de modelos predictivos mediante SQL.
    • Integración de IA generativa con Gemini API, Vertex AI Studio y LangChain.
  • Aplicaciones prácticas de IA:
    • Vision AI, Natural Language API, Translation API y Speech-to-Text.
    • Integración de modelos en pipelines de datos.

INGENIERÍA DE DATOS CON MICROSOFT FABRIC E INTELIGENCIA ARTIFICIAL EN LA NUBE

Introducción a Microsoft Fabric y la Ingeniería de Datos Moderna

  • Fundamentos del análisis de extremo a extremo en la nube.
  • Ecosistema Microsoft Fabric: Data Factory, Synapse, Power BI, OneLake y Copilot.
  • Conceptos de ingeniería unificada: workspaces, capacidades, dominios y lakehouse.
  • Fabric como pilar de la ingeniería Lakehouse y Data Mesh.
  • Laboratorio: Exploración guiada del entorno Fabric y configuración de un workspace.

Data Lakes, OneLake y el Modelo Lakehouse

  • ¿Qué es un Data Lakehouse y por qué reemplaza a los modelos tradicionales?
  • OneLake como almacenamiento centralizado en Microsoft Fabric.
  • Diferencias entre Lakehouse y Warehouse en entornos cloud.
  • Tablas Delta Lake: estructura, ventajas y comparación con Parquet.
  • Laboratorio: Creación y exploración de un Lakehouse con tablas Delta.

Procesamiento Distribuido con Apache Spark en Fabric

  • Introducción a Notebooks en Microsoft Fabric.
  • Ejecución de código PySpark para ingesta y transformación de datos.
  • Lectura y escritura en tablas Delta Lake.
  • Visualización de resultados y generación de datasets analíticos.
  • Laboratorio: Transformación de datos en Spark y registro en el Lakehouse.

Ingesta de Datos con Dataflows Gen2

  • Qué son los Dataflows Gen2 y cuándo utilizarlos frente a pipelines.
  • Conectores y orígenes de datos disponibles (Azure, SQL, APIs, CSV, JSON).
  • Transformaciones visuales con Power Query Online.
  • Escritura y actualización de datos en Lakehouse
    • Warehouse.
  • Laboratorio: Ingesta de datos externos y transformación sin código.

Orquestación y Movimiento de Datos

  • Introducción a los Pipelines en Fabric y su relación con Data Factory.
  • Triggers, actividades, condiciones y dependencias.
  • Reutilización de notebooks en pipelines.
  • Integración completa de experiencias: Dataflows → Lakehouse → Power BI.
  • Laboratorio: Construcción de un flujo automatizado end-to-end en Fabric.

Ingeniería de Datos para el Modelo de Medallas en el Lakehouse.

  • Principios del modelo de medallas (Bronze, Silver, Gold).
  • Organización de carpetas, tablas y linaje del dato.
  • Políticas de calidad, validación y retención de datos.
  • Integración con Fabric Pipelines y Spark Notebooks.
  • Laboratorio: Implementación práctica del modelo medallion en OneLake.

Inteligencia y Procesamiento en Tiempo Real

  • Introducción a Eventstream y Eventhouse en Fabric.
  • Sistemas de ingeniería basados en eventos para análisis en tiempo real.
  • Conexión con Event Hubs y flujo de streaming continuo.
  • Visualización de eventos y alertas en dashboards Power BI.
  • Laboratorio: Configuración de flujo en tiempo real con Eventstream y análisis inmediato.

Almacenamiento, Supervisión y Seguridad de los Datos

  • Introducción al Data Warehouse en Microsoft Fabric.
  • Diferencias funcionales y estructurales con el Lakehouse.
  • Monitoreo de cargas y rendimiento con métricas integradas.
  • Gestión de roles, permisos y políticas de acceso seguro.
  • Laboratorio: Creación de un Warehouse con control de acceso y monitoreo.

CI/CD, Gobernanza y Administración en Fabric

  • Fundamentos de DevOps y control de versiones en Fabric.
  • Integración con Git y entornos de despliegue (desarrollo, prueba, producción).
  • Políticas de seguridad, cumplimiento y auditoría.
  • Administración centralizada desde Admin Portal y monitoreo con Purview.
  • Laboratorio: Configuración de control de versiones y políticas de gobierno de datos.

Proyecto Integrador End-to-End

  • Diseño de un sistema de ingeniería completo de datos en Fabric: desde la ingesta hasta la
    visualización.
  • Integración de Dataflows, Pipelines, Lakehouse, Spark y Power BI.
  • Aplicación de buenas prácticas de ingeniería de datos, linaje y calidad del dato.
  • Laboratorio Final: implementación de un ecosistema de datos empresarial con Microsoft
    Fabric y OneLake.

FUNDAMENTOS DE INGENIERÍA DE DATOS Y CLOUD COMPUTING PARA BIG DATA

El Rol del Ingeniero de Datos en la Era Cloud

  • ¿Qué hace un ingeniero de datos hoy? Funciones, responsabilidades y habilidades clave.
  • Diferencias entre Data Engineer, Data Scientist y Data Analyst.
  • Ecosistema de trabajo: desde la extracción de datos hasta su visualización.
  • Herramientas y lenguajes más usados: Python, SQL, Spark y Databricks.
  • Flujos de trabajo colaborativos en entornos cloud.

Fundamentos de Procesamiento de Datos

  • Qué es un pipeline de datos y cómo se construye.
  • Conceptos ETL y ELT: diferencias, ventajas y casos prácticos.
  •  Procesamiento por lotes (Batch) vs. procesamiento en tiempo real (Streaming).
  • Ingeniería de flujo de datos: Dataflow, Event-driven, Pub/Sub
  • Ejemplo práctico: flujo de datos desde una API hacia un Data Lake.

Tecnologías Clave para la Ingeniería de Datos

  • Introducción a los frameworks más utilizados: Apache Spark, Kafka, Hadoop, Airflow.
  • Cómo se conectan estas herramientas dentro de una solución de ingeniería de datos moderna.
  • Ejemplo: pipeline de ingesta + procesamiento + almacenamiento.
  • Tendencias actuales: Serverless data pipelines, DataOps e IA asistida para
    ingeniería de datos.

Cloud Computing para Big Data

  • ¿Qué es la computación en la nube?
  • Conceptos de infraestructura y servicios gestionados.
  • Modelos de servicio: IaaS, PaaS, SaaS.
  • Comparativa práctica: AWS vs. Azure vs. Google Cloud Platform.
  • Principales servicios cloud para Big Data:
    1.  AWS Glue, EMR, Redshift
    2. Azure Synapse, Data Factory, Fabric
    3. Google BigQuery, Dataflow, Pub/Sub.
  • Diseño básico de una ingeniería Big Data en la nube.

INTRODUCCIÓN A LA INGENIERÍA DE DATOS EN LA NUBE

Ecosistema de Datos e Inteligencia Artificial en la Era Cloud

  •  Evolución del dato: del almacenamiento local al entorno multicloud.
  • Cómo la nube transforma la ingeniería de datos y la IA.
  • El ciclo de vida del dato: captura, procesamiento, análisis, automatización y visualización.
  • Relación entre Cloud Computing, Data Engineering, Data Science e IA.

Fundamentos de Big Data y Procesamiento Distribuido

  • Concepto y pilares de Big Data: las 5V (Volumen, Velocidad, Variedad, Veracidad, Valor).
  • Diferencias entre Big Data, Ciencia de Datos e Ingeniería de Datos.
  • Ecosistema moderno: del Data Warehouse tradicional al Data Lakehouse.
  • Tecnologías clave: Apache Spark, Hadoop, Kafka y Databricks.

Ingeniería de Datos Moderna y Escalable

  • Principios de diseño de ingeniería de datos en la nube.
  • Tipos de ingeniería: Lambda, Kappa y Data Mesh.
  • Integración entre almacenamiento, cómputo y análisis.
  • Modelos de despliegue: nube pública, privada, híbrida y multicloud.
  • Introducción a Microsoft Fabric, Azure Synapse y Google BigQuery.

Procesamiento de Datos: Batch, Streaming y Tiempo Real

  • Conceptos clave: ¿qué es el procesamiento por lotes (Batch) y streaming (tiempo real)?
  • Ingeniería orientada a flujos de datos continuos.
  • Casos de uso: analítica histórica, monitoreo inteligente y dashboards en vivo.
  • Herramientas líderes: Apache Spark, Apache Flink y Databricks para procesamiento distribuido.
  • Diseño de data pipelines híbridos: Batch + Streaming.
  • Optimización del rendimiento en entornos Cloud-Data.

Gobierno, Calidad y Seguridad del Dato en la Nube

  • Importancia de la gobernanza de datos en entornos distribuidos.
  • Principios de calidad, linaje y trazabilidad del dato.
  • Seguridad, acceso y cumplimiento normativo (IAM, GDPR, ISO 27001).
  • Ética e IA responsable en el ciclo de vida del dato.

Laboratorio Práctico Integrador

  • Diseño de una ingeniería de datos básica multicloud (Azure – AWS – GCP).
  • Implementación de un Data Lake y pipeline inicial.
  • Visualización y monitoreo de los recursos cloud.
  • Documentación técnica del flujo de datos y gobernanza aplicada.

INGENIERÍA DE DATOS EN LA NUBE: FLUJOS, ESCALABILIDAD Y CLOUD COMPUTING

Fundamentos de Computación en la Nube

  • Evolución de la computación: del servidor local al entorno multicloud.
  • Modelos de servicio: IaaS, PaaS, SaaS – cuándo y cómo elegirlos.
  • Principales plataformas cloud (Azure, AWS, GCP): fortalezas, diferencias y sinergias.
  • Principios esenciales: seguridad, escalabilidad, disponibilidad y costoeficiencia.
  • Sistemas de ingeniería híbridos y multicloud: interoperabilidad entre servicios.
  • Casos reales de empresas que migraron a la nube con éxito.

Procesamiento de Datos: Lotes, Flujos y Tiempo Real

  • Conceptos clave: ¿qué es el procesamiento por lotes (Batch) y streaming (tiempo real)?
  • Ingeniería orientada a flujos de datos continuos.
  • Casos de uso: analítica histórica, monitoreo inteligente y dashboards en vivo.
  • Herramientas líderes: Apache Spark, Apache Flink y Databricks para procesamiento distribuido.
  • Diseño de data pipelines híbridos: Batch + Streaming.
  • Optimización del rendimiento en entornos Cloud-Data.

Introducción a Kafka e Ingeniería de Datos Basada en Eventos

  • Conceptos fundamentales de Apache Kafka y su ecosistema.
  • Productores, consumidores y topics: cómo se comunican los sistemas modernos.
  • Patrones event-driven y su impacto en la velocidad de las organizaciones.
  • Comparativa: sistemas de ingeniería tradicionales vs. sistemas de ingeniería basados en eventos.
  • Integración con Spark Streaming, Flink y servicios Cloud (Event Hub, Pub/Sub, Kinesis).
  • Casos prácticos:
    1. Notificaciones en tiempo real
    2. Monitoreo de transacciones financieras
    3. Sensores IoT y telemetría industrial

Laboratorio Práctico Integrador

  • Configuración de un entorno de práctica en Azure o Google Cloud.
  • Implementación de un pipeline de datos simple con Spark y Kafka.
  • Simulación de un flujo de eventos en tiempo real (Event Hub / Pub/Sub).
  • Visualización del resultado en Power BI o Fabric.
  • Evaluación: documentación del flujo de datos y su diseño de ingeniería.

PYTHON APLICADO A LA ARQUITECTURA E INGENIERÍA DE DATOS CLOUD

Fundamentos de Automatización y Analítica Inteligente con Python

  • Conceptos de Inteligencia Artificial, Aprendizaje Automático (Machine Learning) y Minería de Datos en entornos cloud.
  • Aplicaciones y casos de uso en la industria 4.0: predicción, detección, automatización y optimización.
  • Etapas del ciclo de vida del dato: ingesta, limpieza, modelado, entrenamiento y despliegue.
  • Rol de Python en la Ingeniería de Datos, IA y Cloud Computing.
  • Conexión con servicios de nube: Azure Machine Learning, AWS Sagemaker y Google Vertex AI.

Python para la Implementación de Técnicas de IA

  • Fundamentos del lenguaje Python: sintaxis, estructuras de datos y buenas prácticas.
  • Librerías esenciales para ciencia e ingeniería de datos: NumPy, Pandas, Matplotlib, Seaborn, Plotly.
  • Gestión y transformación de grandes volúmenes de datos con Dask y PySpark.
  • Modelado predictivo con Scikit-Learn y TensorFlow/Keras.
  • Uso de APIs de IA generativa y servicios cognitivos (OpenAI API, Azure Cognitive Services).
  • Implementación de flujos de machine learning automatizados en Databricks Notebooks.

Procesamiento y Manejo de Datos

  • Manipulación de datos estructurados y no estructurados con Pandas y NumPy.
  • Conexión e interacción con bases de datos relacionales y NoSQL: SQLAlchemy, MongoDB, BigQuery, Azure SQL, PostgreSQL.
  • Procesamiento distribuido y pipelines de datos con Apache Spark y PySpark.
  • Integración de Python con Apache Kafka y Azure Event Hub para datos en tiempo real.
  • Desarrollo de flujos ETL y ELT con Airflow, Azure Data Factory y Databricks.

Árboles de Decisión y Reglas de Clasificación y Asociación

  • Árboles de decisión y algoritmos de aprendizaje supervisado: ID3, C4.5, Random Forest, Gradient Boosting y XGBoost.
  • Evaluación y métricas de rendimiento: Curva ROC, precisión, recall y validación cruzada
  • Reglas de clasificación y asociación: Apriori, FP-Growth y ECLAT.
  • Aplicación práctica en detección de patrones, segmentación y análisis de comportamiento del cliente.
  • Implementación distribuida de modelos en Spark MLlib y Databricks ML.

Redes Neuronales Artificiales y Deep Learning

  • Conceptos clave de redes neuronales artificiales (ANN) y aprendizaje profundo (Deep Learning).
  • Modelos predictivos en TensorFlow, PyTorch y Keras.
  • Redes neuronales multicapa (MLP) y optimización de hiperparámetros.
  • Redes recurrentes (RNN, LSTM, GRU) para series temporales y predicciones financieras.
  • Redes convolucionales (CNN) aplicadas a imágenes, video y datos espaciales.
  • Streaming ML con Kafka y Databricks MLflow: detección de fraudes, IoT y predicción en tiempo real.
  • Despliegue de modelos de IA en producción usando Azure ML, AWS Sagemaker y Google AI Platform.

INGENIERÍA DE DATOS CON DATABRICKS E INTELIGENCIA ARTIFICIAL EN LA NUBE

Conceptos Básicos de Cloud y Databricks

  • Fundamentos de computación en la nube y servicios (IaaS, PaaS, SaaS).
  • Introducción a Azure y Databricks: componentes, estructura y ventajas.
  • Creación y configuración de un workspace y clúster en Databricks sobre Azure.
  • Exploración de la interfaz y principales herramientas colaborativas.

Procesamiento con Spark SQL

  • Fundamentos y estructura del motor Spark SQL.
  • Lectura y escritura de datos desde distintos formatos (JSON, CSV, Parquet, Delta).
  • Limpieza, manipulación y transformación de datos con consultas SQL distribuidas.
  • Consultas analíticas y visualización de resultados dentro de Databricks.

Procesamiento con PySpark

  • Introducción a la API PySpark para procesamiento distribuido.
  • Lectura y escritura de datos en múltiples formatos (JSON, CSV, Parquet, Delta).
  • Aplicación de métodos, funciones y UDFs para transformaciones complejas.
  • Exploración y visualización de resultados mediante notebooks en Databricks.

Optimizaciones en Delta Lake con PySpark

  • Introducción al ecosistema Delta Lake.
  • Creación y gestión de tablas Delta.
  • Uso de Delta Time Travel (DTT) para auditoría y control de versiones.
  • Técnicas de optimización: Z-Ordering, Partitioning, Vacuum, Optimize.

ETL con Spark SQL y PySpark

  • Diseño de procesos ETL y ELT escalables en la nube.
  • Extracción de datos desde diversas fuentes (bases SQL, Blob Storage, APIs).
  • Transformaciones complejas y validaciones de calidad.
  • Integración entre Spark SQL y PySpark en pipelines híbridos.

Incremental Data Processing

  • Definición de cargas full, incremental y temporales.
  • Funciones y estrategias para procesamiento incremental de datos.
  • Uso de herramientas como Merge, Auto Loader y Copy Into.

Workflows en Azure Databricks

  • Concepto y estructura de workflows.
  • Creación y gestión de pipelines automatizados.
  • Definición de Jobs, triggers y dependencias entre tareas.
  • Parametrización, monitoreo y ejecución de workflows escalables.

Delta Live Tables (DLT)

  • Introducción a las Delta Live Tables (DLT).
  • Diseño de pipelines automáticos con control de calidad integrado.
  • Implementación de validaciones y monitoreo de flujos.

Gobernanza en Databricks con Unity Catalog

  • Introducción a la gobernanza de datos en la nube.
  • Creación y gestión del metastore Unity Catalog.
  • Asignación de roles, permisos y políticas de acceso.
  • Configuración de Storage Credentials y External Locations.
  • Implementación de linaje y auditoría de datos.

Seguridad y Administración de Databricks

  • Administración de usuarios y grupos dentro del Unity Catalog.
  • Seguridad en red, cifrado y cumplimiento normativo.
  • Monitoreo de actividad y ejecución de auditorías.
  • Creación de políticas y buenas prácticas de seguridad.
  • Laboratorio: Gestión de usuarios, accesos y políticas de seguridad en Databricks.

Construyendo Dataflows y Pipelines con Azure Data Factory

  • Fundamentos de Azure Data Factory (ADF).
  • Creación de pipelines y flujos de transformación.
  • Integración nativa entre ADF y Databricks.
  • Orquestación de pipelines complejos y manejo de dependencias.

Real-Time Streaming con Event Hubs, Stream Analytics y Databricks

  • Introducción a Event Hubs y procesamiento en tiempo real.
  • Integración de Event Hubs con Databricks para ingesta de datos streaming.
  • Procesamiento de flujos con Spark Streaming y Azure Stream Analytics.

Dashboards en Databricks y Power BI

  • Generación de dashboards interactivos con PySpark y Spark SQL.
  • Conexión del Unity Catalog con Power BI.
  • Diseño de tableros analíticos en tiempo real.

CI/CD Features con Databricks

  • Introducción a CI/CD y DevOps en entornos de datos.
  • Uso de Git Repos, Databricks CLI y API.
  • Integración continua con Azure DevOps y GitHub Actions.

IA Generativa con Databricks

  • Fundamentos de Inteligencia Artificial Generativa y Modelos de Lenguaje Grande (LLM).
  • Integración de modelos de IA y Machine Learning dentro de Databricks.
  • Uso de Model Serving, embeddings y APIs de IA.
  • Casos de uso: asistentes de datos, clasificación y análisis inteligente.

INGENIERÍA DE DATOS CON AWS E INTELIGENCIA ARTIFICIAL EN LA NUBE

Introducción a AWS Cloud e Ingeniería de Datos

  • Principios de Cloud Computing: infraestructura global de AWS, modelos de servicio (IaaS, PaaS, SaaS) y despliegue (público, privado, híbrido).
  • Ingeniería de Datos en AWS: componentes fundamentales, integración entre almacenamiento, cómputo, análisis e inteligencia artificial.
  • Comparación entre entornos On-Premise vs. Cloud-Native y buenas prácticas de migración.
  • Introducción a AWS Well-Architected Framework y sus cinco pilares: seguridad, rendimiento, fiabilidad, optimización de costos y eficiencia operativa.
  • Identity and Access Management (IAM): definición de roles, políticas, permisos y control de acceso seguro en sistemas de ingeniería distribuidos.

ETL & Data Pipelines Fundamentals

  • Introducción a los procesos ETL y ELT: diseño, componentes y beneficios en sistemas de
    ingeniería escalables.
  • Servicios de AWS para ingeniería de datos: AWS Glue: integración, orquestación y automatización de pipelines de datos.
    • AWS DataBrew: limpieza y transformación visual de datos.
    • AWS Step Functions: coordinación de flujos ETL y automatización de procesos.
    • Integración de ETL con Amazon S3, Lambda y Redshift para cargas de datos optimizadas.
  • Diseño de pipelines modernos basados en eventos (event-driven ETL).

Streaming Data e Ingeniería de Eventos

  • Fundamentos del procesamiento de datos en tiempo real y sistemas de ingeniería basados en eventos.
  • Modelos de procesamiento: Batch, Near-RealTime y Real-Time.
  • Servicios AWS para streaming:
    • Amazon Kinesis (Data Streams, Data Firehose, Data Analytics): ingesta, almacenamiento y análisis continuo.
    • AWS MSK (Managed Streaming for Apache Kafka): configuración, ventajas y casos de uso.
    • Comparación Kinesis vs. Kafka: escalabilidad, latencia y estructura.
  • AWS IoT Core: conectividad, procesamiento de sensores e integración con flujos de streaming.
  • Integración con AWS Lambda y Glue Streaming para procesamiento en tiempo real.
  • Diseño de sistemas de ingeniería de datos basados en eventos (EDA).
  • Laboratorio: implementación de un flujo de datos en tiempo real con Kinesis, Lambda y Glue Streaming.

Relational & NoSQL DataBases en Arquitecturas de Datos

  • Diseño de arquitecturas de almacenamiento de datos en AWS:
    1. Data Lakes, Data Warehouses y Lakehouse
      Architectures.
  • Introducción a bases de datos relacionales y NoSQL: diferencias, ventajas y casos de uso.
  • Servicios clave de AWS:
    1. Amazon RDS: bases de datos relacionales administradas (PostgreSQL, MySQL, SQL Server, Oracle).
    2. Amazon Aurora: arquitectura serverless y replicación automática.
    3. Amazon DynamoDB: bases de datos NoSQL escalables, indexación y optimización de consultas.
    4. Amazon DMS (Database Migration Service): estrategias de migración, replicación y
      modernización de datos.
    5. AWS Glue Catalog y Lake Formation: metadatos, gobernanza y linaje de datos.
  • Laboratorio: creación de una arquitectura híbrida con RDS y DynamoDB para flujos de datos integrados.

Data Delivery, Visualization & Machine Learning en AWS

  • Estrategias de data delivery y consumo analítico: automatización con AWS Data Pipeline.
  • Servicios de consulta y análisis:
    1. Amazon Athena: análisis sin servidor sobre datos en S3.
    2. Amazon Redshift: modelado de Data Warehouse, optimización de consultas y escalabilidad.
  • Visualización de datos e inteligencia empresarial:
    1. Amazon QuickSight: dashboards interactivos, integración con Redshift y S3.
    2. AWS Glue Data Catalog para análisis centralizado.
  • Introducción al Machine Learning en AWS:
    1. Amazon SageMaker: ciclo completo de ML (entrenamiento, evaluación, despliegue).
    2. Integración de SageMaker con Glue, Lambda y Redshift para flujos analíticos avanzados.

INGENIERÍA DE DATOS CON AZURE E INTELIGENCIA ARTIFICIAL EN LA NUBE

Cloud Computing & ETL Fundamentals
Cloud Computing:

  • Introducción a la computación en la nube: conceptos clave, tipos de servicios (IaaS, PaaS, SaaS) y modelos de despliegue (público, privado, híbrido, multicloud).
  • Principales componentes de Azure para arquitectura de datos: Data Factory, Synapse, Databricks, Fabric y Purview.
  • Comparación entre entornos On-Premise y CloudNative; ventajas de escalabilidad, elasticidad y seguridad.
  • Identity and Access Management (IAM): implementación con Azure Active Directory,
    políticas de acceso y roles basados en seguridad (RBAC).

ETL Fundamentals:

  • Principios de arquitectura ETL/ELT y su aplicación en entornos distribuidos.
  • Servicios de Azure para integración y transformación:
    1. Azure Data Factory: orquestación de pipelines.
    2. Azure Data Flow: diseño visual y optimización de transformaciones.
    3. Azure Synapse Pipelines: flujos avanzados de integración.
  • Buenas prácticas en diseño modular, versionamiento y monitoreo de pipelines.
  • Laboratorio: creación de un flujo ETL híbrido en Azure Data Factory con orquestación y validación.

Data Lakes & Architecture Implementation

  • Conceptos y componentes de un Data Lake moderno: arquitectura por capas (Raw, Curated, Analytics, Consumption).
  • Implementación de Azure Data Lake Storage Gen2: diseño jerárquico, particionamiento y control de acceso.
  • Integración del Data Lake con Synapse Analytics y Databricks para arquitecturas Lakehouse.
  • Automatización de cargas y versionado de datos.
  • Diseño de Arquitecturas de Datos en Azure (ADF + ADLS + Synapse + Power BI).
  • Governance & Security: políticas de acceso, cifrado y gestión del linaje con Microsoft Purview.
  • Laboratorio: creación de un Data Lake seguro e integrado con Synapse y Power BI.

Streaming Data & Event-Driven Engineering

  • Principios del procesamiento en flujo: diferencias entre Batch, Near Real-Time y Real- Time.
  • Diseño de arquitecturas orientadas a eventos (Event-Driven Architectures) en Azure.
  • Azure Event Hubs y IoT Hub: configuración, ingesta y transmisión de datos a gran escala.
  • Azure Stream Analytics: creación de flujos de procesamiento y agregaciones en tiempo real.
  • Integración con Apache Kafka (Azure Managed Kafka) y comparación con Event Hubs.
  • Azure Synapse Link: conexión en tiempo real entre bases operativas y analíticas.
  • Laboratorio: procesamiento de datos IoT con Event Hubs, Stream Analytics y Synapse.

Relational & NoSQL DataBases

  • Fundamentos de arquitectura de almacenamiento en la nube: Data Warehouses, Data Lakes y Lakehouses.
  • Introducción a bases de datos relacionales y NoSQL: diseño, indexación y escalabilidad

Servicios de Azure:

  • Azure SQL Database (SQL Server, PostgreSQL, MariaDB): configuración, rendimiento y replicación.
  • Azure Cosmos DB: bases NoSQL multimodelo (documentos, grafos, clave-valor, columnas) y replicación global.
  • Azure Synapse Analytics: arquitectura del Data Warehouse cloud-native, distribución de cómputo y optimización de consultas.
  • Azure Database Migration Service (DMS): migración desde entornos locales a cloud.

Laboratorio: diseño de un modelo relacional y NoSQL conectado al Data Lake y Synapse.

Data Delivery, Visualization & Intelligence

  • Data Delivery: integración y distribución de datos para consumo empresarial.
  • Servicios analíticos y de consulta:
    1. Azure Synapse Analytics: análisis masivo y consultas paralelas.
    2. Azure Data Explorer: análisis de series temporales y datos de telemetría.
    3. Azure Fabric: entorno unificado para orquestar datos, analítica y BI.
  • Data Visualization:
    1. Power BI: diseño de dashboards interactivos conectados al Data Lake y Synapse.
    2. Microsoft Fabric + Power BI: visualización avanzada y análisis en tiempo real.
  • Machine Learning Integration:
    1. Azure Machine Learning Studio: entrenamiento y despliegue de modelos de ML e IA integrados a Synapse.
    2. Conexión con Azure Databricks para procesamiento distribuido y ML pipelines.
  • Laboratorio: creación de dashboards ejecutivos conectados al Data Lake y ejecución de un modelo predictivo en Azure ML.

Azure Data Engineering & Certification Orientation (DP-700)

  • Introducción a la ruta profesional de certificación DP-700: Data Engineer Associate.
  • Revisión de contenidos, dominios y competencias clave del Data Engineering en Microsoft Azure.
  • Guía práctica para la aplicación de buenas prácticas en pipelines, Data Lakes, Data Warehouses y orquestación con Data Factory y Synapse.
  • Lineamientos generales para la preparación técnica orientada a certificaciones internacionales.

INGENIERÍA DE DATOS CON GOOGLE CLOUD PLATFORM E INTELIGENCIA ARTIFICIAL EN LA NUBE

Fundamentos y Ingeniería de Google Cloud Platform

Cloud Computing:

  • Introducción a la computación en la nube: conceptos clave, tipos de servicios (IaaS, PaaS,
    SaaS) y modelos de despliegue (público, privado, híbrido, multicloud).
  • Principales componentes de Azure para ingeniería de datos: Data Factory, Synapse, Databricks, Fabric y Purview.
  • Comparación entre entornos On-Premise y Cloud-Native; ventajas de escalabilidad, elasticidad y seguridad.
  • Identity and Access Management (IAM): implementación con Azure Active Directory, políticas de acceso y roles basados en seguridad (RBAC).

ETL Fundamentals:

  • Principios de ingeniería ETL/ELT y su aplicación en sistemas de ingeniería escalables.
  • Servicios de Azure para integración y transformación:
    • Azure Data Factory: orquestación de pipelines.
    • Azure Data Flow: diseño visual y optimización de transformaciones.
    • Azure Synapse Pipelines: flujos avanzados de integración.
  • Buenas prácticas en diseño modular, versionamiento y monitoreo de pipelines.
  • Laboratorio: creación de un flujo ETL híbrido en Azure Data Factory con orquestación y validación.

Data Lakes & Ingeniería de Implementación

  • Conceptos y componentes de un Data Lake moderno: estructura por capas (Raw, Curated,
    Analytics, Consumption).
  • Implementación de Azure Data Lake Storage Gen2: diseño jerárquico, particionamiento y
    control de acceso.
  • Integración del Data Lake con Synapse Analytics y Databricks para sistemas Lakehouse.
  • Automatización de cargas y versionado de datos.
  • Diseño de Sistemas de Ingeniería de Datos en Azure (ADF + ADLS + Synapse + Power BI).
  • Governance & Security: políticas de acceso, cifrado y gestión del linaje con Microsoft Purview.
  • Laboratorio: creación de un Data Lake seguro e integrado con Synapse y Power BI.

Procesamiento de Datos, Big Data y Streaming

  • Ingeniería de Procesamiento de Datos en GCP: diseño de pipelines distribuidos y sistemas de ingeniería basados en eventos (event-driven).
  • Pub/Sub: estructura, temas, suscripciones, patrones de mensajería y buenas prácticas.
  • Comparación entre Pub/Sub y Kafka en GCP.
  • Google Kubernetes Engine (GKE): despliegue y orquestación de contenedores para
    procesamiento masivo de datos.
  • BigQuery: modelado de datos, consultas SQL avanzadas, almacenamiento columnar y
    optimización de costos.
  • Cloud Dataflow y Dataproc: procesamiento batch y streaming con Apache Beam y Spark.
  • Dataform y Composer: orquestación y automatización de pipelines de datos.

Gobierno de Datos, Machine Learning e Inteligencia Artificial en GCP

  • Gobernanza e Ingeniería de Datos en GCP:
    • Diseño de sistemas Lakehouse con BigQuery, Dataplex y Data Catalog.
    • Gestión de metadatos, linaje, políticas de acceso y cumplimiento normativo.
    • Implementación de modelos de gobierno con Dataplex (dominios, zonas y data
      mesh).
  • Automatización y DataOps: flujos con Cloud Scheduler, Workflows y Composer.
  • Machine Learning & AI:
    • Introducción a Vertex AI: entrenamiento, despliegue y monitoreo de modelos.
    • BigQuery ML: creación de modelos predictivos mediante SQL.
    • Integración de IA generativa con Gemini API, Vertex AI Studio y LangChain.
  • Aplicaciones prácticas de IA:
    • Vision AI, Natural Language API, Translation API y Speech-to-Text.
    • Integración de modelos en pipelines de datos.

INGENIERÍA DE DATOS CON MICROSOFT FABRIC E INTELIGENCIA ARTIFICIAL EN LA NUBE

Introducción a Microsoft Fabric y la Ingeniería de Datos Moderna

  • Fundamentos del análisis de extremo a extremo en la nube.
  • Ecosistema Microsoft Fabric: Data Factory, Synapse, Power BI, OneLake y Copilot.
  • Conceptos de ingeniería unificada: workspaces, capacidades, dominios y lakehouse.
  • Fabric como pilar de la ingeniería Lakehouse y Data Mesh.
  • Laboratorio: Exploración guiada del entorno Fabric y configuración de un workspace.

Data Lakes, OneLake y el Modelo Lakehouse

  • ¿Qué es un Data Lakehouse y por qué reemplaza a los modelos tradicionales?
  • OneLake como almacenamiento centralizado en Microsoft Fabric.
  • Diferencias entre Lakehouse y Warehouse en entornos cloud.
  • Tablas Delta Lake: estructura, ventajas y comparación con Parquet.
  • Laboratorio: Creación y exploración de un Lakehouse con tablas Delta.

Procesamiento Distribuido con Apache Spark en Fabric

  • Introducción a Notebooks en Microsoft Fabric.
  • Ejecución de código PySpark para ingesta y transformación de datos.
  • Lectura y escritura en tablas Delta Lake.
  • Visualización de resultados y generación de datasets analíticos.
  • Laboratorio: Transformación de datos en Spark y registro en el Lakehouse.

Ingesta de Datos con Dataflows Gen2

  • Qué son los Dataflows Gen2 y cuándo utilizarlos frente a pipelines.
  • Conectores y orígenes de datos disponibles (Azure, SQL, APIs, CSV, JSON).
  • Transformaciones visuales con Power Query Online.
  • Escritura y actualización de datos en Lakehouse
    • Warehouse.
  • Laboratorio: Ingesta de datos externos y transformación sin código.

Orquestación y Movimiento de Datos

  • Introducción a los Pipelines en Fabric y su relación con Data Factory.
  • Triggers, actividades, condiciones y dependencias.
  • Reutilización de notebooks en pipelines.
  • Integración completa de experiencias: Dataflows → Lakehouse → Power BI.
  • Laboratorio: Construcción de un flujo automatizado end-to-end en Fabric.

Ingeniería de Datos para el Modelo de Medallas en el Lakehouse.

  • Principios del modelo de medallas (Bronze, Silver, Gold).
  • Organización de carpetas, tablas y linaje del dato.
  • Políticas de calidad, validación y retención de datos.
  • Integración con Fabric Pipelines y Spark Notebooks.
  • Laboratorio: Implementación práctica del modelo medallion en OneLake.

Inteligencia y Procesamiento en Tiempo Real

  • Introducción a Eventstream y Eventhouse en Fabric.
  • Sistemas de ingeniería basados en eventos para análisis en tiempo real.
  • Conexión con Event Hubs y flujo de streaming continuo.
  • Visualización de eventos y alertas en dashboards Power BI.
  • Laboratorio: Configuración de flujo en tiempo real con Eventstream y análisis inmediato.

Almacenamiento, Supervisión y Seguridad de los Datos

  • Introducción al Data Warehouse en Microsoft Fabric.
  • Diferencias funcionales y estructurales con el Lakehouse.
  • Monitoreo de cargas y rendimiento con métricas integradas.
  • Gestión de roles, permisos y políticas de acceso seguro.
  • Laboratorio: Creación de un Warehouse con control de acceso y monitoreo.

CI/CD, Gobernanza y Administración en Fabric

  • Fundamentos de DevOps y control de versiones en Fabric.
  • Integración con Git y entornos de despliegue (desarrollo, prueba, producción).
  • Políticas de seguridad, cumplimiento y auditoría.
  • Administración centralizada desde Admin Portal y monitoreo con Purview.
  • Laboratorio: Configuración de control de versiones y políticas de gobierno de datos.

Proyecto Integrador End-to-End

  • Diseño de un sistema de ingeniería completo de datos en Fabric: desde la ingesta hasta la
    visualización.
  • Integración de Dataflows, Pipelines, Lakehouse, Spark y Power BI.
  • Aplicación de buenas prácticas de ingeniería de datos, linaje y calidad del dato.
  • Laboratorio Final: implementación de un ecosistema de datos empresarial con Microsoft
    Fabric y OneLake.
María Fernández
María FernándezEgresada del programa
"Este programa me ayudó a fortalecer mi investigación con herramientas estadísticas y de inteligencia artificial. Es práctico, completo y totalmente aplicable a tesis y proyectos académicos."
Ana Rodríguez
Ana RodríguezEgresada del programa
"Gracias a este programa, logré estructurar mi tesis doctoral con un enfoque metodológico sólido. Las herramientas de inteligencia artificial que aprendí me ayudaron a analizar grandes volúmenes de datos de forma eficiente."
Carlos Méndez
Carlos MéndezEgresado del programa
"La combinación entre estadística aplicada e IA fue justo lo que necesitaba para llevar mis investigaciones al siguiente nivel. Recomiendo esta especialización a todo investigador serio."
Lucía Fernández
Lucía FernándezEgresada del programa
"El programa no solo me dio conocimientos técnicos, también me enseñó a aplicarlos en el contexto real de mi tesis. ¡Una inversión totalmente valiosa!"
Jorge Salazar
Jorge SalazarEgresado del programa
"Aprendí a utilizar metodologías científicas rigurosas junto con herramientas prácticas de IA, lo que ha mejorado significativamente la calidad de mis reportes y modelos."

¿INTERESADO EN NUESTRO CURSO ONLINE?

¡Estás a un paso de transformar tu futuro! Si deseas más información o necesitas ayuda para completar tu inscripción, puedes comunicarte directamente con uno de nuestros asesores de ventas.

1
    1
    Tu carrito
    020825PEADIA PROGRAMA DE ESPECIALIZACIÓN EN ECONOMETRÍA, ANÁLISIS DE DATOS E INTELIGENCIA ARTIFICIAL EN SOFTWARE
    2+ shoppers have bought this
    020825PEADIA PROGRAMA DE ESPECIALIZACIÓN EN ECONOMETRÍA, ANÁLISIS DE DATOS E INTELIGENCIA ARTIFICIAL EN SOFTWARE
    1 X $ 194.46 = $ 194.46
      0
      Would love your thoughts, please comment.x