Ingeniería de Datos20255 min de lectura

Grupo Amoble

Un estudio de caso sobre la implementación de una arquitectura de Data Warehouse que unificó reportes a través de sistemas heterogéneos manteniendo los costos de extracción bajo control.

Reportes entre Bases de Datos

Reportes UnificadosObjetivo Principal

ELT HíbridoArquitectura

IncrementalEstrategia de Sync

Control de CostosRestricción

Grupo Amoble necesitaba análisis consistentes a través de múltiples bases de datos operacionales, pero su configuración actual hacía que los reportes fueran fragmentados, lentos y difíciles de confiar. Ya tenían una instancia de Metabase para BI, pero las consultas seguían aisladas por fuente, así que el análisis entre bases de datos seguía fuera de alcance. El objetivo se convirtió en centralizar datos en un modelo de warehouse que pudiera soportar reportes de negocio sin agregar carga innecesaria a los sistemas de producción.

El Problema del Negocio

Grupo Amoble tenía datos operacionales valiosos distribuidos en múltiples sistemas, pero los reportes requerían saltar entre fuentes desconectadas. Esto creaba retrasos, números inconsistentes y esfuerzo extra para equipos que necesitaban decisiones rápidas.

Una instancia de Metabase ya estaba desplegada para Inteligencia de Negocios, pero no podía soportar consultas confiables entre bases de datos en su arquitectura actual. Esa limitación hizo claro el problema raíz: la herramienta de BI sola no era suficiente sin una capa analítica de datos unificada.

El objetivo del proyecto era consolidar esos flujos de datos en una capa de Data Warehouse donde los stakeholders pudieran visualizar rendimiento y crear reportes entre bases de datos con confianza.

La Restricción Técnica

Airbyte fue seleccionado como la plataforma de ingesta principal porque ofrecía una forma práctica de mover datos desde fuentes comunes hacia un modelo central. Sin embargo, una fuente clave corría en SAP HANA, y el conector open-source no existía para ese caso.

El conector disponible requería una actualización enterprise que representaba un salto de US$30,000. Esa restricción de precios hizo imposible un enfoque directo solo de plataforma, así que la arquitectura tuvo que adaptarse.

Arquitectura impulsada por restricciones: sin conector enterprise para SAP HANA, la estrategia de ingesta tuvo que combinar herramientas de plataforma y desarrollo personalizado.

La Implementación

Para MySQL y PostgreSQL, implementamos sincronización incremental usando binary logging de MySQL y WAL de Postgres. Esto redujo la sobre-extracción y evitó desperdiciar recursos de computo y base de datos extrayendo repetidamente registros sin cambios.

Para SAP HANA, construimos un pipeline Python personalizado que se conectó vía SSH al servidor SAP, se autenticó contra HANA, extrajo solo los datasets requeridos e impulsó los datos al flujo del warehouse. Esto creó un puente estable para una fuente no cubierta en el stack open-source.

Estrategia de sincronización incremental: MySQL binary log + PostgreSQL WAL para reducir sobre-extracción y proteger recursos de sistemas upstream.

Resultado

La arquitectura final le dio a Grupo Amoble reportes centralizados sin forzar un salto costoso de licenciamiento. Los equipos ganaron una vista más clara de los datos de negocio a través de sistemas, y la capa de ingesta permaneció eficiente gracias a patrones de sincronización incremental.

Desde el punto de vista de ingeniería, el proyecto demuestra una estrategia de integración pragmática: usar herramientas gestionadas donde son más fuertes, e introducir scripting personalizado enfocado solo donde las limitaciones de plataforma de otro modo bloquearían la entrega.

Servicios

Data WarehouseAirbyteMySQL BinlogPostgres WALSAP HANAPython ETLSSH TunnelingSincronización Incremental

¿Necesita un stack de datos que funcione con restricciones reales?

Ayudamos a equipos a diseñar plataformas de datos pragmáticas que mejoran la calidad de reportes sin forzar costos de licenciamiento innecesarios.