Circuito Global Blog Noticias de tecnología El manifiesto de la Ingeniería de Datos 2.0

El manifiesto de la Ingeniería de Datos 2.0

0 Comments 11:52 am


“Hay que seguir teniendo caos en uno mismo para poder dar a luz a una estrella del baile” – Friedrich Nietzsche

Hola registros humanos. Me alegra tenerle aquí de nuevo, con la esperanza de dedicarle unos minutos más valiosos que las interminables y alienantes horas de desplazamiento por las redes sociales (independientemente de lo bajo que esté ese listón).

Cuando pensé por primera vez en este post, lo titulé “La chuleta de la Ingeniería de Datos 2.0”, pero luego me dije un momento, las chuletas son para recordar cosas importantes, y la Ingeniería de Datos 2.0 (DE2) no es algo que ya exista, algo con hechos y principios que podamos recordar. DE2 es una transformación que está ocurriendo ad tempus. Está tomando forma, mientras lee estas palabras, impulsado por el empuje de tecnologías rompedoras como la IA, la potente computación en la nube (GPU, FPGA, CPU multinúcleo), el IoT, etc. Esto significa, lo siento, que no hay chuletas. Lo que realmente necesitamos ahora es empezar a pensar hacia dónde se dirige todo este movimiento y, aún más, conducirlo hacia bases sólidas. Necesitamos un manifiesto que según el diccionario Merriam-Webster sea “una declaración escrita en la que se manifiestan públicamente las intenciones, motivos u opiniones de su emisor”.

Un manifiesto ayuda a poner en términos nítidos los objetivos del campo, sus fundamentos y sus principios rectores. Es un intento de definir las intenciones para esta segunda era de la ingeniería de datos desde la perspectiva de nosotros, registros humanos que practicamos el arte de construir soluciones con datos.

¿Cómo nos imaginamos un futuro en el que la DE2 ya se haya materializado? ¿Cómo queremos que sea realmente? Múltiples fuerzas empujarán el campo hacia diferentes direcciones. Si queremos llegar a alguna parte, necesitamos navegar a través de esas fuerzas para alcanzar nuestro destino. Para imaginarnos ese destino, podemos empezar por nombrar las cosas que odiamos de donde estamos actualmente.

Principio 1: Las funciones están especializadas. Las soluciones se adaptan a su disciplina.

En la Ingeniería de Datos 1.0 (ID1), los ingenieros de datos (ID) son generalistas. Esto significa que los ID dominan las técnicas sin dominarlas realmente. Esto es un gran problema, como puede imaginar, porque acaba en sistemas con todo tipo de ineficiencias. En mi clínica personal -me produce tanto placer decir esto- he visto a DEs principales que pueden hablar de almacenamiento de datos y bases de datos relacionales hasta que nuestros tintos doblan su valor. Sin embargo, cuando se enfrentan a un consumidor de Kafka o a una GPU, pueden sentirse tan fuera de lugar como un vegano en una barbacoa. Pero no pasa nada. La pericia en todo simplemente no es alcanzable y esto tiene que cambiar en DE2.

DE2 necesitará roles específicos de dominio como: el Ingeniero Analítico, el Ingeniero de Aprendizaje Automático, el Ingeniero de Software sobre Datos, el Ingeniero de Infraestructura de Datos, etc. Esto ayudará a que cada parte de la cadena de generación de valor funcione de la forma más eficiente posible. Como dijo el antiguo filósofo Bruce Lee:

“No temo al hombre que ha practicado 10.000 patadas una vez, pero temo al hombre que ha practicado una patada 10.000 veces”. – Bruce Lee

Principio 2: El ingenio humano es un recurso valioso. La automatización está en primera línea.

En DE1, había bastantes tareas similares a las del mono de datos. ¿Quién no está cansado de pasar horas escribiendo y realizando pequeños cambios en consultas SQL para otros colaboradores individuales (no sólo los gestores de productos) que podrían realizarse fácilmente aprendiendo un tutorial de SQL 101? Afortunadamente para nosotros, los modelos de grandes lenguajes (LLM) eliminarán esto casi por completo, si no totalmente. En DE2, si una pregunta relacionada con los datos puede escribirse en lenguaje natural y requiere conocimientos básicos de SQL para ser respondida, entonces puede -y debe- automatizarse para evitar alienar a los ingenieros. Incluso OpenAI tiene traducciones SQL como parte de sus ejemplos públicos para utilizar modelos GPT:

Fuente: https://platform.openai.com/examples/default-sql-translate

“La imaginación es más importante que el conocimiento. Porque el conocimiento es limitado, mientras que la imaginación abarca el mundo entero, estimula el progreso, da origen a la evolución.” – Albert Einstein

Principio 3. La colaboración es clave. El consumo de datos está estandarizado y es autoservicio.

Hojas de cálculo. Eso es todo. No me malinterprete, creo que las hojas de cálculo son herramientas útiles y poderosas. El problema viene cuando se convierten en la fuente de toma de decisiones importantes. Cuando convierten en inútil la plataforma de datos X00K/año.

En DE2, nos gustaría disponer de herramientas sencillas, útiles y bien integradas que dejen obsoletas las hojas de cálculo para que los responsables de la toma de decisiones puedan recoger los frutos de la plataforma de datos. Un fenómeno similar se observa en todas las disciplinas en DE1, donde los consumidores prefieren construir sus propias soluciones en lugar de integrarse con la arquitectura de datos principal o consumir de una fuente de gran confianza debido principalmente a la complejidad necesaria para hacerlo.

En palabras llanas, si la solución no se puede integrar fácilmente o es compleja de utilizar, no se utilizará y su coste será un despilfarro. La mejor forma de acabar con la guerra contra las malvadas hojas de cálculo es ganarla.

“La sencillez es la máxima sofisticación” – Leonardo da Vinci

Principio 4. La calidad de los datos se realiza de forma preventiva y responde de forma adaptativa.

Uno de los mayores problemas en DE1 es la falta de atención a la calidad de los datos. Esta ha sido la fuente de múltiples problemas como: interminables horas perdidas en los equipos de ingeniería de datos para solucionar y arreglar problemas, decisiones incorrectas tomadas sobre métricas incorrectas, modelos de Machine Learning haciendo predicciones incorrectas debido a malos conjuntos de entrenamiento. IBM estimó en 2016 que la mala calidad de los datos costaba a la economía estadounidense 3,1 billones de dólares al año. Al igual que ocurre con las hojas de cálculo, estos errores pueden hacer inútiles las inversiones en una plataforma de datos. Solucionar esto será uno de los mayores retos de la DE2 y, para intentarlo, tendremos que cambiar nuestra mentalidad de forma similar a como lo está haciendo el campo de la medicina.

Uno de los problemas de la medicina moderna es que la intervención suele producirse demasiado tarde y los tratamientos son costosos y, en algunos casos, ineficaces.

Fuente: https://www.wired.com/2008/12/ff-cancer/

Sin embargo, aparte del paso de una medicina basada en el tratamiento a otra basada en la prevención, existe otra revolución médica de la que podemos aprender. Hasta hace pocos años, los tratamientos contra el cáncer pasaban de utilizar ataques generales como la radioterapia y la quimioterapia a ataques específicos, utilizando fármacos diseñados genéticamente para atacar mutaciones concretas. Sin embargo, este enfoque resultaba muy caro y en muchos casos ineficaz. La razón es que las mutaciones genéticas en el cáncer son numerosas y evolucionan constantemente, por lo que desarrollar fármacos muy caros para un único conjunto de genes no iba a la par. Debido a esto, el campo se está moviendo hacia la búsqueda de una manera de diseñar el sistema inmunológico, que es de naturaleza adaptativa, para atacar las mutaciones del cáncer de manera eficaz y promover la recuperación completa. Por lo tanto, al igual que los médicos prefieren ahora las medidas preventivas a esperar a que el paciente esté en el lecho de muerte, nosotros deberíamos esforzarnos por encontrar soluciones preventivas y adaptativas en la calidad de los datos.

DE1 seguía muy centrada en construir validaciones de la calidad de los datos orientadas a un problema específico, como: esta columna debe ser única, no nula, rango entre 0 y 1, tolerar un 1% de fallos, etc.. Sin embargo, este enfoque no funciona en sistemas que evolucionan constantemente, porque los cambios sistémicos exigen rehacer todo el conjunto de validaciones de la calidad de los datos, lo que resulta costoso, ineficaz y… extremadamente alienante.

DE2 debería adoptar un enfoque de calidad de datos que sea adaptativo. Debería esforzarse por construir soluciones de perfilado de datos escalables y potenciadas por IA que puedan ayudar a detectar los problemas de calidad de datos a medida que surgen y atacarlos de forma rápida y eficaz, independientemente de la naturaleza contingente de los sistemas.

“He fallado más de 9.000 tiros en mi carrera. He perdido casi 300 partidos. 26 veces me han confiado el tiro ganador del partido y he fallado. He fallado una y otra vez en mi vida. Y por eso tengo éxito.” – Michael Jordan

La solución de calidad de datos ganadora en DE2 será la que aprenda mejor de todos sus fracasos.

Principio 5. La propiedad de los datos está descentralizada.

Es hora de abordar el elefante en la sala DE1. Los lagos de datos. La explosión de los volúmenes de datos y la incapacidad de las tecnologías informáticas para adaptarse a su repentino crecimiento durante la última década, empujaron al sector tecnológico hacia la idea de crear lagos de datos como forma de almacenar y encontrar datos voluminosos en una única ubicación trabajando con almacenamiento y computación distribuidos.

Fuente: https://www.statista.com/statistics/871513/worldwide-data-created/

La idea de mover datos por la red o de procesarlos en una sola máquina era impensable. Cuando los datos se convirtieron en un medio de producción en los tiempos modernos, los lagos de datos se consideraron una forma de hacer banca con la esperanza de que llegaran a ser útiles en algún momento. Las grandes inversiones necesarias para mantener hidratados estos lagos de datos obligaron a los ingenieros a idear formas de consumir los datos directamente de ellos como forma de ahorrar costes. Así nacieron soluciones como la arquitectura LakeHouse, que permitía el consumo directo desde el lago.

Pero, ¿qué hay de malo en esto? Aunque estas soluciones centralizadas son relativamente baratas, trajeron consigo múltiples problemas, como: sobreexposición de datos a los consumidores, altos niveles de complejidad para consumir datos, dificultades para rastrear el linaje de los datos, para implementar clasificaciones de datos y un modelo centralizado ineficiente de propiedad de los datos. En otras palabras, en DE1 hay poca o ninguna gobernanza de datos. Esto significa que el GDPR, la CCPA, etc. llamando a la puerta es la pesadilla de todo equipo de ED, ¿por qué? Porque la gobernanza de datos es difícil de hacer en estas arquitecturas y hay muchas buenas razones para intentar evitarla o posponerla. Esto trae consecuencias, basta con mirar el crecimiento de los compromisos de datos en los últimos años para darse cuenta de que es alarmante:

Fuente: https://www.statista.com/statistics/273550/data-breaches-recorded-in-the-united-states-by-number-of-breaches-and-records-exposed/

En DE2 no queremos lagos de datos sucios para que todos vengan a beber de ellos, sino sistemas de canalización que proporcionen datos limpios y potables a los consumidores. En otras palabras, necesitamos descentralizar los datos.

En cierto modo, ya estamos viendo este cambio impulsado por arquitecturas de datos modernas como la Data Mesh y la Data Fabric. Ambas pretenden proporcionar una capa más consistente de consumo de datos a los usuarios finales, por diferentes medios. La malla apuesta por tratar los datos como un producto y otorgar la propiedad a los expertos del dominio, el tejido apuesta por una interoperabilidad sin fisuras que elimine la necesidad de trasladar los datos a una ubicación central.

En pocas palabras, el DE2 debería centrarse en desarrollar una infraestructura que permita a los usuarios consumir los datos directamente, sin necesidad de un repositorio central.

“En muchos casos, no estás dando a la gente lo que quiere. Estás dando a la gente las herramientas para hacer lo que hacen. Y lo estás haciendo programando y proporcionando la infraestructura de este nuevo mundo”. – Linus Torvalds

Principio 6. El gobierno de los datos es sencillo y escalable.

¿Qué le parece la gobernanza? DE1 dio a luz a marcos y soluciones estandarizados por la industria para el almacenamiento y procesamiento centralizado de datos como Apache Hadoop y Spark que fueron capaces de superar las limitaciones causadas por tener datos demasiado grandes para las capacidades de hardware de su época. La ED2 necesita apoyarse en los avances revolucionarios en la potencia de la computación en nube para generar marcos y soluciones estandarizados por la industria para el gobierno escalable de los datos.

Mientras que DE1 proporcionó un método para crear “lagos” para la tormenta de datos que nos rodea, DE2 ofrecerá el sistema necesario de “canalización y tratamiento”.

Para que esto sea cierto, la gobernanza no tiene que parecer un intento de ganar una discusión política en Twitter. Debería ser tan sencilla y escalable como preparar una taza de café – con la máquina adecuada. Redes y ordenadores más potentes pueden hacer posible el movimiento de datos en tiempo real, y la IA puede hacer que esas molestas y alienantes tareas de clasificación de datos sean fluidas.

Las herramientas para crear el nuevo marco estándar de la industria para una gobernanza de datos sencilla y escalable ya están aquí, y DE2 lo sabe. Ya es hora de que por fin las pongamos en práctica, y las utilicemos bien.

“Estar ocupado no siempre significa trabajar de verdad. El objeto de todo trabajo es la producción o la realización y para cualquiera de estos fines debe haber previsión, sistema, planificación, inteligencia y propósito honesto, además de transpiración. Parecer que se hace no es hacer”. – Thomas Edison

Estas palabras de Edison ponen de relieve la esencia de la ED2. Ha llegado el momento de que los ED se adentren en un nuevo reino de “ocupados”. En lugar de limitarse a pasar por el aro, se trata de ser intencionados, de utilizar las herramientas de que disponemos para guiar el campo hacia un objetivo definitivo. Lo que nos lleva al último principio de la DE2.

Principio 7. Las soluciones marcan una clara diferencia.

En la era DE1, recopilábamos datos con la esperanza de que pudieran ser útiles en algún momento. La norma era mantener un registro de todo lo que teníamos para mantener abiertas nuestras opciones, así que creamos soluciones para almacenar, procesar y consultar estos datos. Era una época de pensar y sentar bases sólidas.

En la era DE2, tenemos la oportunidad de transformar estas esperanzas en realidad. Esta revolución estará impulsada por avances tecnológicos, cimientos sólidos y una necesidad latente de resolver problemas. Ya no tenemos que preocuparnos por las tareas aburridas y repetitivas; ahora disponemos de las herramientas para evitar la mayoría de ellas. La era de la DE2 será intencional, impulsada por la creatividad y el perfeccionamiento. Resolveremos problemas reales, y los resolveremos bien.

“Hasta ahora los filósofos sólo han interpretado el mundo de diversas maneras; de lo que se trata es de cambiarlo” – Karl Marx

Ahora que hemos expuesto nuestras razones y motivos en este manifiesto DE2. Vamos a resumir sus principios para que los recordemos. Sí, por fin está aquí la hoja de trucos de los principios de DE2:

  1. Las funciones están especializadas. Las soluciones se adaptan a su disciplina.
  2. El ingenio humano es un recurso valioso. La automatización está en primera línea.
  3. La colaboración es clave. El consumo de datos está estandarizado y es autoservicio.
  4. La calidad de los datos se realiza de forma preventiva y responde de forma adaptativa.
  5. La propiedad de los datos está descentralizada.
  6. La gobernanza de los datos es sencilla y escalable.
  7. Las soluciones marcan una clara diferencia.

Ahí lo tienen. Ahora, me gustaría concluir este manifiesto con una llamada a la acción inspirada en uno de los manifiestos más famosos de la historia.

Que toda la industria tecnológica tiemble ante la perspectiva de una revolución de la Ingeniería de Datos.

Nosotros, los registros humanos, no tenemos nada que perder salvo nuestro aburrimiento.

Tenemos un mundo de sentido y creatividad que ganar.

Ingenieros de datos de todas las empresas, países y disciplinas…

¡Uníos!