Data dividend

18 abril 2024

Alimentando la IA Generativa


Fuente: https://www.mckinsey.com/capabilities/mckinsey-digital/our-insights/the-data-dividend-fueling-generative-ai


Las últimas investigaciones estiman que la IA generativa podría agregar el equivalente a $2.6 billones a $4.4 billones en beneficios económicos anuales en 63 casos de uso. 

Tus datos y sus bases subyacentes son los factores decisivos para lo que puede lograrse gracias a ella.

Para la mayoría de los directores de datos principales (CDO), esto es una propuesta seria, especialmente cuando el 72% de las organizaciones líderes señalan que la gestión de datos ya es uno de los principales desafíos que les impiden escalar los casos de uso de IA. Su desafío hoy en día es enfocarse en los cambios que pueden permitir que la IA generativa genere el mayor valor para el negocio.

Aunque el panorama está cambiando rápidamente y hay muchas incógnitas, hemos identificado siete acciones prácticas que los líderes de datos deberían considerar al pasar de la experimentación a la escala:

  1. Deja que el valor sea tu guía. Ten claro dónde radica el valor y qué datos son necesarios para entregarlo.

  2. Incorpora capacidades específicas en la arquitectura de datos para respaldar el conjunto más amplio de casos de uso. Integra capacidades relevantes (como bases de datos vectoriales y tuberías de pre y post procesamiento de datos) en la arquitectura de datos existente, especialmente para respaldar datos no estructurados.

  3. Concéntrate en puntos clave del ciclo de vida de los datos para garantizar una alta calidad. Desarrolla múltiples intervenciones, tanto humanas como automatizadas, en el ciclo de vida de los datos desde la fuente hasta el consumo para asegurar la calidad de todos los datos materiales, incluidos los no estructurados.

  4. Protege tus datos sensibles y prepárate para actuar rápidamente a medida que surjan regulaciones. Prioriza la seguridad de los datos que pertenecen a la empresa y la protección de la información personal mientras se monitorea de forma activa un entorno regulatorio en constante cambio.

  5. Desarrolla el talento en ingeniería de datos. Busca a las personas clave para implementar tu programa de datos, con un enfoque en más ingenieros de datos y menos científicos de datos.

  6. Utiliza la IA generativa para ayudarte a gestionar tus propios datos. La IA generativa puede acelerar las tareas existentes y mejorarlas a lo largo de toda la cadena de valor de los datos, desde la ingeniería de datos hasta la gobernanza de datos y el análisis.

  7. Realiza un seguimiento riguroso e interviene rápidamente. Invierte en medición de rendimiento y financiera, y supervisa de cerca las implementaciones para mejorar continuamente el rendimiento de los datos.


1. Deja que el valor de los datos te guíe



En la determinación de una estrategia de datos para la IA generativa, los CDO podrían considerar adaptar una cita del presidente John F. Kennedy: “No preguntes qué puede hacer tu empresa por la IA generativa; pregunta qué puede hacer la IA generativa por tu empresa”. El enfoque en el valor es un principio de larga data, pero los CDO deben confiar particularmente en él para contrarrestar la presión de “hacer algo” con la IA generativa.

Para proporcionar este enfoque en el valor, los CDO necesitarán desarrollar una visión clara de las implicaciones de datos del enfoque general de la empresa hacia la IA generativa, que se manifestará en tres arquetipos:

  • Receptor: una empresa que consume servicios preexistentes a través de interfaces básicas como APIs. En este caso, el CDO deberá enfocarse en poner a disposición datos de calidad para los modelos de IA generativa y posteriormente validar las salidas.

  • Moldeador: una empresa que accede a modelos y los ajusta con sus propios datos. El CDO deberá evaluar cómo debería evolucionar la gestión de datos de la empresa y determinar los cambios necesarios en la arquitectura de datos para habilitar las salidas deseadas.

  • Creador: una empresa que construye sus propios modelos fundamentales. El CDO deberá desarrollar una estrategia sofisticada de etiquetado y clasificación de datos, así como realizar inversiones más significativas.

El CDO tiene el papel más importante en apoyar el enfoque Moldeador, ya que el enfoque Creador está actualmente limitado a aquellas grandes empresas dispuestas a realizar inversiones importantes y el enfoque Receptor accede esencialmente a capacidades commoditizadas. Una función clave en impulsar el enfoque Moldeador es comunicar los compromisos necesarios para cumplir con casos de uso específicos y resaltar aquellos que son más factibles. Mientras que la hiperpersonalización, por ejemplo, es un caso de uso prometedor de la IA generativa, requiere datos de clientes limpios, fuertes protecciones de datos y tuberías para acceder a múltiples fuentes de datos. El CDO también debería priorizar iniciativas que puedan proporcionar los mayores beneficios a la empresa, en lugar de simplemente respaldar casos de uso individuales.

A medida que los CDO ayudan a dar forma al enfoque empresarial hacia la IA generativa, será importante adoptar una visión amplia del valor. Por muy prometedora que sea la IA generativa, es solo una parte del portafolio de datos más amplio. Gran parte del valor potencial para una empresa proviene de la IA tradicional, la inteligencia empresarial y el aprendizaje automático (ML). Si los CDO están dedicando el 90 por ciento de su tiempo a iniciativas relacionadas con la IA generativa, es razón para alarmarse.


2. Incorpora capacidades específicas en la arquitectura de datos para respaldar el conjunto más amplio de casos de uso


El gran cambio en cuanto a los datos es que el alcance del valor ha aumentado mucho debido a la capacidad de la IA generativa para trabajar con datos no estructurados, como chats, videos y código. Esto representa un cambio significativo porque las organizaciones de datos tradicionalmente solo han tenido capacidades para trabajar con datos estructurados, como datos en tablas. Capturar este valor no requiere reconstruir la arquitectura de datos, pero el CDO que desee ir más allá del arquetipo básico de “Taker” deberá centrarse en dos prioridades claras.

La primera es arreglar los fundamentos de la arquitectura de datos. Aunque esto pueda sonar como algo ya conocido, las grietas en el sistema con las que antes se podía salir del paso se convertirán en grandes problemas con la IA generativa. Muchas de las ventajas de la IA generativa simplemente no serán posibles sin una base de datos sólida. Para determinar los elementos de la arquitectura de datos en los que enfocarse, el CDO se beneficiará mejor identificando las correcciones que proporcionen el mayor beneficio para la mayor variedad de casos de uso, como los protocolos de manejo de datos para información personal identificable (PII), ya que cualquier caso de uso específico de IA generativa para clientes necesitará esa capacidad.

La segunda prioridad es determinar qué actualizaciones de la arquitectura de datos son necesarias para cumplir con los requisitos de los casos de uso de alto valor. El problema clave aquí es cómo gestionar y escalar de manera rentable los datos y las integraciones de información que impulsan los casos de uso de IA generativa. Si no se gestionan correctamente, existe un riesgo significativo de sobrecargar el sistema con actividades masivas de computación de datos, o de que los equipos realicen integraciones únicas, lo que aumenta la complejidad y la deuda técnica. Estos problemas se complican aún más por el perfil en la nube del negocio, lo que significa que los CDO deben trabajar en estrecha colaboración con el liderazgo de TI para determinar los costos de uso de cómputo, redes y servicios.

En general, el CDO deberá priorizar la implementación de cinco componentes clave de la arquitectura de datos como parte del conjunto tecnológico empresarial:

  • Almacenes de datos no estructurados: Los modelos de lenguaje grande (LLM) trabajan principalmente con datos no estructurados para la mayoría de los casos de uso. Los líderes de datos deberán mapear todas las fuentes de datos no estructurados y establecer estándares de etiquetado de metadatos para que los modelos puedan procesar los datos y los equipos puedan encontrar los datos que necesitan. Los CDO también necesitarán mejorar aún más la calidad de las tuberías de datos y establecer estándares de transparencia para que sea fácil rastrear el origen de un problema hasta la fuente de datos correcta.

  • Preprocesamiento de datos: La mayoría de los datos necesitarán preparación, por ejemplo, convirtiendo formatos de archivos y limpiando datos para la calidad de datos y el manejo de datos sensibles, para que la IA generativa pueda utilizar los datos. Los datos preprocesados se utilizan más comúnmente para construir indicaciones para modelos de IA generativa. Para acelerar el rendimiento, los CDO necesitan estandarizar el manejo de datos estructurados y no estructurados a escala, como formas de acceder a sistemas subyacentes, y priorizar (o “preagregar”) los datos que admiten las preguntas y respuestas más frecuentes.

  • Bases de datos vectoriales: La vectorización es una forma de priorizar el contenido y crear “incrustaciones” (representaciones numéricas de significados de texto) para agilizar el acceso al contexto, la información complementaria que la IA generativa necesita para proporcionar respuestas precisas. Las bases de datos vectoriales permiten que los modelos de IA generativa accedan solo a la información más relevante. En muchos casos, las empresas no necesitan construir bases de datos vectoriales para comenzar a trabajar con IA generativa. A menudo pueden usar bases de datos NoSQL existentes para comenzar.

  • Integraciones de LLM: Los usos de IA generativa más sofisticados requieren interacciones con múltiples sistemas, lo que crea desafíos significativos en la conexión de LLM. Varios marcos, muchos de los cuales son de código abierto, pueden ayudar a facilitar estas integraciones (por ejemplo, LangChain o diversas ofertas de hipercalculadoras, como Semantic Kernel para Azure, Bedrock para AWS o Vertex AI para Google Cloud). Los CDO necesitarán establecer pautas para elegir qué marcos usar, definir plantillas de indicaciones que puedan ser fácilmente personalizadas para fines específicos y establecer patrones de integración estandarizados para cómo los LLM interactúan con los sistemas de datos fuente.

  • Ingeniería de indicaciones: La ingeniería de indicaciones efectiva (el proceso de estructurar preguntas de manera que obtenga la mejor respuesta de los modelos de IA generativa) depende del contexto. El contexto solo se puede determinar a partir de datos e información existentes en fuentes estructuradas y no estructuradas. Para mejorar la salida, los CDO deberán gestionar la integración de grafos de conocimiento o modelos de datos y ontologías (un conjunto de conceptos en un dominio que muestra sus propiedades y las relaciones entre ellos) en la indicación. Dado que los CDO no tendrán propiedad sobre muchos repositorios de datos en toda la empresa, necesitan establecer estándares y precalificar fuentes para asegurar que los datos que se alimentan en los modelos sigan protocolos específicos (por ejemplo, exponer una API de gráfico de conocimiento para proporcionar fácilmente entidades y relaciones).


3. Concéntrate en puntos clave del ciclo de vida de los datos para garantizar una alta calidad


La calidad de los datos siempre ha sido un tema importante para los CDOs. Pero la escala y alcance de los datos en los que se basan los modelos de IA generativa han hecho que el dicho “basura entra/basura sale” sea mucho más importante y costoso, ya que entrenar un solo LLM puede costar millones de dólares. Una razón por la cual identificar problemas de calidad de datos es mucho más difícil en los modelos de IA generativa que en los modelos de ML clásicos es porque hay muchos más datos y muchos de ellos son no estructurados, lo que dificulta el uso de herramientas de seguimiento existentes.

Los CDOs necesitan tomar dos acciones para garantizar la calidad de los datos: primero, necesitan ampliar sus programas de observabilidad de datos para aplicaciones de IA generativa para detectar mejor los problemas de calidad, como establecer umbrales mínimos para el contenido no estructurado que se incluirá en las aplicaciones de IA generativa; y segundo, necesitan desarrollar intervenciones a lo largo del ciclo de vida de los datos para abordar los problemas que los equipos descubren, centrándose principalmente en cuatro áreas:

  1. Datos de origen: Ampliar el marco de calidad de datos para incluir medidas relevantes para propósitos de IA generativa (como el sesgo). Asegurar metadatos y etiquetas de alta calidad para datos estructurados y no estructurados, y regular el acceso a datos sensibles (por ejemplo, basar el acceso en roles).

  2. Preprocesamiento: Asegurarse de que los datos sean consistentes y estandarizados y cumplan con ontologías y modelos de datos establecidos. Detectar valores atípicos y aplicar normalizaciones. Automatizar la gestión de datos PII y establecer pautas para determinar si los datos deben ser ignorados, retenidos, editados, puestos en cuarentena, eliminados, enmascarados o sintetizados.

  3. Prompt: Evaluar, medir y hacer un seguimiento de la calidad del indicador. Incluir metadatos de alta calidad y transparencia de linaje para datos estructurados y no estructurados en el indicador.

  4. Salida del LLM: Establecer los procedimientos de gobierno necesarios para identificar y resolver salidas incorrectas, y utilizar “humanos en el proceso” para revisar y priorizar problemas de salida. En última instancia, elevar el papel de los empleados individuales capacitándolos para evaluar críticamente las salidas del modelo y ser conscientes de la calidad de los datos de entrada. Complementar con una capacidad de monitoreo y alerta automatizada para identificar comportamientos no deseados.



4. Protege tus datos sensibles y estate preparado para actuar rápidamente a medida que surjan regulaciones


El 71 por ciento de los líderes senior de IT creen que la tecnología de IA generativa está introduciendo nuevos riesgos de seguridad a sus datos. Se ha discutido mucho sobre la seguridad y los riesgos relacionados con la IA generativa, pero los CDOs necesitan contemplar las implicaciones de los datos en tres áreas específicas:

  • Identificar y priorizar los riesgos de seguridad para los datos propietarios de la empresa. Los CDOs deben evaluar los riesgos de divulgar los datos de la empresa, incluyendo el riesgo de exponer secretos comerciales al compartir código confidencial y propietario con modelos de IA generativa, y priorizar las amenazas más significativas. Muchos protocolos actuales de protección de datos y ciberseguridad pueden ampliarse para mitigar riesgos específicos relacionados con la IA generativa. Por ejemplo, mediante la incorporación de recordatorios emergentes cada vez que un ingeniero intenta compartir datos con un modelo, o mediante la implementación de scripts automatizados para garantizar el cumplimiento normativo.

  • Gestionar el acceso a los datos PII. Los CDOs deben establecer regulaciones que gobiernen la detección y manejo de datos en el ámbito de la IA generativa. Deben implementar sistemas que integren medidas de protección e intervenciones humanas para garantizar la eliminación de información personalmente identificable (PII) durante la preprocesamiento de datos, antes de su utilización en un LLM. El uso de datos sintéticos (a través de fabricantes de datos) e identificadores no sensibles puede ayudar.

  • Seguir de cerca el esperado aumento de regulaciones. La IA generativa ha llevado a los gobiernos a implementar rápidamente nuevas regulaciones, como la Ley de IA de la Unión Europea, que establece diversos estándares, incluida la obligación para las empresas de divulgar resúmenes de datos con derechos de autor utilizados para entrenar a un LLM. Los líderes de datos deben mantenerse cerca de los líderes de riesgo de la empresa para entender las nuevas regulaciones y sus implicaciones para la estrategia de datos, como la necesidad de “desentrenar” modelos que utilicen datos regulados.


5. Fomentar el talento en ingeniería de datos


A medida que las empresas adopten cada vez más la IA generativa, los CDOs deberán centrarse en las implicaciones para el talento.

Las herramientas de IA generativa gestionarán tareas de codificación específicas: la IA es responsable de escribir el 41 por ciento del código publicado en GitHub. Esto requiere una formación específica en el trabajo con un “copiloto” de IA generativa; un estudio reciente de McKinsey mostró que los ingenieros senior trabajan de manera más productiva con un copiloto de IA generativa que los ingenieros junior. Las academias de datos e IA deben incorporar formación en IA generativa adaptada a niveles de experiencia específicos.

Los CDOs también necesitarán ser claros sobre qué habilidades habilitan mejor la IA generativa. Las empresas necesitan personas que puedan integrar conjuntos de datos (como escribir APIs que conecten modelos con fuentes de datos), secuenciar y encadenar instrucciones, manejar grandes cantidades de datos, aplicar LLMs y trabajar con parámetros de modelo. Esto significa que los CDOs deberían centrarse más en encontrar ingenieros de datos, arquitectos y ingenieros de back-end, y menos en contratar científicos de datos, cuyas habilidades serán cada vez menos críticas a medida que la IA generativa permita que personas con habilidades técnicas menos avanzadas utilicen el lenguaje natural para realizar análisis básicos.

A corto plazo, el talento seguirá siendo escaso, y se proyecta que la brecha de talento aumentará aún más en el futuro cercano, lo que creará más incentivos para que los CDOs fortalezcan sus programas de formación.


6. Utiliza IA Generativa para ayudarte a gestionar tus datos


Los líderes de datos tienen una gran oportunidad de aprovechar la IA generativa para mejorar su propia función.

Muchos proveedores ya están lanzando productos, lo que requiere que los CDOs identifiquen las capacidades en las que pueden confiar en los proveedores y cuáles deberían construir ellos mismos. Una regla general es que para los procesos de gobierno de datos que son únicos para el negocio, es mejor construir su propia herramienta. Tenga en cuenta que muchas herramientas y capacidades son nuevas y pueden funcionar bien en entornos experimentales, pero no a escala.


7. Realiza un seguimiento riguroso e interven rápidamente


Hoy en día, en el mundo de la IA generativa, hay más incógnitas que certezas y las empresas siguen aprendiendo a medida que avanzan. Por lo tanto, es crucial que los CDOs establezcan sistemas para rastrear y gestionar activamente el progreso de sus iniciativas de IA generativa y entender qué tan bien los datos están contribuyendo a los objetivos del negocio.

En la práctica, los líderes realizan un seguimiento del progreso e identifican las causas raíz de los problemas utilizando un conjunto de KPIs principales y KPIs operativos (las actividades subyacentes que impulsan los KPIs) dentro de métricas efectivas.

Un conjunto principal de KPIs debería incluir lo siguiente:

  • Coste de componentes adicionales, como bases de datos vectoriales y consumo de LLMs como servicio.

  • La integración de fuentes de datos específicas con flujos de trabajo de aplicaciones de IA generativa permite ingresos adicionales.

  • Tiempo de llegada al mercado para desarrollar una aplicación impulsada por IA generativa que requiere acceso a datos internos.

  • Satisfacción del usuario final con cómo los datos han mejorado el rendimiento y la calidad de la aplicación.

Los KPIs operativos deben abarcar el seguimiento de los datos más utilizados, evaluar el rendimiento del modelo, identificar áreas de baja calidad de datos, monitorear el volumen de solicitudes contra conjuntos de datos específicos y evaluar qué casos de uso generan la mayor actividad y valor.

Esta información es crítica para proporcionar una base factual para que el liderazgo no solo siga el progreso, sino también tome ajustes rápidos y decisiones de compensación frente a otras iniciativas en el portafolio más amplio del CDO. Al conocer qué fuentes de datos se utilizan más para modelos de alto valor, por ejemplo, el CDO puede priorizar inversiones para mejorar la calidad de los datos en esas fuentes.

La inversión efectiva, la presupuestación y la reasignación dependerán de que los CDOs desarrollen una capacidad similar a FinOps para gestionar toda la nueva estructura de costos en torno a la IA generativa. Los CDOs deberán rastrear una nueva gama de costos, incluidas la cantidad de solicitudes de modelos de IA generativa, los cargos de consumo de API de proveedores (tanto en cantidad como en tamaño de llamadas), y los cargos de cómputo y almacenamiento de proveedores de nube. Con esta información, el CDO puede determinar la mejor forma de optimizar los costos, como dirigir las solicitudes por nivel de prioridad o mover ciertos datos a la nube para reducir los costos de redes.

El valor de estas métricas solo es tan grande como el grado en que los CDOs actúan sobre ellas. Los CDOs deberán establecer métricas de rendimiento de datos que puedan revisar casi en tiempo real y protocolos para tomar decisiones rápidas. Deberían extender programas efectivos de gobernanza de datos para incorporar decisiones relacionadas con la IA generativa mientras permanecen en su lugar.

Los datos no pueden ser una reflexión posterior en la IA generativa. Más bien, son el combustible principal que impulsa la capacidad de un negocio para capturar valor de la IA generativa. Pero las empresas que desean ese valor no pueden permitirse que los CDOs

Más sobre nosotros

Principal Form