El Futuro del Entrenamiento de Modelos de Inteligencia Artificial

En el vertiginoso mundo del aprendizaje automático y la inteligencia artificial (IA), los datos son el combustible que impulsa el motor de la innovación. A medida que nos adentramos en una era dominada por modelos cada vez más complejos y sofisticados, la demanda de conjuntos de datos de alta calidad y voluminosos ha alcanzado niveles sin precedentes. Sin embargo, una sombra se cierne sobre este panorama de avance tecnológico: la inminente escasez de datos de calidad. ¿Estamos al borde de agotar nuestra reserva más preciada?

Crecimiento Exponencial de Datos vs. Escasez Inminente

Históricamente, hemos sido testigos de un crecimiento exponencial en el tamaño de los conjuntos de datos de entrenamiento, especialmente en campos como el procesamiento del lenguaje natural (PLN) y la visión por computadora. Este crecimiento ha sido el catalizador de avances significativos, permitiéndonos entrenar modelos de IA cada vez más poderosos, como ejemplo podemos poner Whisper , siendo este un modelo de aprendizaje automático para el reconocimiento y la transcripción de voz creado por OpenAI y que es capaz de de transcribir vídeos y podcasts de plataformas como YouTube. En el caso de de GPT-4, este habría sido entrenado con más de un millón de horas de vídeos de YouTube transcritos por Whisper.

Sin embargo y a pesar que hasta ahora había datos suficientes que posibilitaban ese entrenamiento, un análisis detallado de las tendencias actuales sugiere un futuro preocupante: el posible agotamiento de la reserva de datos de alta calidad antes de 2026 para datos de lenguaje, y entre 2030 y 2060 para datos de imagen. Esta proyección pone de relieve una realidad inquietante: la era de abundancia de datos podría estar llegando a su fin.

Desafíos en la Búsqueda de Datos de Calidad

La calidad de los datos juega un papel fundamental en el entrenamiento de modelos de IA eficaces. Los datos de alta calidad son aquellos que son representativos, diversos, precisos y relevantes para el problema específico que se busca resolver. Sin embargo, encontrar conjuntos de datos que cumplan con estos criterios se está convirtiendo en un desafío cada vez mayor. La escasez de estos recursos valiosos limita nuestra capacidad para entrenar modelos más grandes y avanzados, frenando potencialmente el ritmo de innovación en el campo de la IA. Por ello grandes compañías están tratando de solventar este problema y buscando otras fuentes y modalidades de datos, como ya veremos más adelante, para que sus modelos sigan aprendiendo y es ahí cuando nos debemos preocupar en algunos casos, ya que qué pasaría si Google empezara a utilizar los datos almacenados en Google Docs, Google Sheets o Slides de sus usuarios gratuitos, según se indican en algunas referencias intenciones ha tenido y si lo extendemos a otras empresas Facebook, Instagram, Youtube etc…

Estrategias para la Escasez de Datos

Ante este panorama, es imperativo explorar estrategias para mitigar la escasez de datos. Una de las aproximaciones es la generación de datos sintéticos, una técnica que, mediante algoritmos, crea conjuntos de datos artificiales que pueden servir como sustitutos efectivos de los reales. No obstante estos pueden tener ventajas e inconvenientes, pasemos a describir alguno de ellos.

Como ventajas en la creación de datos sintéticos podemos mencionar:

  • Privacidad y Anonimización: Los datos sintéticos pueden ser generados de tal manera que no contengan información personal identificable, abordando preocupaciones de privacidad y cumpliendo con regulaciones como el GDPR.
  • Ampliación de Conjuntos de Datos: En áreas donde los datos son escasos, caros o difíciles de obtener, los datos sintéticos pueden ampliar significativamente los conjuntos de datos existentes, mejorando el entrenamiento de modelos de IA.
  • Diversidad y Representatividad: Se pueden crear datos sintéticos que cubran casos raros o minoritarios no representados adecuadamente en los conjuntos de datos reales, mejorando la robustez y equidad de los modelos de IA.
  • Control y Personalización: Los investigadores tienen control total sobre las características de los datos sintéticos, permitiendo la creación de escenarios de prueba específicos para evaluar y mejorar los modelos de IA.
  • Reducción de Costos: La recolección de datos reales puede ser costosa y requerir largos periodos de tiempo. Los datos sintéticos pueden generarse de manera más eficiente y económica.

En cuanto a los problemas o inconvenientes generados por la creación de datos sintéticos anotamos:

  • Calidad y Realismo: Aunque los avances son significativos, puede haber diferencias entre los datos sintéticos y los reales, lo que podría afectar la calidad y el rendimiento del modelo de IA cuando se aplica a situaciones del mundo real.
  • Sesgo en la Generación: Los datos sintéticos pueden heredar o incluso exacerbar los sesgos presentes en los datos reales o en los algoritmos utilizados para generarlos, perpetuando la discriminación o injusticia.
  • Complejidad y Recursos: La generación de datos sintéticos de alta calidad puede requerir conocimientos especializados y recursos computacionales significativos, limitando su accesibilidad para todos los investigadores.
  • Validación y Confianza: Establecer la validez y confiabilidad de los datos sintéticos para entrenamiento y validación de modelos puede ser desafiante, generando escepticismo sobre su utilidad.
  • Aspectos Legales y Éticos: Aunque los datos sintéticos pueden diseñarse para evitar problemas de privacidad, su creación y uso aún plantean preguntas éticas, especialmente si se generan imitando datos reales sin consentimiento.

Otra vía para solucionar la escasez , es el aprovechamiento de los vastos océanos de datos no estructurados disponibles en la web. Estos se refieren a cualquier tipo de datos que no poseen un formato o estructura predefinida o fácilmente identificable, lo que dificulta su análisis y procesamiento mediante métodos convencionales. A diferencia de los datos estructurados, que se organizan claramente en tablas y columnas (como en bases de datos o hojas de cálculo), los datos no estructurados abarcan una amplia gama de formatos. Estos pueden incluir texto libre (correos electrónicos, publicaciones en redes sociales, documentos), imágenes, videos, audios, páginas web y más. Siendo estos transformados en recursos valiosos para el entrenamiento de modelos.  Estos se utilizan en los Modelos de Aprendizaje de la IA de diferente forma:

  • A través de procesamiento del Lenguaje Natural (PLN): Los modelos de PLN utilizan datos no estructurados en forma de texto para una variedad de aplicaciones, como traducción automática, análisis de sentimientos, clasificación de documentos, generación de texto y asistentes virtuales. Estos modelos aprenden a entender, interpretar y generar lenguaje humano de manera coherente y útil.
  • Visión por Computadora: Las imágenes y videos, formas comunes de datos no estructurados, son esenciales para entrenar modelos de visión por computadora. Estos modelos se aplican en reconocimiento facial, detección de objetos, análisis de vídeo en tiempo real, diagnóstico médico por imágenes, entre otros.
  • Reconocimiento de Voz y Audio: Los datos de audio, incluidos los grabados de voz, música y sonidos ambientales, se utilizan para entrenar modelos de IA en tareas como el reconocimiento de voz, la transcripción automática, la síntesis de voz y el análisis de emociones a partir del tono vocal.
  • Análisis de Redes Sociales: Publicaciones en redes sociales, comentarios y otras interacciones digitales son datos no estructurados que se analizan para obtener insights sobre comportamientos de usuarios, tendencias de opinión pública, influencia social y patrones de consumo.
  • Extracción de Información: Los datos no estructurados a menudo contienen información valiosa oculta. Mediante técnicas de extracción de información, es posible identificar y extraer automáticamente entidades nombradas, relaciones, eventos y hechos relevantes para su posterior análisis.
  • Aprendizaje Profundo: Los algoritmos de aprendizaje profundo son particularmente aptos para trabajar con grandes volúmenes de datos no estructurados. A través de redes neuronales convolucionales (para imágenes) y redes neuronales recurrentes o transformers (para texto y secuencias), estos modelos pueden aprender representaciones ricas y complejas de los datos.

Los datos estructurados representan por otro lado una serie de desafíos como los que enumero a continuación:

  • Preprocesamiento: Los datos no estructurados requieren un preprocesamiento significativo para limpiar, normalizar y convertirlos en un formato adecuado para el entrenamiento de modelos
  • Gran volumen y diversidad: La vasta cantidad y variedad de datos no estructurados pueden presentar desafíos computacionales y de almacenamiento.
  • Extracción de características: Identificar las características relevantes de los datos no estructurados para tareas específicas puede ser complejo y requiere técnicas avanzadas de aprendizaje automático.

A pesar de estos desafíos, el uso de datos no estructurados en modelos de aprendizaje de IA continúa expandiéndose, impulsando innovaciones y avances en diversas áreas. Su capacidad para aprovechar la riqueza y complejidad del mundo real hace que los datos no estructurados sean una fuente invaluable de información para la inteligencia artificial.

Además, la mejora en la eficiencia del uso de datos a través de técnicas como el aprendizaje por transferencia y el aprendizaje semi-supervisado representa otra avenida prometedora. Implicando el aprendizaje por transferencia tomar un modelo preentrenado en una tarea y reutilizarlo en una segunda tarea relacionada, siendo la idea que el conocimiento adquirido por el modelo en la primera tarea (por ejemplo, aprender características visuales generales en un gran conjunto de datos de imágenes) puede aplicarse a otra tarea (como el reconocimiento de especies específicas de aves) con mínimos ajustes. Este enfoque se basa en la premisa de que ciertas características aprendidas son útiles a través de diferentes tareas y dominios. En cuanto al aprendizaje semi-supervisado se sitúa entre el aprendizaje supervisado (donde todos los datos están etiquetados) y el aprendizaje no supervisado (donde ningún dato está etiquetado). En el aprendizaje semi-supervisado, se utiliza una combinación de una pequeña cantidad de datos etiquetados y una gran cantidad de datos no etiquetados para entrenar modelos. La idea es utilizar la estructura y distribución inherente en los datos no etiquetados para mejorar el aprendizaje y la generalización del modelo.

Impacto en el Avance de la IA

La potencial escasez de datos de calidad plantea un dilema significativo para el futuro del avance de la IA. Si bien la capacidad para generar y recopilar datos continúa expandiéndose, la demanda de conjuntos de datos específicos y de alta calidad supera esta capacidad. Este desequilibrio podría ralentizar el progreso en áreas clave de la IA, a menos que se encuentren soluciones innovadoras para superar los límites impuestos por la disponibilidad de datos.

Conclusión

La carrera hacia la inteligencia artificial avanzada es una maratón, no un sprint. A medida que nos enfrentamos a la realidad de una posible escasez de datos de calidad, es crucial que la comunidad de IA se una para explorar y priorizar soluciones innovadoras. Ya sea a través de la generación de datos sintéticos, el aprovechamiento de datos no estructurados o la mejora de la eficiencia en el uso de datos, debemos encontrar formas de continuar alimentando el motor de la innovación, no obstante siempre dentro de la legalidad y de la privacidad que se requiere.

Referencias en las que se ha basado el artículo:
Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning