Un estudio de Proof News reveló que algunas empresas de tecnología que participan en el negocio de la inteligencia artificial, entre ellas Apple, han extraído datos de videos de YouTube sin consentimiento para entrenar a sus modelos generativos. De acuerdo a los investigadores, el conjunto de información incluye transcripciones de más de 173.000 clips del portal de Google. La acusación involucra, además, a Nvidia y a Anthropic, el desarrollador del chatbot Claude.
La incómoda verdad de la IA: los desarrolladores pisotean los derechos de propiedad
Tal como señalamos en Inteligencia artificial: los miedos y las esperanzas que asoman a la espera de regulaciones, la tecnología de moda trae consigo encantos y también una serie de inconvenientes. Entre los últimos sobresalen los riesgos de incrementar la desinformación, las posibles difamaciones a través de falsificaciones (deepfakes) y también el uso no consentido de datos para entrenar a los modelos de IA.
Para desprevenidos, la “magia” de la inteligencia artificial generativa se sustenta, en gran medida, en los datos. Los desarrolladores de esos modelos usan información para entrenar a sus sistemas. Desde artículos periodísticos y entradas enciclopédicas, pasado por estudios académicos, hasta comentarios de usuarios en redes sociales. El mencionado informe muestra que, también, se emplean transcripciones de videos tomados de YouTube. El problema radica en los permisos: ¿las empresas detrás de la IA solicitan los debidos permisos para echar mano a esos datos?
Esta problemática estalló, especialmente, en el ámbito literario. Cabe recordar en este punto que diversos escritores demandaron a compañías como OpenAI, los creadores del célebre ChatGPT, por usar sus textos sin consentimiento ni las debidas compensaciones por derechos de propiedad intelectual.
Apple habría usado datos de YouTube para entrenar a su inteligencia artificial
La empresa de la manzana mordida es una de las que participa en el negocio de la IA. En sus recientes conferencias WWDC 2024 confirmó esas intenciones, con el despliegue de Apple Intelligence y sus relaciones estrechas con OpenAI.
La investigación de Proof News ahora la pone contra las cuerdas. El informe revela que la compañía de Cupertino, California, metió mano en más de 173.000 videos de YouTube, tomados de más de 48.000 canales. En ese amplio grupo aparecen clips de creadores de contenido reconocidos a nivel mundial, incluyendo a MrBeast, el youtuber más popular, además de material de cadenas de noticias como ABC News, The New York Times y BBC.
En concreto, usaron transcripciones a texto, sin incluir imágenes.
La respuesta de Google, dueño de YouTube
Un vocero de la compañía que gestiona el portal de videos dijo a Engadget que si se confirma que Apple, Nvidia y Anthropic usaron datos de YouTube sin permiso, estarían violando los términos de la plataforma.
Siguiendo a la fuente, es evidente que YouTube, el repositorio de vídeos más grande del mundo, es una mina de oro no solo de transcripciones, sino también de audio, vídeo e imágenes, lo que lo convierte en un conjunto de datos atractivo para entrenar modelos de IA. Dicho esto, los principales desarrolladores del sector —incluyendo a ahora poderoso OpenAI— no han sido absolutamente transparentes respecto a cómo robustecen a sus modelos.