Apple Utiliza Videos de YouTube para Entrenar su IA

En los últimos tiempos, han surgido numerosos informes afirmando que OpenAI utilizó contenido de YouTube para entrenar su modelo de texto a video Sora. Ahora, se ha revelado que empresas como Apple, Nvidia y Anthropic también están utilizando datos «públicamente disponibles» generados por los usuarios para entrenar sus modelos de inteligencia artificial. Según los informes, Apple utilizó decenas de miles de videos de YouTube con subtítulos para entrenar Apple Intelligence, lo cual va en contra de las políticas de contenido de la plataforma.

Investigaciones Reveladoras sobre el Uso de Datos de YouTube en la IA de Apple

La noticia proviene de una investigación realizada por Proof News y co-publicada con Wired. De acuerdo con la investigación, Apple y otras compañías estaban utilizando un conjunto de datos llamado YouTube Subtitles, que incluía transcripciones de 173,536 videos de YouTube provenientes de más de 48,000 canales. Los videos en el conjunto de datos abarcan desde canales educativos como Khan Academy y MIT, hasta sitios de noticias como The Wall Street Journal, así como algunos de los creadores más destacados de la plataforma, incluyendo a MrBeast y Marques Brownlee.

El Impacto en los Creadores de Contenido

Según Marques Brownlee, Apple evita «técnicamente» la culpa, ya que obtuvieron su IA de empresas que usaron las transcripciones de los videos de YouTube en lugar de utilizar los datos directamente. No obstante, las transcripciones siguen contribuyendo a los modelos de IA, en los cuales los creadores invirtieron su tiempo y dinero. Brownlee concluyó diciendo que este será un problema en evolución durante mucho tiempo.

Apple Utiliza Videos de YouTube para Entrenar IA

Herramientas para los Creadores y Reacciones de YouTube

Proof News también creó una herramienta para que los creadores busquen su contenido en el conjunto de datos. El conjunto de datos de YouTube Subtitles no incluye imágenes de los videos, pero sí incluye algunos subtítulos traducidos en varios idiomas. Según los informes, el conjunto de datos fue creado por un laboratorio de investigación sin fines de lucro llamado Eleuther AI, que se enfoca en promover normas de ciencia abierta.

Hasta el momento, ninguna de las empresas mencionadas ha comentado sobre el asunto. El director ejecutivo de YouTube, Neal Mohan, ya ha dejado claro en una entrevista que el uso de videos de YouTube por parte de empresas para entrenar sus modelos de IA es una «clara violación» de las políticas de la plataforma.

Conclusión sobre la IA de Apple y su controversia

Este caso pone de manifiesto los desafíos y dilemas éticos que surgen con el uso de datos generados por usuarios en la era de la inteligencia artificial. La comunidad tecnológica deberá encontrar un equilibrio entre el avance de sus tecnologías y el respeto por los derechos de los creadores de contenido. La evolución de este problema seguramente nos dará más de qué hablar en el futuro cercano.