Un ensemble de données de formation d’IA utilisé par des géants de la technologie aurait été créé en récupérant des vidéos YouTube en violation des conditions d’utilisation
Le groupe de recherche en IA à but non lucratif EleutherAI a récupéré des sous-titres de YouTube pour créer un ensemble de données en violation des conditions de service de YouTube, a déclaré ProofNews le 16 juillet.
L’ensemble de données, appelé Pile, comprendrait les sous-titres de 173 536 vidéos YouTube provenant de plus de 48 000 chaînes. Environ 12 000 vidéos supprimées font partie de l’ensemble de données.
Plusieurs grandes entreprises de technologie et d’intelligence artificielle, dont Anthropic, ont depuis utilisé Pile pour la formation. Jennifer Martinez, porte-parole d’Anthropic, a déclaré que l’ensemble de données comprenait « un très petit sous-ensemble de sous-titres YouTube », mais a refusé de commenter d’éventuelles violations des conditions d’utilisation de YouTube.
L’éditeur de logiciels Salesforce a également utilisé l’ensemble de données. Caiming Xiong, vice-président de la recherche en IA chez Salesforce, a déclaré que l’ensemble de données était « accessible au public » et que Salesforce l’utilisait à des fins académiques et de recherche. ProofNews a déclaré que Salesforce a finalement rendu public le même ensemble de données.
Apple a utilisé Pile pour entraîner OpenELM, un modèle de langage efficace pour l’IA sur appareil. Nvidia, Bloomberg et Databricks ont également utilisé Pile pour l’entraînement de l’IA.
ProofNews a déclaré que sa liste des entreprises ayant utilisé l’ensemble de données n’est pas exhaustive, car les entreprises ne divulguent pas toujours les ensembles de données qu’elles utilisent dans la formation de l’IA.
L’ensemble de données contient des chaînes cryptographiques, plus
L’outil de recherche de ProofNews indique que Pile comprend des vidéos de chaînes et de créateurs de crypto-monnaies, notamment Coinbase, Cointelegraph, Bitcoin Magazine, BitBoy Crypto, 99Bitcoins, Ivan On Tech et Andreas Antonopolous.
ProofNews a souligné que l’ensemble de données comprend des transcriptions de chaînes d’information majeures, de chaînes éducatives, d’émissions de fin de soirée, d’animateurs YouTube populaires et d’autres catégories. L’ensemble de données Pile s’étend au-delà de YouTube à d’autres sites Web et contenus en ligne.
ProofNews a fait état d’un précédent rapport du New York Times, selon lequel OpenAI et Google avaient déjà collecté des textes de YouTube. Google, propriétaire de YouTube, a déclaré que cette action était autorisée en raison de son accord avec les utilisateurs. OpenAI n’a ni confirmé ni démenti ce rapport.
Les litiges relatifs aux droits d’auteur dans le domaine de l’IA sont de grande ampleur. Le cabinet d’avocats Baker Hoestler recense au moins quinze procès impliquant des entreprises technologiques telles qu’Anthropic, Meta, GitHub, Stability AI, Nvidia et Google. OpenAI fait face à des poursuites judiciaires très médiatisées de la part de la société mère de Mother Jones et du New York Times.
L’ensemble de données d’entraînement de l’IA utilisé par les géants de la technologie, prétendument créé en récupérant des vidéos YouTube en violation des conditions, est apparu en premier sur CryptoSlate.