Apple vient de faire un pas important vers la transparence. L’entreprise a publié un document technique détaillant les modèles développés pour alimenter Apple Intelligence, sa gamme de fonctionnalités d'IA générative qui sera bientôt disponible aux États-Unis sur iOS, macOS et iPadOS. Ces précisions interviennent dans un contexte où les questions éthiques liées à l'intelligence artificielle sont au cœur des débats.
Une approche éthique revendiquée
Cupertino tient à dissiper les doutes concernant l'éthique de son approche dans l'entraînement de ses modèles. L'entreprise affirme clairement n'avoir utilisé aucune donnée privée de ses utilisateurs. Au lieu de cela, elle s'est appuyée sur une combinaison de données publiques et de données sous licence pour développer Apple Intelligence.
"Notre ensemble de données de pré-entraînement se compose de données que nous avons obtenues sous licence auprès d'éditeurs, de datasets publics ou open source soigneusement sélectionnés, et d'informations publiques collectées par notre robot d'indexation, Applebot," précise Apple dans son document.
La controverse du dataset "The Pile"
Cette clarification fait suite à une controverse survenue ce mois-ci, lorsque Proof News a rapporté qu'Apple avait utilisé un ensemble de données appelé "The Pile", contenant des sous-titres de centaines de milliers de vidéos YouTube, pour entraîner une famille de modèles destinés au traitement en local. De nombreux créateurs n'étaient pas au courant et n'avaient pas donné leur consentement. Cupertino a par la suite déclaré ne pas avoir l'intention d'utiliser ces modèles pour alimenter des fonctionnalités d'IA dans ses produits.
Les Apple Foundation Models
Le document technique lève le voile sur les modèles Apple Foundation Models (AFM), présentés pour la première fois lors de la WWDC 2024 en juin. Apple souligne que les données d'entraînement ont été obtenues de manière "responsable" (du moins selon la définition de l’entreprise). Ces données comprennent des informations web publiques ainsi que des contenus sous licence provenant d'éditeurs non divulgués. Selon le New York Times, Apple en aurait approché plusieurs fin 2023, dont NBC, Condé Nast et IAC, pour des accords pluriannuels d'une valeur d'au moins 50 millions de dollars, afin d'entraîner ses modèles sur leurs archives d'actualités.
L'utilisation du code open source
Les modèles AFM ont également été entraînés sur du code open source hébergé sur GitHub, notamment Swift, Python, C, Objective-C, C++, JavaScript, Java et Go. Apple assure avoir effectué un "filtrage par licence" pour n'inclure que les dépôts avec des restrictions d'utilisation minimales, comme ceux sous licence MIT, ISC ou Apache. Pour améliorer leurs compétences mathématiques, la marque a spécifiquement inclus dans l'ensemble d'entraînement des questions et réponses provenant de pages web, forums mathématiques, blogs, tutoriels et séminaires.
Elle a également utilisé des ensembles de données "de haute qualité et publiquement disponibles" (non nommés dans le document) avec "des licences permettant leur utilisation pour l'entraînement de modèles". Au total, cela pèse environ 6,3 milliards de tokens. À titre de comparaison, c'est moins de la moitié de ce que Meta a utilisés pour entraîner Llama 3.1 405B. Cupertino a également utilisé des données supplémentaires, notamment des retours humains et des données synthétiques, pour affiner ses modèles et tenter d'atténuer les comportements indésirables, comme la production de contenu toxique.
Une transparence calculée
Bien que ce document offre un aperçu des pratiques d'Apple en matière d'IA, il ne révèle aucune information sensationnelle (et c'est probablement voulu). Ces types de publications sont rarement révélateurs, en raison des pressions concurrentielles mais aussi parce que la divulgation de trop d'informations pourrait exposer les entreprises à des problèmes juridiques. Certaines d’entre elles qui entraînent des modèles en collectant des données web publiques affirment que leur pratique est protégée par la doctrine de l'utilisation équitable. C'est une question qui fait cependant l'objet de nombreux débats et d'un nombre croissant de poursuites. Apple indique qu'il permet aux webmasters de bloquer son robot d'indexation pour empêcher la collecte de leurs données. Mais cela laisse les créateurs individuels dans une situation délicate. Que peut faire un artiste si, par exemple, son portfolio est hébergé sur un site qui refuse de bloquer la collecte de données ?
Non indiqué, non nommé, non spécifié... Ça fait beaucoup de non dit pour une société qui veut rassurer. Finalement, la transparence chez les big tech, c'est une illusion.