CultureLivres & LittératureOù les éditeurs d’IA trouvent-ils les montagnes de textes...

Où les éditeurs d’IA trouvent-ils les montagnes de textes nécessaires à leur entraînement ?

Bigger is better : l’aphorisme a beau être inélégant, c’est une des clefs du succès de ChatGPT. Outre l’accroissement phénoménal du nombre de neurones artificiels, il a fallu, pour les entraîner, dénicher une masse de textes équivalente à plusieurs millions de livres, au bas mot. En se lançant à leur tour dans la course au gigantisme, les concurrents d’OpenAi ont eux aussi téléchargé d’immenses piles de mots à la provenance mystérieuse, voire douteuse.

Dans le descriptif de leurs intelligences artificielles (IA), OpenAI et Google présentent ces bibliothèques numériques en des termes lapidaires : il s’agirait de piles de pages Internet et d’écrits dont les auteurs ont été dédommagés. Chez Anthropic, la fiche consacrée à Claude Sonnet 4.6 est même complètement vide quand est abordée la question des données d’entraînement. Ce grand flou s’explique en partie par les tensions liées aux procès, en cours, des auteurs qui accusent les créateurs d’IA de violer leurs droits.

D’anciens articles de recherche d’Anthropic, Meta, Google et OpenAI laissent toutefois entrevoir quelques-unes des sources qui ont abreuvé les premières versions de leurs modèles. Parmi elles : l’encyclopédie Wikipedia, qui agglomère quelques milliards de mots, et Commoncrawl, un catalogue de 300 milliards de pages Internet aspirées depuis 2008 – dont des articles de journaux en principe réservés aux abonnés, malgré les promesses de retrait faites à leurs éditeurs, révélaient en novembre dernier une enquête du média The Atlantic.

Il vous reste 72.47% de cet article à lire. La suite est réservée aux abonnés.


Source:

www.lemonde.fr

Annonce publicitairespot_img

Dernières nouvelles

Brigitte Bardot : ce parfum français qui a fait sa légende continue de faire un carton chez Sephora

Il y a un siècle naissait une légende de la parfumerie. Créée en 1921 et révélée au grand public en 1925,...

Elle a été licenciée parce que son mari a accédé aux archives informatiques de son employeur depuis son compte

Le 13 juin 2019, Richard*, administrateur de projets web à la Mutuelle d'Ivry, vient de signer sa rupture conventionnelle...

« Mon cauchemar éveillé » : le fils du réalisateur Rob Reiner s’exprime pour la première fois depuis le meurtre de ses parents

Le 14 décembre dernier, les corps du réalisateur de « Quand Harry rencontre Sally », Rob Reiner, et de son épouse avaient...

Les potières de Sejnane, en Tunisie, gardiennes d’un savoir-faire ancestral

Façonnées à la main, les vaisselles et figurines en argile de Sejnane sont reconnaissables à leurs formes organiques et...
Annonce publicitairespot_img
Annonce publicitairespot_imgspot_img