Make this article seo compatible,Let there be subheadings for the article, be in french, create at least 700 words
Mercredi, deux romanciers à succès ont déposé une plainte contre OpenAI devant un tribunal fédéral de San Francisco, affirmant dans un recours collectif proposé que la société avait utilisé la propriété intellectuelle protégée par le droit d’auteur pour « former » son chatbot d’intelligence artificielle.
Les auteurs Mona Awad et Paul Tremblay affirment que ChatGPT a été formé en partie en « ingérant » leurs romans sans leur consentement. L’IA générative est alimentée par deux logiciels connus sous le nom de grands modèles de langage, qui renoncent à une méthode de programmation traditionnelle et extraient à la place des quantités massives de texte afin de produire des réponses naturelles et réalistes aux invites de l’utilisateur.
Lorsque vous y êtes invité, ChatGPT a émis des résumés extrêmement détaillés de « La Cabane du bout du monde » de Tremblay et de « Bunny » et « 13 façons de regarder une grosse fille » d’Awad. Les deux auteurs affirment que c’est la preuve que leurs romans ont été utilisés pour former le chatbot, et le dossier comprend les réponses de ChatGPT aux invites concernant leurs romans.
Selon la poursuite, une grande partie du matériel qu’OpenAI utilise pour former ses chatbots génératifs provient d’œuvres protégées par le droit d’auteur, y compris des livres écrits par Awad et Tremblay, « qui ont été copiés par OpenAI sans consentement, sans crédit et sans compensation ».
Le procès allègue qu’une variété de matériaux ont été utilisés pour former les grands modèles de langage, mais les livres ont été « un ingrédient clé dans la formation des ensembles de données pour les grands modèles de langage, car les livres offrent les meilleurs exemples d’écriture longue de haute qualité ».
En juin 2018, OpenAI a révélé qu’il avait formé GPT-1 à l’aide de BookCorpus, que la poursuite décrivait comme un « ensemble de données controversé » assemblé par des chercheurs en intelligence artificielle en 2015, avec une collection de « plus de 7 000 livres uniques non publiés de divers genres, y compris Adventure , Fantaisie et Romance.
«Ils ont copié les livres d’un site Web appelé Smashwords.com qui héberge des romans inédits qui sont disponibles gratuitement pour les lecteurs. Ces romans, cependant, sont en grande partie sous copyright.
Selon la plainte, les itérations ultérieures des grands modèles linguistiques de l’entreprise ont été formées à l’aide de quantités beaucoup plus importantes de livres protégés par le droit d’auteur. Dans un article de juillet 2020 présentant GPT-3, la société a révélé que 15 % de l’ensemble de données de formation provenaient de « deux corpus de livres sur Internet » qu’OpenAI appelait simplement « Books1 » et « Books2 ».
La poursuite se rapproche du fait que, sur la base des chiffres révélés dans l’article d’OpenAI sur GPT-3, Books1 contiendrait environ 63 000 titres et Books2 inclurait environ 294 000 titres.
« Parce que les modèles de langage OpenAI ne peuvent pas fonctionner sans les informations expressives extraites des œuvres des demandeurs (et d’autres) et conservées à l’intérieur, les modèles de langage OpenAI enfreignent eux-mêmes des œuvres dérivées, réalisées sans l’autorisation des demandeurs et en violation de leurs droits exclusifs en vertu du Loi sur le droit d’auteur. », lit-on dans la poursuite.
Mercredi également, un recours collectif plus large a été déposé par Clarkson, un cabinet d’avocats d’intérêt public, au nom d’une douzaine de clients anonymes, accusant OpenAI de lever des informations privées, parfois identifiantes, des internautes « sans leur consentement éclairé ou leur connaissance, ” selon un rapport de Rolling Stone. Les experts ont prédit que d’autres poursuites suivront à coup sûr à mesure que l’IA deviendra plus apte à utiliser les informations du Web pour générer de nouveaux contenus.