Make this article seo compatible,Let there be subheadings for the article, be in french, create at least 700 words
Le Corpus Commun vise à créer un espace de science ouverte.
L’année dernière, OpenAI a déclaré qu’il était « impossible » de créer des outils tels que ChatGPT sans accès à du matériel protégé par le droit d’auteur. Mais une start-up française a prouvé que c’était possible.
Cela arrive à un moment crucial où les batailles juridiques autour du matériel protégé par le droit d’auteur s’intensifient, la plus grande affaire étant la Le New York Times poursuit OpenAI et son investisseur Microsoft pour avoir prétendument utilisé des articles de presse pour entraîner ChatGPT.
Aujourd’hui, Common Corpus a peut-être trouvé la solution aux obstacles juridiques en dévoilant le plus grand ensemble de données publiques pour la formation de grands modèles linguistiques (LLM).
Cette initiative internationale, coordonnée par la start-up française Pleias, regroupe des chercheurs et d’autres sociétés d’IA de science ouverte comme HuggingFace, Occiglot, Eleuther et Nomic AI.
Il est également soutenu par Langu:IA, un projet porté par la cellule de langue française du ministère français de la Culture qui vise, entre autres, à « faciliter l’accès aux données en français et dans les langues de France pour les formations et spécialisations LLM ».
Le Corpus possède le plus grand ensemble de données anglophones à ce jour avec 180 milliards de mots, dont 21 millions de journaux numérisés et des millions de livres. Mais il est également multilingue et possède le plus grand ensemble de données ouvertes en français (110 milliards de mots), allemand (30 milliards de mots), espagnol, néerlandais et italien.
« Je pense [the Corpus is] très important pour que nous puissions créer une incitation à la concurrence [with companies like OpenAI] », a déclaré Pierre-Carl Langlais, cofondateur de Pleias, à Euronews Next.
Selon lui, c’est bon pour la coopération car « une fois que vous publiez un corpus, vous partagez l’intérêt de l’améliorer et d’éviter les duplications ».
Certains Européens éditeurscomme le journal français Le Monde, ont conclu des accords avec OpenAI pour concéder sous licence leur contenu à des fins de formation.
Bien que les termes spécifiques de ces accords ne soient pas divulgués, Langlais a déclaré qu’il s’agissait « d’une très grande préoccupation car cela signifie qu’ils pourraient devoir obéir à des entreprises américaines et c’est particulièrement inquiétant car il s’agit de l’un des médias les plus importants en France ».
« La création de ce type de système de commandement est donc un problème majeur », a-t-il ajouté.
Langlais estime que le Corpus est donc essentiel car il peut tirer parti des règles du jeu en diminuant la valeur des données protégées par le droit d’auteur.
Différents types de contenu ouvert
Il existe des limites en ce qui concerne Common Corpus car il utilise du matériel non protégé par le droit d’auteur.
En Europe, pour qu’un texte ne soit pas soumis au droit d’auteur, il faut qu’il soit 70 ans après le décès de l’auteur. Cela signifie que l’ensemble de données n’est pas formé sur du matériel plus récent.
« Évidemment, cela pose une série de problèmes concernant la mise à jour du langage… Je pense que les questions éthiques peuvent également être différentes, mais pour l’instant, ce n’est qu’une partie du contenu ouvert dont nous disposons », a déclaré Langlais.
Les deux autres éléments qui, selon lui, rendront les données plus récentes sont les données administratives ouvertes, qui, selon lui, « sont en fait importantes en Europe parce que nous sommes très déterminés à contourner ce problème ». [data]» et le mouvement de la science ouverte, qui rend la recherche scientifique accessible à tous.
Langlais a déclaré qu’une autre façon d’améliorer le Corpus commun consiste à utiliser des données synthétiques, qui sont des données générées artificiellement qui reproduisent les modèles, les relations et les caractéristiques trouvés dans les données du monde réel.
En 2022, Des chercheurs du MIT ont découvert que les modèles entraînés synthétiquement ont été encore plus performants que les modèles entraînés sur des données réelles pour les vidéos comportant moins d’objets d’arrière-plan.
Mais Langlais estime que le but du Corpus commun est d’avoir « une idée commune, c’est de l’améliorer », a-t-il déclaré.
« Une grande partie de nos initiatives visent à garantir que le contenu soit plus riche, plus diversifié et puisse être modifié », a-t-il déclaré, ajoutant qu’à l’avenir il espère inclure davantage de langues européennes dans le projet.