Les modèles de langage modernes, comme ceux qui répondent à vos questions ou traduisent vos messages en temps réel, ne sont pas magiques. Ils apprennent. Et ils apprennent à partir de jeux de données. Ce ne sont pas de simples fichiers texte. Ce sont des milliards de phrases, de mots, de dialogues, de livres, de commentaires et de conversations qui ont été rassemblés, nettoyés et structurés pour enseigner à une machine ce que signifie vraiment parler humain.
De Wikipedia aux livres anciens : les débuts du NLP
Il y a dix ans, les chercheurs en traitement du langage naturel (NLP) s’appuyaient sur des jeux de données petits, soigneusement choisis. Le Project Gutenberg est un exemple emblématique : plus de 50 000 livres en domaine public, en plusieurs langues, disponibles en texte brut. Ces œuvres, souvent anciennes, offraient un langage propre, sans erreurs de frappe ni abréviations de messagerie. Parfait pour apprendre la grammaire, mais peu représentatif de la façon dont les gens parlent aujourd’hui.
Le WikiText, extrait de Wikipedia, a été une révolution. Il a permis d’entrainer les premiers modèles à prédire le mot suivant dans une phrase. Pourquoi ? Parce que Wikipedia est structuré, varié, et couvre des sujets allant de la biologie à la musique électronique. Chaque article est une mini-encyclopédie, avec des phrases complexes, des termes techniques et des transitions logiques. C’était la première fois qu’un jeu de données offrait un équilibre entre qualité et échelle.
Le Blog Authorship Corpus, avec ses 681 000 billets de blog, a révélé quelque chose d’important : le style de écriture varie énormément d’une personne à l’autre. Cela a permis aux modèles de reconnaître non seulement le sens des mots, mais aussi leur origine humaine - une étape cruciale pour la détection de la fausse information ou l’analyse de l’identité en ligne.
Les jeux de données spécialisés : quand le NLP devient précis
Un modèle qui comprend Wikipedia ne sait pas encore si un client est mécontent d’un produit. Pour cela, il faut des jeux de données ciblés.
Le Stanford Sentiment Treebank a changé la donne. Plutôt que de dire simplement "cette critique est positive", il étiquette chaque mot, chaque groupe de mots. "Le service était correct mais les plats étaient décevants" - voilà un cas où la nuance compte. Ce jeu de données a permis aux modèles de comprendre les sentiments à plusieurs niveaux, pas seulement globalement.
Pour la reconnaissance des entités nommées - c’est-à-dire repérer les noms de personnes, d’endroits ou d’entreprises - le CoNLL 2003 est devenu la référence. Il contient des articles de presse annotés à la main : "Barack Obama" est un nom propre, "Washington" est un lieu, "Microsoft" est une organisation. Des milliers de phrases comme celles-ci ont appris aux modèles à distinguer les types de mots dans un texte réel.
Et puis il y a le MultiNLI, un jeu de données conçu pour tester la compréhension logique. Il présente des paires de phrases : "L’homme porte un chapeau" et "L’homme a quelque chose sur la tête". Le modèle doit décider si la deuxième phrase est une conséquence, une contradiction, ou neutre par rapport à la première. C’est un test de raisonnement, pas seulement de vocabulaire.
Le virage web-scale : quand tout Internet devient une bibliothèque
Aujourd’hui, les plus grands modèles de langage - comme ceux que vous utilisez quotidiennement - sont entraînés sur des corpus à échelle web. Ce ne sont plus des collections sélectionnées. Ce sont des extraction massives de données publiques.
Wikipedia, encore, fait partie de ces corpus, mais maintenant, elle est mélangée avec des milliards de pages de Reddit, des milliers de forums en plusieurs langues, des tweets, des commentaires de YouTube, des livres numériques, des manuels techniques, des rapports d’entreprise, et même des codes source avec des commentaires en anglais.
Le Spoken Wikipedia Corpora a été un pont entre texte et voix. Des voix humaines lisent des articles de Wikipedia en anglais, allemand et néerlandais. Ce jeu de données a permis aux systèmes de reconnaissance vocale d’apprendre non seulement à entendre les mots, mais aussi à les comprendre dans un contexte fluide, comme une conversation réelle.
Le LibriSpeech, avec ses 1 000 heures de discours tirés d’audiobooks, a aidé à construire des assistants vocaux capables de comprendre des phrases longues et complexes. Et le M-AI Labs Speech Dataset a ajouté la diversité : voix d’hommes, de femmes, d’enfants, de différents accents - une nécessité pour que les modèles ne soient pas biaisés.
Les pièges des jeux de données : biais, qualité et éthique
Plus un jeu de données est grand, plus il est dangereux s’il n’est pas bien choisi.
Un modèle entraîné sur des tweets ou des commentaires de forum va apprendre les insultes, les stéréotypes, les fautes de grammaire et les expressions régionales. Il va reproduire les biais : si 80 % des avis sur un produit sont écrits par des hommes, le modèle pensera que les avis masculins sont "normaux". Il ne saura pas parler comme une femme, ou comme une personne non-binaire.
Le Yelp Open Dataset est riche, mais il ne représente que les avis sur les restaurants et commerces. Il ne vous apprendra rien sur la poésie, la science ou la philosophie. Un modèle formé uniquement sur ce jeu de données serait excellent pour les avis, mais incapable de rédiger un essai.
Et puis il y a la question de la vie privée. Le Blog Authorship Corpus a été publié en 2010. À l’époque, les gens ne savaient pas que leurs blogs seraient utilisés pour former des IA. Aujourd’hui, les chercheurs doivent vérifier les droits d’utilisation, les licences, et parfois supprimer des données personnelles.
Comment choisir le bon jeu de données ?
Vous n’avez pas besoin de tout. Vous avez besoin du bon.
- Si vous voulez traduire du français vers l’espagnol, utilisez un jeu de données parallèle : des phrases identiques dans les deux langues. Pas de Wikipedia, pas de tweets. Des traductions professionnelles.
- Si vous construisez un assistant pour les patients diabétiques, utilisez des forums médicaux, pas des critiques de films.
- Si vous voulez que votre modèle comprenne l’humour, vous avez besoin de jeux de données comme Fake News Dataset - parce que l’humour, comme la désinformation, repose sur des subtilités linguistiques.
- Si vous travaillez sur plusieurs langues, privilégiez les jeux de données multilingues. Le Spoken Wikipedia Corpora en est un exemple, mais il en existe d’autres, comme les corpus de l’Union européenne.
La qualité compte plus que la quantité. Un jeu de données de 10 000 phrases bien annotées vaut mieux qu’un million de phrases mal étiquetées.
Le futur : des jeux de données plus intelligents
Les chercheurs ne se contentent plus de rassembler du texte. Ils créent des jeux de données qui testent des compétences spécifiques.
Des équipes travaillent maintenant sur des jeux de données pour mesurer la cohérence logique, la compréhension des émotions, ou même la capacité à détecter les manipulations rhétoriques. Les jeux de données deviennent des tests de QI pour les IA.
Et avec la montée des modèles ouverts, les communautés partagent leurs jeux de données. Hugging Face, GitHub, et Papers With Code ont transformé la recherche en un écosystème collaboratif. Un chercheur en Inde peut utiliser un jeu de données créé à Toronto pour entraîner un modèle en Afrique, et le partager avec un étudiant au Brésil.
Le NLP n’est plus un domaine de laboratoire. Il est devenu une infrastructure. Et comme toute infrastructure, sa solidité dépend de ses fondations. Les jeux de données sont ces fondations. Sans elles, pas de modèles. Sans des jeux de données bien conçus, pas d’IA fiable, juste de la puissance brute mal utilisée.
Pourquoi Wikipedia est-elle encore utilisée dans les jeux de données modernes ?
Wikipedia reste un pilier parce qu’elle est structurée, vérifiée, et couvre un large éventail de sujets. Contrairement aux réseaux sociaux, ses articles sont rédigés avec un style neutre et cohérent. Cela en fait un excellent fondement pour apprendre la grammaire, la logique et la structure du langage. Même les corpus à échelle web incluent souvent des extraits de Wikipedia pour assurer une base de qualité.
Quelle est la différence entre un jeu de données pour la traduction et un jeu de données pour la génération de texte ?
Pour la traduction, vous avez besoin de paires de phrases identiques dans deux langues - par exemple, une phrase en anglais et sa traduction en français. Pour la génération de texte, vous n’avez besoin que d’un texte source, comme un article de blog, et le modèle doit apprendre à produire un texte similaire. Le premier exige une correspondance précise ; le second exige de la créativité et de la cohérence interne.
Les jeux de données en français sont-ils suffisamment nombreux ?
Non, pas encore. La majorité des grands corpus sont en anglais. Les jeux de données en français, comme le corpus de l’Assemblée nationale ou les articles de Wikipedia en français, existent, mais ils sont plus petits et moins diversifiés. Cela limite la performance des modèles pour les tâches en français. Des projets comme le French Web Corpus tentent de combler ce déficit, mais il reste du travail.
Comment savoir si un jeu de données est fiable ?
Vérifiez trois choses : 1) Qui l’a créé ? (une université, un laboratoire reconnu ?) 2) Y a-t-il une documentation claire sur la méthode de collecte et d’annotation ? 3) Est-il utilisé dans des publications scientifiques ? Si oui, c’est un bon indicateur. Les jeux de données sans source ou sans documentation sont souvent biaisés ou de mauvaise qualité.
Les jeux de données peuvent-ils être utilisés sans autorisation ?
Pas toujours. Certains jeux de données sont libres d’utilisation (licence CC-BY), d’autres exigent une autorisation, surtout s’ils contiennent des données personnelles. Toujours vérifiez la licence avant de télécharger. Utiliser un jeu de données sans autorisation peut entraîner des problèmes légaux, surtout si vous le commercialisez.