Vous avez déjà demandé à un assistant IA quelque chose comme : « Quelle est la différence entre les revenus de Microsoft et de Google l’année dernière, et quel impact cela a eu sur leurs investissements en IA ? » Et vous avez reçu une réponse vague, hors sujet, ou incomplète ? Ce n’est pas une erreur de votre part. C’est simplement que la plupart des modèles langagiers ne savent pas encore bien gérer ce genre de questions complexes.
Pourquoi les questions simples ne suffisent plus
Les modèles comme GPT-4 ou Claude 3 sont excellents pour répondre à des questions simples : « Quelle est la population de Tokyo ? » ou « Quand Apple a-t-il lancé l’iPhone ? ». Mais dès que vous ajoutez une couche - une comparaison, une cause, une conséquence, plusieurs éléments à analyser - tout se complique. Les systèmes traditionnels, qui cherchent simplement des mots-clés dans une base de données, échouent dans 57 % des cas sur ce type de requêtes. Même les méthodes comme l’extension de requête, qui ajoutent des synonymes ou des termes connexes, n’améliorent les résultats que de 8 % au maximum. Pourquoi ? Parce qu’elles ne comprennent pas la structure de la question. Elles ne décomposent pas.Qu’est-ce que la décomposition des requêtes ?
La décomposition des requêtes, c’est la capacité d’un modèle à transformer une question complexe en plusieurs petites questions plus simples, comme un puzzle qu’on assemble. Reprenons l’exemple précédent :- Question originale : « Quelle est la différence entre les revenus de Microsoft et de Google l’année dernière, et quel impact cela a eu sur leurs investissements en IA ? »
- Sub-question 1 : « Quels sont les revenus de Microsoft en 2024 ? »
- Sub-question 2 : « Quels sont les revenus de Google en 2024 ? »
- Sub-question 3 : « Quelle est la différence entre ces deux chiffres ? »
- Sub-question 4 : « Quels ont été les investissements en IA de Microsoft en 2024 ? »
- Sub-question 5 : « Quels ont été les investissements en IA de Google en 2024 ? »
- Sub-question 6 : « Comment ces investissements ont-ils évolué par rapport à leurs revenus ? »
Chaque sous-question est envoyée à un moteur de recherche ou à une base de connaissances. Les réponses sont ensuite fusionnées, analysées, et reformulées en une réponse finale cohérente. Ce n’est pas de la magie - c’est de la logique structurée.
Le cadre ReDI : comment ça marche en pratique
En février 2025, une équipe de chercheurs a présenté ReDI, un système de décomposition qui fonctionne en trois étapes claires :- Compréhension et décomposition : Le modèle analyse la question et décide combien de sous-questions il faut créer. Il le fait avec 92,3 % de précision sur le benchmark BRIGHT.
- Interprétation enrichie : Chaque sous-question est reformulée avec des variantes pour améliorer la recherche. Par exemple, « revenus de Microsoft » devient aussi « chiffre d’affaires Microsoft 2024 » ou « revenus annuels Microsoft ». Cela augmente la pertinence des documents trouvés de 18,6 %.
- Fusion des résultats : Les réponses de chaque sous-question sont combinées selon des règles logiques. Si une réponse est contradictoire, le système la met en doute. S’il manque une donnée, il la demande à nouveau.
Le résultat ? Une précision de 66,9 % sur les questions complexes, contre seulement 43,2 % avec les méthodes traditionnelles. Pour les questions comparatives - comme « Microsoft ou Google ? » - l’amélioration atteint 28,4 %. Pour les questions causales - « Quel impact a eu cela ? » - c’est 25,1 %.
Quels modèles fonctionnent le mieux ?
Tous les modèles ne sont pas égaux. Pour décomposer correctement, il faut de la mémoire, de la puissance, et de la capacité à tenir une chaîne de raisonnement sur plusieurs étapes.- Les modèles de 7 milliards de paramètres (comme Mistral-7B-Instruct) sont le minimum requis. Ils gèrent bien les requêtes jusqu’à 32 000 tokens - ce qui permet de traiter des questions longues sans les couper.
- Les modèles de type GPT-4 (avec 1 800 milliards de paramètres) sont 42,8 % plus précis que les modèles de 7 milliards. Mais ils coûtent cher.
- Le GPT-4o-mini, lui, offre le meilleur rapport coût/performance : 0,00015 $ par étape de décomposition. C’est pourquoi il est devenu le choix privilégié pour les entreprises qui veulent déployer cette technologie sans se ruiner.
Si vous utilisez un modèle trop petit - comme Llama-3-8B ou des versions plus anciennes - vous allez obtenir des décompositions erronées. Par exemple, une question avec trois parties peut être réduite à une seule. Ou pire : elle peut être décomposée en cinq sous-questions alors qu’il n’en fallait que deux. C’est ce qu’on appelle l’« over-decomposition ».
Les avantages et les pièges
La décomposition des requêtes a des avantages clairs :- Elle augmente la précision sur les questions complexes de plus de 20 %.
- Elle permet de répondre à des questions que les systèmes traditionnels ne comprennent même pas.
- Elle est particulièrement utile dans les secteurs comme la finance, la santé ou la recherche juridique, où les requêtes sont souvent multi-niveaux.
Mais elle a aussi des inconvénients :
- Plus de latence : Une réponse qui prend 500 ms avec une recherche directe peut en prendre 2 000 ms avec décomposition. Sur un site web grand public, cela peut nuire à l’expérience utilisateur.
- Sur-décomposition : Si le système décompose trop, il ralentit inutilement. Certains utilisateurs ont dû passer trois semaines à calibrer le seuil de décomposition pour éviter que 85 % des questions simples soient traitées comme complexes.
- Complexité technique : Implémenter cela dans un système existant demande 4 à 6 semaines de travail pour un développeur expérimenté. La documentation de Haystack est l’une des meilleures - elle permet de déployer une version basique en 3 jours.
Qui utilise cette technologie aujourd’hui ?
En juin 2025, 12,4 % des systèmes de recherche d’entreprise utilisaient déjà la décomposition des requêtes. Ce chiffre devrait atteindre 65 % d’ici 2027, selon Gartner. Les secteurs les plus avancés :- Services financiers : 23,7 % d’adoption. Pour analyser les rapports trimestriels, comparer les performances des entreprises, ou détecter les risques.
- Santé : 18,2 %. Pour répondre à des questions comme : « Quels sont les effets secondaires du médicament X chez les patients diabétiques de plus de 65 ans ? »
- Administration publique : 15,9 %. Pour traiter les demandes citoyennes complexes, comme les demandes d’aide sociale multi-critères.
Les plateformes commerciales comme Elastic et Coveo intègrent maintenant la décomposition directement dans leurs interfaces. Les grandes entreprises comme Microsoft, Google et Salesforce l’utilisent en interne pour améliorer leurs outils de recherche interne. Les startups qui construisent des assistants pour la recherche juridique ou scientifique en font leur fondement.
Comment commencer à l’implémenter ?
Si vous êtes développeur ou responsable technique, voici comment vous lancer :- Choisissez un framework : Haystack est le plus accessible. Il propose des pipelines prêts à l’emploi avec GPT-4o-mini et des outils de décomposition intégrés.
- Testez sur vos données : Prenez 50 questions complexes réelles que vos utilisateurs posent. Vérifiez si la réponse actuelle est correcte. Ensuite, appliquez la décomposition et comparez.
- Calibrez le seuil : Ne décomposez pas toutes les questions. Utilisez un classificateur pour détecter les requêtes complexes. Un score de confiance supérieur à 0,75 est un bon point de départ.
- Surveillez la latence : Si votre système doit répondre en moins d’une seconde, la décomposition peut ne pas être adaptée. Dans ce cas, réservez-la uniquement aux questions identifiées comme « complexes ».
- Testez avec des questions culturelles : Les systèmes actuels ne comprennent bien que 54,3 % des questions qui impliquent des contextes culturels ou linguistiques spécifiques. C’est un point faible majeur.
Et demain ?
Le domaine évolue vite. En septembre 2025, ReDI 2.0 a été lancé : il ajuste automatiquement le nombre d’étapes de décomposition selon la complexité de la question. Cela signifie qu’il n’essaie plus de décomposer une question simple - il le fait seulement quand c’est nécessaire.Google travaille sur une version qui gère les requêtes multimodales : « Quelle est la tendance des ventes de voitures électriques en France, et montre-moi les graphiques des derniers mois ». Ce sera la prochaine étape.
Les chercheurs de l’Allen Institute ont aussi montré que la décomposition améliore la capacité des LLM à interagir avec les graphes de connaissances. Chaque sous-question crée un « nœud » dans le graphe, ce qui permet de relier des faits de manière plus intelligente. C’est une avancée majeure pour les systèmes de recherche sémantique.
En résumé : la décomposition des requêtes n’est pas une mode. C’est la prochaine couche de compréhension des machines. Si vos utilisateurs posent des questions qui demandent plus qu’une simple réponse, vous avez deux choix : continuer à leur donner des réponses incomplètes… ou apprendre à décomposer.
Quelle est la différence entre la décomposition des requêtes et le chain-of-thought ?
Le chain-of-thought (chaîne de raisonnement) fait réfléchir le modèle à voix haute - il génère des étapes internes de raisonnement dans sa réponse. Mais il ne sépare pas la question en sous-questions indépendantes, ni n’utilise de moteur de recherche externe. La décomposition, elle, crée des sous-questions réelles, les traite séparément avec des outils externes, puis fusionne les résultats. Cela donne des réponses plus précises et vérifiables. Sur le benchmark BRIGHT, la décomposition dépasse le chain-of-thought de 7,2 % en précision.
Est-ce que la décomposition fonctionne avec les modèles open source ?
Oui, mais avec des limites. Les modèles comme Mistral-7B-Instruct, Llama-3-70B ou Qwen-72B peuvent être utilisés pour la décomposition, surtout avec des outils comme Haystack ou LlamaIndex. Cependant, leur précision est inférieure à celle de GPT-4 ou Claude 3, notamment sur les questions avec des relations causales complexes. Pour une production sérieuse, il est recommandé d’utiliser des modèles de 7 milliards de paramètres ou plus, avec un contexte étendu (32K tokens minimum).
Comment savoir si une question est trop complexe pour être décomposée ?
Une question est trop complexe si elle demande plus de 4-5 sous-questions indépendantes, ou si les sous-questions sont interdépendantes (par exemple, la réponse à la question 3 dépend de la réponse à la question 1). Dans ces cas, la décomposition peut devenir instable. Les systèmes avancés utilisent des algorithmes de détection de dépendances pour gérer ce type de cas. Sinon, il vaut mieux utiliser un modèle plus puissant avec un contexte très large, ou une approche hybride.
La décomposition augmente-t-elle le risque de hallucinations ?
Pas nécessairement. En fait, elle peut réduire les hallucinations. En séparant la question en parties, chaque sous-réponse peut être vérifiée contre des sources externes. Si une réponse est fausse ou non trouvée, le système peut la signaler ou demander une nouvelle recherche. C’est plus fiable que de laisser un modèle générer une réponse complète sans validation. Toutefois, si la fusion des résultats est mal faite, des contradictions peuvent apparaître. C’est pourquoi les stratégies de fusion sont cruciales.
Est-ce que la décomposition des requêtes est utile pour les chatbots grand public ?
Pas toujours. Pour un chatbot de service client qui répond à des questions simples comme « Où est mon colis ? » ou « Quels sont vos horaires ? », la décomposition ajoute juste de la latence. Elle est utile quand les questions sont nuancées : « Quel est le meilleur forfait mobile pour quelqu’un qui voyage en Europe et en Asie, et qui veut un forfait avec données illimitées et un bon service client ? » Dans ce cas, oui. Mais pour 80 % des interactions grand public, elle est inutile.
5 Commentaires
Emeline Louap
Je viens de tester ça sur un projet de recherche juridique, et franchement, c’est une révolution. Avant, je passais des heures à reformuler mes requêtes, à vérifier les sources une par une… Maintenant, je pose une question du style : « Quels sont les précédents juridiques sur la vie privée dans les contrats de travail en France, et comment ça a évolué depuis la fin du télétravail forcé ? » Et hop, le système décompose en cinq sous-questions, cherche dans les bases de la DGCCRF, les arrêts de la Cour de cassation, les rapports du CNIL, et même les articles de la revue Droit & Société. Le résultat ? Une synthèse claire, avec des citations exactes. J’ai même pu exporter le tout en PDF pour mon patron. Il a cru que j’avais embauché un juriste. Je lui ai juste dit : « Non, j’ai juste activé ReDI. »
La latence ? Oui, ça prend 1,8 seconde. Mais c’est une seconde de qualité, pas de bavure. J’ai testé avec GPT-4o-mini, et le coût est ridicule : 0,00042 $ par requête. Pour 50 requêtes par jour, ça fait 6,30 $ par mois. Moins qu’un café par semaine. Et je gagne 3 heures par semaine en productivité. Je vois pas pourquoi tout le monde n’aurait pas ça dans son workflow.
Et pour les questions culturelles ? T’as raison, c’est encore un point faible. J’ai mis une question sur les droits des travailleurs immigrés dans les exploitations agricoles du Sud-Ouest - le système a décomposé, mais il a mal interprété « exploitations » comme des fermes industrielles, pas des petites exploitations familiales. J’ai dû ajouter un filtre lexical pour « agriculture familiale ». Ça m’a pris 20 minutes. Mais maintenant, ça marche à 92 %. C’est pas parfait, mais c’est déjà bien mieux que de se faire avoir par une IA qui confond « travailleur saisonnier » et « employé à temps partiel ».
Le truc qui me plaît le plus ? Quand il détecte une contradiction. J’ai eu une réponse où deux sources disaient des trucs opposés sur les indemnités de licenciement en 2023. Le système a mis un avertissement en jaune : « Donnée conflictuelle : source A affirme X, source B affirme Y. Vérification manuelle recommandée. » J’ai trouvé la bonne source dans le journal officiel. C’est ça, la vraie intelligence augmentée. Pas juste de la génération de texte. De la vérification active.
Je pense que dans 2 ans, les outils de recherche sans décomposition seront considérés comme des artefacts du passé. Comme les dictionnaires papier. Ou les fax. On va tous dire : « Tu te souviens quand on devait tout faire nous-mêmes ? »
Emilie Arnoux
Je viens d’essayer avec mon chatbot pro bono pour les seniors, et j’ai pleuré. En vrai. J’ai demandé : « Comment obtenir la carte de transport à tarif réduit si j’ai un diabète et que je vis seul ? » Avant, il répondait : « Consultez votre mairie. » Maintenant, il décompose en 4 étapes, cherche les aides départementales, les conditions médicales, les formulaires en ligne, et même les associations locales qui aident à remplir les dossiers. J’ai reçu une réponse claire, avec un lien vers le formulaire PDF et le numéro d’un bénévole qui peut venir à la maison. Un vieux monsieur m’a appelée hier pour me dire merci. J’étais trop émue.
Vincent Lun
Franchement, c’est du bidon. Vous croyez que décomposer une question, c’est de l’intelligence ? Non, c’est juste du bricolage. Le vrai problème, c’est que les LLM ne comprennent rien. Ils copient. Et vous, vous faites un système qui copie en plusieurs étapes. C’est comme si vous demandiez à quelqu’un de lire un livre en 10 pages au lieu d’une seule, et vous croyez que ça le rend plus intelligent. Non. Il lit juste plus lentement. Et si la source est fausse ? Il va vous donner 5 faux résultats au lieu d’un seul. C’est pas de l’amélioration, c’est de la multiplication des erreurs.
Et puis, pourquoi on doit payer 0,00015 $ par étape ? Pourquoi pas juste améliorer le modèle au lieu de faire un système de poupées russes ? Je suis fatigué de ces solutions techniques qui cachent un manque de fondement. On a besoin de modèles qui comprennent, pas de mécanismes qui trichent avec la complexité.
Pierre Dilimadi
Je suis prof de tech dans un lycée en banlieue. J’ai mis ça dans un TP avec mes élèves. On a testé avec des questions comme : « Pourquoi les jeunes en France ont moins d’emplois que les autres pays ? » Avant, ils copiaient des articles de Wikipedia. Maintenant, ils apprennent à décomposer : salaire minimum, taux de chômage des 16-25 ans, lois sur les contrats jeunes, aides à l’embauche, etc. Ils ont compris que poser une bonne question, c’est déjà la moitié du travail. Et ils ont aimé. Vraiment. Un gamin m’a dit : « Prof, j’ai compris que les machines peuvent aider, mais c’est nous qui devons bien penser. » J’ai eu une boule au ventre.
Stéphane Evrard
Je trouve ça beau, en fait. Pas parce que c’est efficace - même si ça l’est - mais parce que ça révèle quelque chose d’humain. On a toujours voulu que les machines pensent comme nous. Mais ici, on ne les force pas à tout faire d’un coup. On leur apprend à décomposer, comme on apprend aux enfants à résoudre un problème en étapes. On leur donne des outils, pas des réponses. Et on leur permet d’admettre qu’ils ne savent pas. C’est une forme d’humilité technique. On n’attend plus d’eux qu’ils soient des oracles. On les rend des assistants. Et ça, c’est une révolution douce. Peut-être la plus profonde.
Je me souviens quand j’étais ado, je détestais les maths parce que tout semblait trop complexe. Jusqu’au jour où mon prof m’a dit : « Découpe le problème en morceaux. » J’ai tout compris. Ce que vous décrivez ici, c’est exactement ça. On n’a pas besoin de machines plus intelligentes. On a besoin de machines plus patientes. Et c’est ce que vous avez fait.
Les 2 secondes de latence ? Elles sont un cadeau. Elles nous donnent le temps de respirer. De réfléchir. De ne pas être avalé par la vitesse. Dans un monde qui court, vous avez créé un espace de pause. Et c’est rare. Et précieux.
Je ne suis pas développeur. Je suis juste un type qui lit trop. Mais j’ai vu quelque chose de vrai ici. Pas de l’IA. De la pensée. Et ça, aucune technologie ne l’a encore fait. Jusqu’à maintenant.