Ne vous fiez pas
aux réponses
d’une seule IA
Discutez avec deux IA à l’aveugle
pour croiser leurs réponses
À quoi sert compar:IA ?
compar:IA est un outil gratuit qui permet de sensibiliser les citoyens à l’IA générative et à ses enjeux
Comparer les réponses de différents modèles d’IA
Discutez et développez votre esprit critique en donnant votre préférence
Tester au même endroit les dernières IA de l’écosystème
Testez différents modèles open source et propriétaires, de petites et grandes tailles
Mesurer l’empreinte écologique des questions posées aux IA
Découvrez l’impact environnemental de vos discussions avec chaque modèle
Pourquoi votre vote est-il important ?
Votre préférence enrichit les jeux de données compar:IA dont l’objectif est d’affiner les futurs modèles d’IA sur le français
Vos préférences
Après discussion avec les IA, vous indiquez votre préférence pour un
modèle
selon
des critères
donnés, tels que la pertinence ou l’utilité des réponses
Les jeux de données
compar:IA
compar:IA compile dans des jeux de données tous les votes et tous les messages partagés avec le comparateur
Des modèles affinés
sur le français
A terme, les acteurs industriels et académiques peuvent exploiter les jeux de données pour entrainer de nouveaux modèles plus respectueux de la diversité linguistique et culturelle
Les usages spécifiques de compar:IA
L’outil s’adresse également aux experts IA et aux formateurs pour des usages plus spécifiques
Exploiter les données
Développeurs, chercheurs, éditeurs de modèles... accédez aux jeux de données compar:IA pour améliorer les modèles
Explorer les modèles
Consultez au même endroit toutes les caractéristiques et conditions d’utilisation des modèles
Former et sensibiliser
Utilisez le comparateur comme un support pédagogique de sensibilisation à l’IA auprès de votre public
Qui sommes-nous ?
Le comparateur compar:IA est développé dans le cadre de la start-up d’Etat compar:IA (incubateurs de l’Atelier numérique et AllIAnce) intégrée au programme beta.gouv.fr de la Direction interministérielle du numérique (DINUM) qui aide les administrations publiques à construire des services numériques utiles, simples et faciles à utiliser.
Quelles sont nos missions ?
Faciliter l’accès
Mise à disposition de plusieurs modèles d’IA conversationnels à travers une unique plateforme.
Collecter des données
Création de jeux de données de préférence à partir de tâches réelles, utiles pour l’alignement des modèles en français.
Partager
Diffusion sous licence ouverte des jeux de données générées pour en faire bénéficier l’écosystème IA.
Vos questions les plus courantes
Les modèles de langage conversationnels actuels sont incapables de citer les sources qu'ils ont utilisées pour générer une réponse. Ils fonctionnent en prédisant le mot suivant le plus probable en fonction de la distribution statistique des données d'entraînement. Bien qu'ils puissent synthétiser des informations provenant de diverses sources, ils ne conservent pas la trace de l'origine de ces informations.
Cependant, il existe des techniques comme la Génération Augmentée par Récupération (RAG) qui visent à pallier cette limitation. Le RAG permet aux modèles d'accéder à des bases de connaissances externes et de fournir des informations contextualisées en citant les sources. Cette approche est essentielle pour améliorer la transparence et la fiabilité des réponses générées par les modèles.
Vous avez posé la question suivante “explique moi la motion de censure à l'œuvre actuellement en France à l'Assemblée nationale et cite moi tes sources” et avez été déçus des réponses? C’est normal…
Les modèles d'IA conversationnels “bruts” ne peuvent pas répondre aux questions sur l'actualité la plus récente. Ils sont entraînés sur des ensembles de données statiques et ne peuvent pas interagir avec le web ou ouvrir des liens. Ils n'ont pas la capacité de se mettre à jour en temps réel avec les événements qui se déroulent dans le monde. Les informations auxquelles le modèle a accès sont limitées à la date de son dernier entraînement.
Par conséquent, si vous posez une question sur un fait d’actualité récent, le modèle s'appuiera sur des informations potentiellement obsolètes, risquant de générer des réponses inexactes.
Dans le cas de Perplexity, Copilot ou ChatGPT, les modèles d’IA conversationnelle dits “bruts” sont associés à d’autres briques technologiques qui permettent de se connecter à internet pour accéder à des informations en temps réel. On parle alors “d’agents conversationnels”.
Si vous intégrez une URL dans une requête, le modèle conversationnel ne peut pas y accéder directement. Les modèles de langage traitent le texte de la requête mais n'ont pas la capacité d'interagir avec le web ou d'ouvrir des liens. Ils sont entraînés sur un ensemble de données textuelles fixes et leurs réponses reposent sur ces données d’entraînement. Lorsqu'une question est posées, les modèles utilisent cet entraînement pour générer une réponse mais ne peuvent pas accéder à de nouvelles informations en ligne.
Par analogie, imaginez un étudiant passant un examen sans accès à internet. Il peut utiliser ses connaissances acquises pour répondre aux questions, mais ne peut pas consulter de sites web pour obtenir des informations supplémentaires.
Il arrive que les modèles perdent le fil d'une conversation en raison de leur fenêtre de contexte limitée. Cette « fenêtre » représente la quantité d'informations précédentes que le modèle peut retenir, agissant comme une mémoire à court terme. Plus la fenêtre est petite, plus le modèle est susceptible d'oublier des éléments clés de la conversation, conduisant à des réponses incohérentes. Les conversations longues ou complexes peuvent rapidement saturer la fenêtre de contexte, augmentant le risque d'incohérence.
Par analogie, imaginez une personne qui ne se souvient que des cinq dernières phrases d'une conversation. Si la conversation est courte, la personne peut suivre. Mais si la conversation devient longue, la personne oubliera des informations cruciales, ce qui rendra ses réponses incohérentes. De même, un modèle d'IA avec une petite fenêtre de contexte peut "perdre le fil" d'une conversation lorsque trop d'informations sont échangées, oubliant des éléments clés et produisant des réponses qui n'ont plus de sens.
La formulation des questions, ou « prompts », influence la cohérence de la conversation. Pour obtenir les meilleurs résultats d'un modèle de langage, il est essentiel de maîtriser l'art du "prompting", c'est-à-dire la formulation des requêtes ou instructions. La clarté est primordiale:
- Utilisez un langage simple et direct, en évitant les questions trop longues ou complexes. Décomposez les requêtes en plusieurs questions plus simples pour des réponses plus précises.
- Précisez si besoin des contraintes de formats spécifiques : Si vous avez besoin d’une réponse dans un certain format (liste, tableau, résumé, etc.), précisez-le dans le prompt. Vous pouvez également préciser les étapes à suivre et les critères de qualité souhaités.
- Spécifiez le rôle du modèle : Par exemple, commencez par “Agis comme un expert en…” ou “Imagine que tu es un enseignant…” pour orienter le ton et la perspective de la réponse.
- Contextualisez vos questions : si nécessaire, fournissez des exemples pertinents pour guider le modèle.
- Encouragez le raisonnement: utilisez l’incitation au raisonnement pas à pas ("Chain-of-Thought Prompting") pour demander au modèle d'expliciter son raisonnement, ce qui rend les réponses plus robustes.
Les modèles conversationnels sont sensibles aux variations de formulation: un langage simple, des questions courtes et une reformulation si nécessaire peuvent aider à guider le modèle vers des réponses pertinentes. Testez et affinez vos prompts pour trouver la formulation la plus efficace !
L'IA conversationnelle répond directement en formulant des phrases à partir d’un grand ensemble de données sur lesquelles le modèle a été entraîné, tandis qu’un moteur de recherche propose des liens et des ressources pour que l’internaute les explore lui-même.
Nous choisissons les modèles en fonction de leur popularité, de leur diversité et de la pertinence pour les utilisateurs. Nous veillons particulièrement à rendre accessibles des modèles open source et de taille différentes.
L’inférence, c’est-à-dire le fait de pouvoir interroger les modèles, est rendue possible grâce à des dons des entreprises fournisseuses de cloud qui soutiennent le projet : Google Cloud Platform, Hugging Face, Microsoft Azure, OVH, Scaleway.
Les modèles quantisés sont optimisés pour consommer moins de ressources en simplifiant certains calculs tout en visant la meilleure qualité de réponse.
La quantisation est une technique d'optimisation qui consiste à réduire la précision des nombres utilisés pour représenter les paramètres d'un modèle d'IA. Cela permet de diminuer la taille du modèle et d'accélérer les calculs, ce qui est particulièrement avantageux pour l'inférence sur des machines limitées en ressources.
La capacité d'un modèle à parler plusieurs langues est liée à la diversité linguistique de ses données d'entraînement et non au pays. Les LLM utilisent d'énormes corpus dans de nombreuses langues, mais la répartition des langues dans les données d'entraînement n'est pas uniforme. Une surreprésentation de l'anglais peut entraîner des limitations dans d'autres langues. Ces limitations se traduisent par exemple par des anglicismes ou une incapacité à générer des contenus dans certaines langues classées "en danger" par l'UNESCO.
L'exactitude et la richesse du vocabulaire d'un modèle dépendent des données utilisées pour son apprentissage.
Rares sont les acteurs à être “transparents” sur les sources de données utilisées dans les corpus d’entraînement. Ces informations sont souvent confidentielles pour des raisons légales et commerciales.
Les données de préférence servent à améliorer les modèles lors d'entraînements futurs.
En comparant à l'aveugle les réponses de deux modèles, les utilisateurs de ComparIA expriment leurs préférences, indiquant ainsi quelles réponses sont les plus pertinentes. Ces données de préférence peuvent être utilisées pour affiner l'alignement des modèles, c'est-à-dire pour les entraîner à générer des réponses plus conformes aux attentes et aux préférences des utilisateurs.
Il s'agit d'un processus itératif, où le modèle apprend progressivement à générer de meilleures réponses en fonction des retours formulés par les humains sur la qualité des réponses. En étant exposés à des données de préférence, les modèles apprennent à les intégrer dans leur processus de génération de réponses.
La spécificité des données collectées sur la plateforme compar:IA est qu’elles sont en français et qu’elles correspondent à des tâches réelles des utilisateurs. Ces données reflètent des préférences humaines dans un contexte linguistique et culturel précis. Elles permettent dans un second temps d'ajuster les modèles pour qu’ils soient plus pertinents, précis et adaptés aux usages des utilisateurs, tout en comblant les éventuels biais ou lacunes des modèles actuels.
compar:IA se positionne comme un outil d'évaluation et d'alignement spécifique au français, axé sur la qualité des réponses et la collecte de données de préférence, se distinguant ainsi de l'approche de classement global de chatbot Arena développé par lmsys.org et de l'alignement éthique des modèles d’IA de Prism Alignment Project.
compar:IA utilise la méthodologie développée par Ecologits (GenAI Impact) pour fournir un bilan énergétique qui permet aux utilisateurs de comparer l'impact environnemental de différents modèles d'IA pour une même requête. Cette transparence est essentielle pour encourager le développement et l'adoption de modèles d'IA plus éco-responsables.
Ecologits applique les principes de l'analyse du cycle de vie (ACV) conformément à la norme ISO 14044 en se concentrant pour le moment sur l'impact de l'inférence, c'est-à-dire l'utilisation des modèles pour répondre aux requêtes.
Ecologits applique les principes de l'analyse du cycle de vie (ACV) conformément à la norme ISO 14044 en se concentrant pour le moment sur l'impact de l'inférence, c'est-à-dire l'utilisation des modèles pour répondre aux requêtes.
La consommation électrique du modèle est estimée en tenant compte de divers paramètres tels que la taille du modèle d'IA utilisé, la localisation des serveurs où sont déployés les modèles et le nombre de tokens de sortie. Le calcul de l’indicateur de potentiel de réchauffement climatique exprimé en équivalent CO2 est dérivé de la mesure de consommation électrique du modèle.
Il est important de noter que les méthodologies d'évaluation de l'impact environnemental de l'IA sont encore en développement. Ecologits se concentre principalement sur la consommation énergétique et ne prend pas encore en compte tous les aspects du cycle de vie, comme la fabrication des composants électroniques ou le recyclage des déchets.
La localisation des centres de données joue un rôle dans l'empreinte carbone de l'IA. Si un modèle est entraîné ou utilisé dans un pays fortement dépendant des énergies fossiles, son impact environnemental sera plus important que s'il est hébergé dans un pays utilisant majoritairement des énergies renouvelables.
La méthode d'analyse de l'impact environnemental de l'IA développée par Ecologits, intègre des données sur le mix énergétique des différents pays où se situent les serveurs. Cela permet d'obtenir une estimation plus précise et nuancée de l'empreinte carbone réelle de l’inférence sur les différents modèles d’IA générative.
Les indicateurs d'impact écologique actuels se focalisent principalement sur l'impact de l'inférence, c'est-à-dire l'utilisation des modèles d'IA pour répondre aux requêtes. Cette approche peut donner l'illusion que l'inférence est moins énergivore que l'entraînement des modèles. Cependant, la réalité est plus complexe. Prenons l'analogie de la voiture :
- Construire une voiture (l'entraînement) est un processus ponctuel et gourmand en ressources.
- Chaque trajet en voiture (l'inférence) consomme moins d'énergie, mais ces trajets sont répétés quotidiennement, et leur nombre est potentiellement immense.
De la même manière, l'impact cumulé de l'inférence, à l'échelle de millions d'utilisateurs effectuant des requêtes quotidiennement, peut s'avérer supérieur à l'impact de l'entraînement initial. C'est pourquoi il est crucial que les outils d'évaluation de l'empreinte carbone de l'IA prennent en compte l'ensemble du cycle de vie des modèles, de l'entraînement à l'utilisation en production
Abonnez-vous à notre lettre d’information
Retrouvez les dernières actualités du projet : partenariats, intégration de nouveaux modèles, publications de jeux de données et nouvelles fonctionnalités !