
🗒 Une synthèse de la Journée d'étude Communs du numérique et IA est maintenant disponible.
Cette Journée, ayant eu lieu le 1er novembre dernier, à l'Hôtel Le Concorde, à Québec, était organisée par l'INRS et Wikimédia Canada.
🎯 L'objectif de la Synthèse
La synthèse vise à ouvrir une discussion sur la place des communs numériques, et en particulier les communs de la connaissance, comme ressource d’entraînement pour les systèmes d’intelligence artificielle (SIA) dans les territoires francophones.
Les grands modèles de langage (LLM, tels que ceux à la base de services comme ChatGPT) sont majoritairement entraînés sur des corpus anglo-américains, ce qui cause une sous-représentation des contenus et schémas culturels des autres territoires. L’entraînement d’IA sur des corpus dans d’autres langues, dont le français, mais aussi les langues des territoires francophones (langues autochtones, langues régionales), revêt donc une importance cruciale pour l’accès au savoir dans une pluralité de contextes culturels et linguistiques.
📖 Contenu de la Synthèse
La première partie de la synthèse propose un résumé détaillé des interventions réalisées lors des trois panels, abordant les relations entre Wikimédia et les grands modèles de langage (LLM), le rôle des bibliothèques francophones dans la constitution de corpus d’entraînement pour les SIA, ainsi que la diversité linguistique et culturelle dans les SIA de la francophonie.
La seconde partie propose un résumé des discussions issues des ateliers, organisée en cinq dimensions principales pour structurer les résultats et les pistes d’action identifiées :
- La production des jeux de données
- La pluralisation linguistique et culturelle des données et des SIA
- La mise en accès des jeux de données
- Les outils juridiques applicables aux jeux de données
- Les modèles économiques
Les enjeux et les pistes d’action identifiés dans chacune de ces dimensions ont été regroupés selon les principes suivants :

Certains des enjeux et pistes d’action identifiés dans cette synthèse sont propres au mouvement Wikimédia, tandis que d’autres concernent davantage le contexte des institutions GLAM (Galeries, Bibliothèques, Archives et Musées). Les structures, les ressources et les modes de gouvernance de ces deux types d’acteurs présentent des différences significatives, qui peuvent engendrer des écarts dans leurs priorités et leurs modes d’action. Il est crucial de reconnaître ces distinctions et leurs implications, sans pour autant négliger les opportunités de complémentarité et de synergie. En mutualisant les réflexions et les pistes d’action, il devient possible de concevoir des stratégies d’intervention croisées et de renforcer les dynamiques collectives.
La conclusion trace des pistes d’action prioritaires et des questions de recherche à creuser. Une section Ressources propose une liste de références bibliographiques pour creuser différents aspects du problème.
🚩 Les conclusions de la Synthèse
Les échanges et réflexions issus de cette journée d’étude ont permis de mettre en lumière des enjeux stratégiques cruciaux pour les communs de la connaissance face aux défis posés par le développement des SIA. Ces défis nécessitent des actions concertées et structurées autour de cinq axes prioritaires :
1. Réintermédiation stratégique - Afin de se positionner comme intermédiaire clé, il est essentiel de promouvoir une visibilité proactive des collectifs et organismes chargés de la production et de l’intendance des jeux de données en développant des services d’API et en étant actif sur des plateformes adaptées et fréquentées par les usagers des données. Une attention particulière doit être accordée à l’attribution des sources, à la traçabilité des données d’entraînement et à la négociation d’ententes ou de contrats commerciaux de manière à clarifier les conditions d’utilisation et à assurer une rétribution équitable pour l’usage de ces données.
2. Documentation des usages - Il est nécessaire de recenser et d’analyser les principaux cas d’utilisation des données issues de Wikimédia et des fonds patrimoniaux, ainsi que les profils des principaux usagers. Une telle démarche permettrait de concevoir des stratégies adaptées pour la production et la diffusion des jeux de données. Ces exemples d’application mettraient en lumière la contribution essentielle de ces données à l’entraînement des modèles d’intelligence artificielle et aux systèmes de réponse automatique générative (RAG).
3. Évaluation des plateformes existantes pour la mise en accès des jeux de données - Une analyse comparée des infrastructures actuelles dédiées à la mise en accès des données permettrait d’évaluer leur pertinence respective en matière de découvrabilité, de qualité de la documentation des jeux de données, de traçabilité des usages, de modes de gouvernance et de coûts d’investissement.
4. Production d’un référentiel de pratiques - La création d’un guide partagé des pratiques exemplaires contribuerait à harmoniser les approches et à renforcer les capacités des différents acteurs à produire et diffuser des données dans un objectif de service public et de bien commun.
5. Plaidoyer et coalition entre les acteurs du libre et les GLAM - Un partage de ressources et d’expertise entre ces acteurs permettrait de mieux défendre les principes de pluralisation culturelle et linguistique et d’équité dans les relations avec les acteurs industriels de l’intelligence artificielle.
Ces axes d’intervention constituent des leviers essentiels pour répondre aux enjeux de souveraineté, de découvrabilité et de soutenabilité des communs numériques. La poursuite de ces efforts requiert un engagement collectif et une vision commune, ancrée dans la valorisation des données comme ressource stratégique au service du bien commun.
pdf Synthèse Journée Communs du numérique et IA Nathalie Casemajor 2025