Passer au contenu

OGGO Rapport du Comité

Si vous avez des questions ou commentaires concernant l'accessibilité à cette publication, veuillez communiquer avec nous à accessible@parl.gc.ca.

PDF

CHAPITRE TROIS : QUANTITÉ ET QUALITÉ

Les données contiendront toujours des erreurs; il faut donc les publier plus rapidement pour pouvoir en améliorer la qualité plus vite afin que les gouvernements prennent des décisions en se fondant sur des jeux de données plus fiables.
David Eaves, conseiller sur les données ouvertes

Le deuxième principe des données ouvertes, quantité et qualité, est axé sur la diffusion rapide de données ouvertes bien décrites et de grande qualité. Tout au long de l’étude du Comité, les témoins ont parlé de plusieurs façons par lesquelles le gouvernement pourrait accroître la quantité et la qualité de ses données ouvertes. Ces suggestions ont orienté les recommandations du Comité concernant les métadonnées normalisées et de grande qualité, et l’augmentation du nombre de données ouvertes du gouvernement.

A. Données ouvertes bien décrites

Les métadonnées sont les données qui décrivent le contenu d’un jeu de données. Elles décrivent le type d’informations contenues dans chaque champ d’un jeu de données. De l’avis de la DPI du gouvernement du Canada, les métadonnées sont essentielles au potentiel des données ouvertes. Beaucoup de témoins ont convenu que la qualité des données ouvertes dépend grandement de leur bonne description. Plusieurs autres ont ajouté que les métadonnées sont importantes pour les utilisateurs afin que les données ouvertes de différents gouvernements soient comparables et interopérables.

Un obstacle à l’interopérabilité et à la comparaison des données ouvertes est l’absence de métadonnées normalisées pouvant faciliter l’intégration de jeux de données diffusés par différents gouvernements. Selon Michael Chui, partenaire au McKinsey Global Institute, « [i]l faut aussi élaborer des normes afin de rendre les données de diverses sources comparables. Puis, il faut produire des métadonnées, des données sur les données, afin de rendre les données ouvertes plus utilisables »

En vertu de ses obligations envers la Charte du G8 sur les données ouvertes, le gouvernement fédéral a participé à l’exercice de mappage des métadonnées du G8, exercice devant servir à normaliser, à l’échelle internationale, les descriptions de jeux de données ouvertes. Selon un représentant du SCT, le travail se poursuit au Canada et dans les autres pays membres de l’OGP en vue de normaliser les métadonnées utilisées pour décrire les données ouvertes. Il a ajouté que plusieurs organisations non gouvernementales participent aussi à l’élaboration de ces normes, par exemple : Schema.org, la World Wide Web Foundation et l’Open Knowledge Foundation.

Du point de vue des normes techniques, la création de métadonnées uniformes ne va pas sans heurts. Chercheuse indépendante responsable d’évaluer les engagements du Canada envers l’OGP, Mary Francoli, professeure adjointe à l’École de journalisme et communication de l’Université Carleton, a recueilli les commentaires d’utilisateurs du portail de données ouvertes du gouvernement fédéral afin de préparer son premier rapport d’étape. Mme Francoli a expliqué au Comité que, selon quelques intervenants, des métadonnées ont été supprimées de certains jeux de données par souci de normalisation et d’uniformité.

Plusieurs témoins ont convenu que plus de travail est nécessaire pour normaliser les métadonnées. Un représentant du gouvernement de l’Ontario a informé le Comité qu’actuellement « aucun ordre de gouvernement ne respecte une norme ou n’utilise une métadonnée précise ». Néanmoins, même si le travail sur la normalisation des métadonnées est long et fastidieux, son collègue a soutenu que les avantages sont énormes et que des métadonnées normalisées et communes pourraient permettre de réaliser des gains d’efficiences.

Outre les normes techniques, il faut également évaluer les normes politiques s’appliquant aux métadonnées. Ainsi, un représentant de la Ville de Toronto a mentionné que, « [l]orsqu’il est question de publier des données sur la pauvreté, il est nécessaire d’avoir un ensemble de métadonnées cohérent pour les différents ordres de gouvernement, et même les ministères au sein d’un gouvernement, qui définit tous ces indicateurs ». Cet exemple illustre l’argument voulant que les gouvernements devraient examiner s’ils ont besoin d’élaborer des politiques uniformes pour définir les indicateurs d’un thème particulier, afin qu’on puisse comparer les données provenant de divers gouvernements.

B. Données ouvertes de grande qualité

Selon la DPI du gouvernement du Canada, les ministères possèdent une quantité phénoménale de données et de jeux de données qu’ils n’ont pas encore diffusés. Discutant du rôle de chaque ministère, elle a ajouté que « les ministères doivent être en mesure de maintenir et de garantir l’intégrité des données ».

La plupart des témoins étaient d’avis que le Canada s’en tire plutôt bien au chapitre des données ouvertes. Toutefois, David Eaves, consultant sur les données ouvertes, a prévenu qu’il existe un danger à faire appel à des comparaisons internationales trop tôt. Selon Lyne Da Sylva, professeure agrégée à l’École de bibliothéconomie et des sciences de l’information à l’Université de Montréal, parlant de la comparaison du Canada à d’autres pays, « [l]es situations [...] sont très variables, à la fois à l’égard du nombre de jeux de données et à l’égard d’une véritable ouverture ». M Deslauriers s’est demandé si le volume de données ouvertes est réellement un gage d’utilité. En fait, certains témoins s’entendaient pour dire que le gouvernement fédéral devrait concentrer ses efforts sur la diffusion rapide de données ouvertes de grande qualité.

Les utilisateurs de données ouvertes ont leur part à faire pour définir la qualité des données. Ceci peut être partiellement relié aux données les plus demandées. Plusieurs témoins ont donné leur opinion au Comité quant aux jeux de données les plus utiles. Ainsi, Colin McKay, chef des Politiques publiques et relations gouvernementales chez Google, a déclaré : « Le gouvernement doit concentrer ses efforts à distinguer et à rendre accessible le genre de données qui intéresse le plus les utilisateurs et qui aura une incidence » Il a ajouté que les jeux de données devraient être « bien structurés, lisibles par machine et mis à jour régulièrement ». Pour sa part, Mark Gayler, stratège en matière de technologie chez Microsoft Canada, a expliqué que « [l]a plupart du temps, les données locales sont beaucoup plus pertinentes pour le citoyen ordinaire que, par exemple, les données sur les tendances nationales ».

Quant aux jeux de données les plus utiles, John Pineau, directeur général de l’Institut forestier du Canada, a mentionné que la qualité des données sur les ressources naturelles, particulièrement la foresterie, est essentielle pour prendre de bonnes décisions tant pour l’économie que pour la protection des écosystèmes. M Mallett a affirmé que les données géospatiales sont essentielles aux membres de la Fédération canadienne de l’entreprise indépendante.

À l’heure actuelle, le portail de données ouvertes du gouvernement fédéral renferme essentiellement des données géospatiales. En appui aux préoccupations des intervenants sur la diversité des jeux de données fédéraux, Mme Francoli a informé le Comité que « [le portail] comporte peu, voire aucun jeu de données sur plein d’autres sujets, comme l’assurance-emploi, la santé et les sujets liés à des segments particuliers de la population comme les aînés et les Autochtones ». En outre, certains fonctionnaires municipaux aimeraient avoir des données ouvertes du gouvernement fédéral sur les transports, l’environnement, la santé, les dépenses gouvernementales et les tendances socioéconomiques.

Plusieurs témoins étaient d’avis qu’il existe une demande de données ouvertes à une échelle plus désagrégée. M Mallett a affirmé qu’on a aussi besoin de microdonnées à une échelle géographique ou sectorielle réduite. M. Deslauriers, de la Ville de Québec, et un représentant du gouvernement de Terre-Neuve-et-Labrador s’entendaient pour dire qu’il existe une demande pour des données ouvertes à une échelle locale ou par quartier. Selon un représentant de la Ville de Toronto, « [n]ous avons besoin de données à des échelles géographiques plus restreintes » Il a ajouté que « [n]ous aurons besoin de données sur les taux de chômage ou sur les soins de santé. Elles doivent être suffisamment détaillées pour être utiles aux villes qui font leur planification en fonction des quartiers » M Mallett a aussi mentionné qu’on a besoin de données prospectives ou de prévisions, mais il a admis qu’elles sont plus difficiles à obtenir. Par exemple, les agences et les ministères fédéraux possèdent des données prospectives, telles que des projections sur les professions et des prévisions sur la croissance économique.

C. Données liées ouvertes

On peut qualifier de statiques les jeux de données diffusés par le gouvernement fédéral sur son portail de données ouvertes. À titre d’exemple, Renée Miller, professeure au Département d’informatique de l’Université de Toronto, a expliqué au Comité que le jeu de données du gouvernement fédéral sur les organismes de charité est un fichier statique ou « fichier mort », qui n’a aucun lien vers d’autres données. Elle a ajouté que « [l]e fichier contient des renseignements sur l’argent fédéral que l’établissement [de charité] reçoit, mais pas sur le financement provincial, le financement privé, l’identité des organismes de financement privé ».

Plusieurs témoins ont proposé d’améliorer la qualité des données ouvertes du gouvernement au moyen de données liées ouvertes, en particulier de données provenant du public et d’organisations non gouvernementales. Selon Mme Miller, les données liées ouvertes sont « déréférençables », ce qui signifie que les utilisateurs peuvent obtenir des renseignements importants et intéressants sur les données, y compris sur les liens avec d’autres données ou d’autres renseignements importants. À son avis, « le portail des données ouvertes devrait adapter les principes des données dites “open link” ». Elle a expliqué que la technologie facilite l’établissement de liens entre les données.

L’externalisation ouverte est la pratique qui consiste à obtenir des services, des idées ou du contenu en sollicitant la contribution d'un vaste groupe de personnes, et particulièrement de la communauté des internautes. Quelques témoins ont suggéré que le public puisse contribuer aux données ouvertes du gouvernement. Selon Mme Miller, le gouvernement fédéral devrait « chercher à déclencher le pouvoir sur la foule, c’est‑à‑dire créer des ensembles de données auxquels la communauté pourra contribuer ». M Gayler a noté que du point de vue de l’externalisation ouverte, il est important d’avoir une rétroaction pour s’assurer que l’exactitude des données s’améliore rapidement et que la qualité des données s’accroît au fil du temps. Un représentant du gouvernement de l’Ontario a noté que « [p]lus les gens consultent les données, plus la qualité de celles-ci s’améliore ».

D’autres témoins ont exprimé des réserves quant à l’idée d’autoriser les utilisateurs à contribuer au portail de données ouvertes du gouvernement fédéral. Par exemple, M Eaves a prévenu que « l’externalisation à grande échelle de la création de données engendre énormément de problèmes méthodologiques ». Il a expliqué qu’il faudra établir qui est responsable des données, surtout des jeux de données que le gouvernement utilise pour prendre des décisions, et il a souligné que le gouvernement fédéral a déjà un grand volume de données vérifiables qu’il peut utiliser.

Comme il a été dit précédemment, quelques témoins ont suggéré que les données ouvertes du gouvernement pourraient être complétées par des données provenant d’organisations non gouvernementales. Si le gouvernement fédéral établit des partenariats avec des sources commerciales de données, disait M Gayler, « toutes sortes de transformations deviennent possibles ». À titre d’exemple, selon un représentant de la Ville de Toronto, « [l]e gouvernement fédéral est assis sur une mine d’or d’information en matière de santé grâce à l’Institut canadien d’information sur la santé ». Il a aussi mentionné que les données de la Société canadienne d’hypothèques et de logement seraient utiles si elles pouvaient être fournies à une échelle plus restreinte. Il a exhorté le gouvernement fédéral à évaluer la précision, la fréquence et la rapidité des données qu’il collecte et diffuse. Par exemple, le formulaire long du recensement était très important aux yeux de nombreux témoins.

En ce qui concerne les métadonnées, le Comité recommande :

RECOMMANDATION 8

Que le gouvernement du Canada collabore avec les gouvernements provinciaux, territoriaux et municipaux pour normaliser les métadonnées de tous les jeux de données de grande valeur énumérés dans la Charte du G8 sur les données ouvertes.

RECOMMANDATION 9

Que le gouvernement du Canada établisse des groupes de travail pour chaque secteur afin d’élaborer des normes sur les métadonnées.

En ce qui concerne la qualité des données ouvertes, le Comité recommande :

RECOMMANDATION 10

Que le gouvernement du Canada, par l’entremise de ses ministères, agences et sociétés d’État, fournisse sur son portail de données ouvertes des données supplémentaires ventilées par groupe démographique, région géographique et par secteur industriel.

RECOMMANDATION 11

Que le gouvernement du Canada collabore avec les gouvernements provinciaux, territoriaux et municipaux pour fournir des données à une échelle plus désagrégée au plan géographique et sectoriel.

RECOMMANDATION 12

Que le gouvernement du Canada publie des données prospectives, telles que des projections et des prévisions, sur son portail de données ouvertes.