Approche qualité des données

Critères de qualité ISO 19157

Nous allons voir ensemble quels sont les critères de qualités issus dans la norme ISO 19157

Notions de base

critère qualité

Sélectionner sur les onglets de gauche les différents critères pour obtenir plus d'information

Critères de qualité ISO 19113

Exemples

Exhaustivité

L'exhaustivité est la conformité de la présence ou de l'absence des éléments du jeu de données par rapport au terrain nominal.

Les sous critères liés au critère exhaustivité sont excédent et omission

ExempleExemple pour le sous-critère excédent :

Dans un département, on désire vérifier sur une base de données dédiée aux établissements d’enseignement si le nombre d'écoles primaires est exhaustif.

La liste de référence publiée par le ministère de l'enseignement en recense 372. On en compte 383 dans la base de données contrôlée.

Nombre d’éléments en excès : 11

Taux d'éléments en excès : 11/372 = 3%

ExempleExemple pour le sous-critère omission :

Dans la même base de données, on désire vérifier les lycées publics.

La liste de référence publiée par le manistère de l'enseignement en recense 28. On en compte 26 dans la base de données contrôlée.

Nombre d'éléments manquants : 2

Taux d'éléments manquants : 2/28 = 7%

Cohérence logique

La cohérence logique est le degré de cohérence interne des données selon des règles de modélisation et les règles inhérentes à la spécification de produit du jeu de données.

Les sous critères liés au critère cohérence logique sont cohérence conceptuelle, cohérence des domaines de valeur, cohérence du format, cohérence topologique.

ExempleLe sous-critère cohérence conceptuelle :

Le contrôle peut se faire avec des outils spécifiques.

ExempleLe sous-critère cohérence du format :

La cohérence de format englobe les aspects liés au respect des noms de fichiers, noms d'attributs, stockages physique prévu (nombre de caractères, type), format de fichiers... Dans la norme, une différnece par rapport au format des données est appelé conflit de structure physique. Ce type de contrôle est assez aisément réalisé avec des outils spécifiques.

ExempleLe sous-critère cohérence des domaines de valeur :

Une base de données topographique comporte une classe d'objets "franchissement" qui permet d'identifier les divers franchissement d'une route et d'un cours d'eau. L'attribut "nature" ne comprend que trois valeurs possibles : gué, pont, et tunnel.

Sur les trois mille objet de la table "franchissement", une requête permet de détecter les valeurs aberrantes de cet attribut, à savoir :

12 valeurs "viaduc"

23 valeurs "passerelle"

14 objets non renseignés

Ainsi, on peut donc renseigner les différentes mesures proposées par la norme ISO 19157 :

Non conformité au domaine de valeur : OUI

Conformité au domaine de valeur : NON

Nombre d'éléments non conformes à leur domaine de valeur : 49

Taux de conformité au domaine de valeur : 2951/3000 = 98%

Taux de non conformité au domaine de valeur : 51/3000 = 2%

ExempleLe sous critère cohérence topologique :

Ce sous-critère regroupe plusieurs mesures caractérisant la qualité topologique de construction des objets géométriques (auto intersection, micro surfaces... connexions aux extrémités.)

Il se contrôle également avec des outils spécifiques.

Précision de position

La précision de position est définie comme la précision de positionnement des données sur la terre.

Les sous critères liés au critère précision de position sont précision absolue, précision relative et précision de position de données matricielles.

ExempleLe sous-critère précision de position

On désire connaître la précision géométrique d'une base de données qui a été numérisée assez grossièrement sur une carte papier.

Afin d'estimer cette précision, on la superpose avec la BD TOPO de l'IGN dont on connaît sa précision métrique et on mesure les écarts en X et en Y d'une vingtaine de points homologues sur les deux bases.

Δx mesurés (en mètres) : 12, 6, 8, 9, 13, 10, 7, 12, 11, 9, 8, 11, 12, 9, 6, 7, 8, 10, 9, 12

Moyenne : 9,45 m Écart-type : 2,14 m

Δy mesurés (en mètres) : 8, 9, 10, 12, 14, 13, 8, 9, 10, 11, 12, 10, 9, 8, 7, 10, 13, 11, 9, 6

Moyenne : 9,95 m Écart-type : 2,11 m

Les mesures obtenues montrent que sur 20 points, les moyennes des écarts sont de 9,45 m en X et 9,95 m en Y avec des écarts-types de l'ordre de 2 m.

On peut donc en déduire que la précision moyenne est de l'ordre de 10 m par rapport à la BD TOPO.

La précision de la BD TOPO étant métrique, celle de notre base évaluée est alors déca-métrique.

ExempleLe sous-critère précision relative

On désire connaître l'écart de précision entre deux bases dont on ne connaît pas la précision géométrique. On superpose alors la géométrie des deux bases et on mesure les écarts en X et en Y d'une vingtaine de points homologues sur les deux bases.

En imaginant que les mêmes valeurs numériques soient les mêmes celles de l'exemple précédent, on pourrait juste en conclure que l'écart de précision entre les deux bases est de l'ordre de la dizaine de mètres sans connaître pour autant la précision absolue de chacune des deux bases.

ExempleLe sous-critère précision de données matricielles :

Exemple d'une orthophotographie :

En règle générale, la précision d'une orthophotographie est le double de sa résolution.

Par exemple, pour la BD ORTHO de l'IGN dont la résolution est de 50 cm, on peut donc en déduire que sa précision géométrique est de l'ordre du mètre.

Exemple d'une carte scannée :

On estime la précision d'une carte papier à environ deux dixièmes de mm mesurés sur cette carte à l'échelle de la carte.

Par exemple, pour une carte au 1/10 000, deux dixièmes de mm à cette échelle représentent 2 mètres.

La précision est alors estimée à 2 mètres ce qui demeure un ordre de grandeur.

Pour une carte scannée, le scanner utilisé et la méthode employée, selon que l'on numérise une carte papier ou un support plus stable peuvent introduire une imprécision supplémentaire.

Dans notre exemple de la carte au 1/10 000, la précision est alors au mieux 2 m mais est très certainement supérieure.

D'une façon générale, pour évaluer la précision de données matricielles, on pourra les superposer avec une base de donnée vecteur de référence et appliquer la méthode expliquée pour la précision absolue.

Précision thématique

La précision thématique est la conformité des valeurs des éléments du jeu de données avec les valeurs de leurs homologues dans le terrain nominal.

Les sous critères liés au critère précision thématique sont la justesse du classement, la justesse des attributs non quantitatifs, la précision des attributs quantitatifs.

ExempleLe sous-critère Justesse des attributs non quantitatifs

Un parc naturel recense la totalité de ses arbres dans une base de données géographiques. La classe d'objets des arbres possède l'attribut « essence ».

Un contrôle exhaustif terrain est effectué pour vérifier si l'essence noté dans la base est correcte. Le parc naturel compte 2800 arbres dans son emprise.

On dénombre, après contrôle, 35 erreurs dans la base où les arbres étaient renseignés avec une essence incorrecte.

Nombre de valeurs d'attribut incorrectes : 35

Taux de valeurs d'attribut correct : 2765/2800 = 98,75 %

Taux de valeurs d'attribut incorrectes : 35/2800 = 1,25 %

ExempleLe sous-critère Justesse du classement

Une base de données qui regroupe les différents bâtiments d'un territoire différencie les bâtiments privés des bâtiments publics selon deux classes d'objets distinctes.

On désire contrôler la qualité de cette classification. On prélève ainsi un échantillon de 200 bâtiments dans la base et un contrôle terrain est effectué.

Sur les 200 bâtiments contrôlés 168 sont des bâtiments privés et 32 des bâtiments publics.

Les contrôles effectués ont permis de détecter 8 erreurs : 6 bâtiments privés étaient codés en public, et 2 bâtiments publics étaient codés en privé.

Nombre d'entités classées de manière incorrecte : 8 (6 bâtiments privés et 2 bâtiments publics)

Taux de classement erroné : 8/200 = 4 %

Taux de classement erroné pour les bâtiments privés : 6/168 = 4 %

Taux de classement erroné pour les bâtiments publics : 2/32 = 6 %

On peut représenter le résultat obtenu par la matrice de confusion suivante :

Base de données

Bât. privés

Bât. publics

Contrôle terrain

Bât. Privés : 168

162

6

Bât. Publics : 32

2

30

ExempleLe sous-critère Justesse des attributs quantitatifs

Une base de données sur l'habitat collectif recense l'ensemble des bâtiments d'habitation collective d'une ville. Un attribut de la classe d'objets « bâtiment » recueille le nombre estimé d'habitants par bâtiment.

On désire contrôler la méthode utilisée pour l'estimation du nombre d'habitants par bâtiment.

Un échantillon de 20 bâtiments est choisi et un sondage précis est réalisé afin de compter de façon exhaustive le nombre d'habitants.

Bâtiments

Nombre réel d'habitants après sondage

Nombre évalué d'habitants dans la base de données

Delta

1

172

168

4

2

224

236

12

3

120

132

12

4

135

130

5

5

96

102

6

6

58

54

4

7

156

168

12

8

214

224

10

9

112

110

2

10

86

82

4

11

74

78

4

12

62

68

6

13

152

165

13

14

143

140

3

15

76

86

10

16

38

42

4

17

89

92

3

18

48

51

3

19

248

259

11

20

184

192

12

Total

140

Moyenne des écarts : 140/20 = 7 habitants

Écart-type : 3,93 habitants ~ 4

On peut donc estimer, avec un intervalle de confiance de 95 %, que le nombre d'habitants évalué dans la base de données est égal au nombre N ± 8 (±2sigma).

Qualité temporelle

La qualité temporelle est la qualité des attributs temporelles et des relations temporelles entre les objets.

Les sous critères liés au critère qualité temporelle sont l'exactitude de la mesure temporelle, la cohérence temporelle et la validité temporelle

ExempleLe sous-critère exactitude de la mesure temporelle

Cette mesure est similaire à celle des attributs quantitatifs (voir l'exemple du sous critère précision des attributs quantitatifs))

ExempleLe sous-critère cohérence temporelle

Exemple 1 :

Une base de données des services publics d'une ville comporte, pour chaque service public, les attributs ; « heure d'ouverture » et « heure de fermeture ».

On désire contrôler sa cohérence temporelle, c'est-à-dire que l'heure de fermeture soit postérieure à l'heure d'ouverture. Il faut donc pour chaque service saisi dans la base, soit le vérifier visuellement, soit le vérifier à l'aide d'une requête ou d'une application spécifique.

Exemple 2 :

Le standard de données COVADIS sur le domaine éolien terrestre comporte la classe d'objet « éolienne » qui comprend les trois attributs temporels suivants : « date de construction », « date de mise en production » et « date de démantèlement ». Ces trois dates sont liées chronologiquement, sachant que la construction a lieu avant la mise en production et que le démantèlement est la dernière phase.

Contrôler leur cohérence temporelle consiste à vérifier l'ordre logique de ces trois dates pour chaque éolienne.

ExempleLe sous-critère validité temporelle

Toujours dans le standard de données COVADIS sur le domaine éolien terrestre, outre les trois dates citées dans l'exemple précédent, la classe « éolienne » comporte également un attribut de type booléen qui permet de savoir si l'éolienne est en service ou non.

On contrôlera alors la validité temporelle de l'attribut « en service » en vérifiant que pour toutes les valeurs OUI, la date de l'attribut « date de mise en service » est bien remplie et que pour la valeur NON, aucune date ne figure dans cet attribut.

PrécédentPrécédentSuivantSuivant
AccueilAccueilImprimerImprimer MEDDE : Licence ouverte Etalab Réalisé avec Scenari (nouvelle fenêtre)