Dictionnaire des données - Base de données

Dans la méthodologie Merise de conception d’une base de données, il y a une étape de listing de toutes les données à informatiser. Ce listing est présenté sous forme d’un tableau : c’est le dictionnaire des données. Le dictionnaire des données se réalise avant le MCD. Après le recueil des besoins auprès des utilisateurs, il faut désormais recenser les informations collectées. On les liste dans un tableau. Ce travail préliminaire permet de faire un premier tri et de se rendre compte des données à informatiser. Dans les faits, des allers-retours entre le MCD et le dictionnaire des données ne sont pas inhabituels. La phase d’analyse se fait rarement d’un seul jet et il est souvent nécessaire de se remettre sur l’ouvrage pour corriger / améliorer la modélisation.

Dans un dictionnaire des données, toutes les données à informatiser son recensées et pour chacune, on doit avoir les informations suivantes :

Nom court ou nom codé : ce sera le nom du champ final dans la base de données. On peut utiliser différentes règles de présentation mais il est important d’avoir une cohérence. Par exemple, utiliser, les 3 premiers caractères de l’entité, puis un tiret bas, puis le nom de la propriété.
Nom complet ou désignation : un nom codé sera certainement très parlant lors de se création mais qu’en sera-t-il 3 mois plus tard ou si une autre personne souhaite reprendre le travail ?
Type ou format : une fois informatisée, cette donnée est-elle un entier numérique, un chiffre à virgule, un champ alphanumérique, un texte long, une date…
Longueur ou taille : même si l’espace en base de données n’est plus aussi contraint qu’auparavant, il n’y a pas de bonne raison de perdre de l’espace disque. Donc chaque propriété doit avoir une taille qui permet de contenir toutes les informations nécessaires. Pour un champ de type booléen (champ oui/non), la taille sera de 1 (0 ou 1). Pour un entier ou un court texte, la longueur dépassera rarement la dizaine ou la centaine de caractères…
Commentaire : toutes les explications supplémentaires nécessaires se trouvent ici. Parfois on trouve aussi une colonne « règle de calcul » distincte.

Lors de l’étape de recensement des données à informatiser, on va forcément rencontrer des données en doublon, des synonymes, des données calculées, des données regroupées (une adresse complète typiquement), des polysèmes (le même nom pour deux informations différentes) des données parasites… Il y a aussi des données qui sont des paramètres (qui prennent une valeur unique – année courante, taux de TVA, coefficient quelconque…). C’est pourquoi certains disposent de 2 dictionnaires des données : un dictionnaire brut avec toutes les données rencontrées et un dictionnaire des données épuré ne contenant que les données uniques et élémentaires à réellement informatiser.

Les outils informatiques de modélisation permettent de créer des dictionnaires de données. Il est possible de présenter les informations du MCD sous forme de tableau, d’ajouter les types et longueurs de ces champs. Cela est nécessaire pour générer ensuite les modèles physiques et les scripts SQL de création de base.