Base de données en colonnes

Aujourd’hui, les bases de données rangent généralement les données en ligne : visuellement, on dispose de vues avec des colonnes qui contiennent le nom des champs et en ligne les valeurs.

Pour les bases de données en colonne, c’est différent car les données sont stockées en colonne. Pour les utilisateurs de haut niveau, ce changement ne se ressent pas du tout. Mais pour l’organisation et la manipulation des données par les outils informatiques, tout change. Ainsi, au lieu de manipuler les données ligne par ligne une fois sérialisée (c’est à dire mises bout à bout pour être traitées plus rapidement), les données sont utilisées colonne par colonne.

Les données en ligne :

1,Jean,DUPONT,7400;2,Julie,VAUQUIER,01100;3,Estelle,MALIA,75400;4,Théo,CONTIN,89130;

Puis en colonne :

1,2,3,4;Jean,Julie,Estelle,Théo;DUPONT,VAUQUIER,MALIA,CONTIN;74000,01100,75400,89130;

L’idée de travailler avec les colonnes n’est pas nouveau (prémices en 1969) mais ce n’est que depuis 2005 avec l’apparition de tels outils distribués sous licence Open Source que les bases de données en colonnes ont vraiment décollé.

En fonction des volumes de données à traiter et des usages, les bases de données sont plutôt orientées lignes ou colonnes. Les bases de données OLTP sont généralement en lignes et les bases de données OLAP sont plutôt en colonnes.

Intérêts des bases de données en colonnes

  • Permettre une meilleure compression des données par colonne (surtout efficace lorsque les données sont similaires) ;
  • Permettre l’ajout facile de colonnes sans avoir besoin de redimensionner les lignes ;
  • Minimiser l’impact sur le matériel (entrées/sorties) ;
  • Faciliter le travail décentralisé via plusieurs serveurs;
  • Et donc d’obtenir des gains de performance sur les très gros volumes de données.

Éditeurs de bases de données en colonnes

Pas étonnant que ce soit les gros consommateurs de données qui poussent ce type de produits :

Cassandra (Facebook), BigTable (Google) sont les plus connus du grand public. Les éditeurs spécialisés ne sont pas en reste : Oracle, Sybase, IBM et HP le proposent aussi.