Data mining et bases de données

Le data mining ou exploration de données en français est l’ensemble des techniques qui permet d’extraire des informations au sein de données et plus précisément de découvrir des structures (modèles et comportements) au sein de vastes ensemble de données. Le data-mining utilise les apports des statistiques et de l’intelligence artificielle pour isoler l’information valorisable et la présenter. Les informations extraites doivent être :

justes, précises, fiables ;
sourcées (on doit pouvoir savoir d’ou elles viennent précisément) ;
intéressantes voire nouvelles.

En big-data et informatique décisionnelle, extraire de l’information cachée au sein de masses d’informations est fondamental. Le data mining est ainsi cette tâche clé qui consiste à fouiller, prospecter, forer dans des bases de données afin d’en faire ressortir une connaissance (information qui a de la valeur et qui est exploitable).

Cette idée d’exploiter l’information déjà présente (analyse secondaire – on ne cherche pas à collecter l’information mais simplement à l’analyser) est vieille de plusieurs siècles et très tôt en informatique (dès les années 60 avec les statistiques exploratoires), des outils ont été produits dans ce but. Les données textuelles sont les plus simples à traiter mais les éléments multimédias (sons, images) sont aujourd’hui bien supportés par les outils disponibles.

Les outils logiciels les plus utilisés pour le data mining sont :

Knime, R, Weka, Orange, RapidMiner pour les logiciels libres ;
KXEN, Excel et SQL Server (avec les modules supplémentaires Business intelligence de Microsoft), Oracle DM, SAS Entreprise Miner, STATISTICA, IBM SPSS, BrainCube, CORICO pour les logiciels commerciaux.

On peut aujourd’hui retenir trois méthodes majeures pour fouiller les données :

Méthode SEMMA : créée par l’éditeur de logiciels SAS Institute, cette méthode s’applique à tous les logiciels (même ceux qui ne sont pas édités par l’entrepries SAS Institute). Elle décrit un ensemble d’outils et de méthodes logiques à mettre en place afin de fouiller au mieux une grande masse d’informations. C’est une approche technique.
Méthode CRISP-DM : il s’agit de 6 étapes qui permettent d’industrialiser la fouille de données (compréhension métier, recherche de données, préparation des données, exploration et modélisation de l’information, segmentation (coeur de la méthode), évaluation et livraison/restitution).
Méthode DMAIC Six Sigma : empruntée à l’industrie, la méthode met l’accent sur la recherche de défauts et l’amélioration de la qualité. Cela s’applique très bien à la fouille de données.

Allant plus loin que les simples calculs statistiques (intelligence artificielle, réseaux de neurones, calculs bayesiens, machine learning), l’exploration de données se base sur deux grandes familles d’algorithmes :

Méthodes descriptives : cette façon de faire consiste à analyser les données disponibles et à les classer sans a-priori de façon à mettre en évidence des normes de comportement et à repérer des abberations.
Méthodes prédictives : la tâche consiste ici à regarder les données actuelles et à prévoir le futur. En se basant sur les éléments connus, on peut imaginer une certaine reproductibilité.

Les écueils les plus fréquents à l’usage du data-mining sont essentiellement liés à l’humain :

Poser les bonnes questions ;
Savoir écarter les données fausses, pouvoir constituer un ensemble de données qui a du sens et qui est vrai ;
Faire la différence entre corrélation et causalité ;
Ne pas confondre justesse et précision ;
Savoir exploiter les résultats et savoir les réfuter parfois ;
Résoudre les problèmes d’éthique et les respecter les données privées.