IA et bases de données

Bases de données et intelligence artificielle

L’intelligence artificielle est de nouveau à la mode. Et c’est parti pour durer cette fois-ci. La puissance des composants informatiques et la baisse des coûts liés au matériel permet désormais de faire tourner des algorithmes d’IA. Ces programmes informatiques ne sont pas encore vraiment intelligents au sens ou un humain le comprend mais ils sont déjà très puissants pour le traitement de masses de données importantes.

Que ce soit pour faire des tris, des classifications, pour voir des regroupements et faire des associations là ou le cerveau humain ne le peut pas (car trop de paramètres), les algos de machine learning et de deep learning principalement mais aussi leurs ancêtres les réseaux de neurones et plus anciens encore les algorithmes de systèmes expert et les arbres de décisions reposent tous sur un point fondamental. Pour pouvoir travailler correctement, ces outils ont besoin d’informations propres et bien classées. Et qui donc garantit des informations validées, structurées, liées entre elles de façon logique ? Les bases de données.

Certes il est possible de travailler à partir de jeux de données (les fameux datasets) plus ou moins propres mais ce que le grand public ne sait pas c’est que :

  • Un temps important est consacré à nettoyer les données avant de les soumettre aux algorithmes d’IA ;
  • Des données pas très propres donnent des résultats pas forcément convaincants (ça on peut s’en douter) mais trop de données donnent aussi parfois des résultats aberrants.

Il existe bien sûr des outils de data-mining. L’approche entre big-data et informatique décisionnelle est d’ailleurs basée sur la difficulté à travailler avec des jeux de données propres (en informatique décisionnelle, on fait parler les chiffres qui sont déjà bien rangées dans des cases prévues à cet effet, en big-data on essaie de tirer des enseignements de données moins bien rangées). Dans les 2 cas, les bases de données servent à un moment ou un autre (en amont / en aval) pour organiser les données brutes et/ou les résultats.

Photo : James Childs