Avec l’avènement de l’intelligence artificielle grand public, la notion de dataset est devenue un concept connu des amateurs de tech. Les ensembles de données sont des regroupements plus ou moins bien organisés de données dont se servent les algorithmes de machine learning pour apprendre. Ces ensembles de données sont composés de texte (brut, organisé en tableau…) mais aussi d’éléments multimédias (photos, sons, vidéos).
Pour pouvoir être exploitées efficacement, ces données doivent être cohérentes, bien organisées et conséquentes. Ce qui convient particulièrement bien avec une approche « base de données ».
Pour travailler avec les images et les éléments multimédia, il n’est pas forcément nécessaire d’avoir recours à une base de données. Les datasets se téléchargent et se stockent en tant que fichier sur un disque dur. Les programmes parcourent les fichiers directement.
Pour les données sous forme de texte, les bases de données sont plus adaptées :
- Pour du texte brut, ElasticSearch convient bien ;
- Pour des données organisées en de nombreuses colonnes et plutôt bien rangées, les bases SQL sont appropriées (PostgreSQL, MySQL, MariaDB). C’est le cas pour les données datées (QuestDB), les exports de bases existantes (par exemple un ecommerce) et de façon générales tout ce qui a la forme de tableau ;
- Pour des données plus hétérogènes, des bases de type NoSQL comme Cassandra (ou Datastax), HBase, DynamoDB, Redis, MongoDB, CouchDB feront le job.
Il faut cependant préciser qu’en plus de ces bases de données généralistes, il existe des SGBD spécialisés IA. C’est le cas pour MLDB qui est OpenSource et conçu pour les besoins liés au machine learning. Cet outil s’installe facilement, dispose d’une API REST pour le stockage des données, laisse les utilisateurs composer des requêtes SQL pour interroger les données, permet d’entraîner des modèles d’apprentissage et livre les résultats via des APIs. OpenAI utilise pour sa part SingleStore qui fournit plus de fonctionnalités qu’une base de Machine Learning de même que Spotify qui base son système de recommandation sur Clickhouse.
Le modèle final, celui qui est ensuite utilisé par l’IA pour en extraire les informations intéressantes, sera pour sa part stocké dans un gros fichier.