Modélisation d’un datawarehouse

Introduction

Les datawarehouse sont destinés à la mise en place de systèmes décisionnels. Ces systèmes, devant répondre à des objectifs différents des systèmes transactionnels, ont fait ressortir très vite la nécessité de recourir à un modèle de données simplifié et aisément compréhensible. La modélisation dimensionnelle permet cela. Elle consiste à considérer un sujet d’analyse comme un cube à plusieurs dimensions, offrant des vues en tranches ou des analyses selon différents axes.

La modélisation des bases de données relationnelles utilise les concepts d’entités et de relations afin de construire des tables. En business intelligence, la modélisation d’un datawarehouse (entrepôt de données) utilise les notions de table de faits et table de dimension.

Voici un exemple montrant les différences entre la modélisation des bases de données et la modélisation d’un datawarehouse.

modélisation datawarehouse

Modélisation dimensionnelle

Le diagramme qui représente un modèle dimensionnel ressemble à une étoile, avec une grande table centrale et un jeu de petites tables auxiliaires disposées en étoile autour de la table centrale. Celle-ci est appelée table de faits et les autres tables sont appelées tables de dimensions.

table de faits et tables de dimension

Qu’est-ce qu’une table de faits ?

Une table de faits est la table centrale du modèle dimensionnel. Elle contient les informations observables (les mesures) sur ce qu’on veut analyser : Table de faits des ventes par exemple.

Une ligne d’une table de faits correspond à une mesure. Ces mesures sont généralement des valeurs numériques, additives ; cependant des mesures textuelles peuvent exister mais sont rares.

Une table de faits assure les liens plusieurs à plusieurs entre les dimensions. Elles comportent des clés étrangères, qui ne sont autres que les clés primaires des tables de dimension.

Exemple de table de faits:

table de faits

Structure d’une table de faits

Qu’est-ce qu’une table de dimension ?

Une table de dimension représente un axe d’analyse : dimension de temps, dimension géographique, dimension client, etc.

Les tables de dimension sont les tables qui raccompagnent une table de faits, elles contiennent les descriptions textuelles de l’activité. Une table de dimension est constituée de nombreuses colonnes qui décrivent une ligne. C’est grâce à cette table que l’entrepôt de données est compréhensible et utilisable ; elles permettent des analyses en tranches et en dés.

Une dimension est généralement constituée : d’une clé artificielle, une clé naturelle et des attributs.

 

Modèle en étoile

Modélisation d’un datawarehouse

Trois modèles permettant la présentation d’un datawarehouse :

  • Modèle en étoile
  • Modèle en flocon
  • Modèle en constellation

Modèle en étoile

Modèle en étoile : comme indiqué précédemment, ce modèle se présente comme une étoile dont le centre n’est autre que la table des faits et les branches sont les tables de dimension. La force de ce type de modélisation est sa lisibilité et sa performance.

Modèle en étoile

Modèle en flocon

Modèle en flocon : identique au modèle en étoile, sauf que ses branches sont éclatées en hiérarchies. Cette modélisation est généralement justifiée par l’économie d’espace de stockage, cependant elle peut s’avérer moins compréhensible pour l’utilisateur final, et très couteuse en terme de performances.

modèle en flocon

Modèle en constellation

Modèle en constellation : Ce n’est rien d’autre que plusieurs modèles en étoile liés entre eux par des dimensions communes.

modèle en constellation