Data Mining and Data Integration

Business Intelligence, Company, Data Governance, Data Marketing, Data Mining and Data Integration, Data Quality Management, Data Regulations, Data Warehouse, Machine Learning, Self-service Analytics, Technology

Data Warehouses vs Data Lakes: a comparative dive into the Tech World

In the ever-evolving world of technology, two terms have been making waves: Data Warehouses and Data Lakes. Both are powerful tools for data storage and analysis, but they serve different purposes and have unique strengths and weaknesses. Let’s dive into the world of data and explore these two tech giants.

Data Warehouses have been around for a while, providing a structured and organized way to store data. They are like a well-organized library, where each book (data) has its place. Recent advancements have made them even more efficient. The convergence of data lakes and data warehouses, for instance, has led to a more unified approach to data storage and analysis. This means less data movement and more efficiency – a win-win!

Moreover, the integration of machine learning models and AI capabilities has automated data analysis, providing more advanced insights. Imagine having a personal librarian who not only knows where every book is but can also predict what book you’ll need next!

However, every rose has its thorns. Data warehouses can be complex and costly to set up and maintain. They may also struggle with unstructured data or real-time data processing. But they shine when there is a need for structured, historical data for reporting and analysis, or when data from different sources needs to be integrated and consistent.

On the other hand, Data Lakes are like a vast ocean of raw, unstructured data. They are flexible and scalable, thanks to the development of the Data Mesh. This allows for a more distributed approach to data storage and analysis. Plus, the increasing use of machine learning and AI can automate data analysis, providing more advanced insights.

However, without proper management, data lakes can become « data swamps », with data becoming disorganized and difficult to find and use. Data ingestion and integration can also be time-consuming and complex. But they are the go-to choice when there is a need for storing large volumes of raw, unstructured data, or when real-time or near-real-time data processing is required.

In depth



1. Convergence of data lakes and data warehouses: This allows for a more unified approach to data storage and analysis, reducing the need for data movement and increasing efficiency.

2. Easier streaming of real-time data: This allows for more timely insights and decision-making.

3. Integration of machine learning models and AI capabilities: This can automate data analysis and provide more advanced insights.

4. Faster identification and resolution of data issues: This improves data quality and reliability.


1. Data warehouses can be complex and costly to set up and maintain.

2. They may not be suitable for unstructured data or real-time data processing.

Best scenarios for implementation

1. When there is a need for structured, historical data for reporting and analysis.

2. When data from different sources needs to be integrated and consistent.



1. Development of the Data Mesh: This allows for a more distributed approach to data storage and analysis, increasing scalability and flexibility.

2. Increasing use of machine learning and AI: This can automate data analysis and provide more advanced insights.

3. Tools promoting a structured dev-test-release approach to data engineering: This can improve data quality and reliability.


1. Data lakes can become « data swamps » if not properly managed, with data becoming disorganized and difficult to find and use.

2. Data ingestion and integration can be time-consuming and complex.

Best scenarios for implementation

1. When there is a need for storing large volumes of raw, unstructured data.

2. When real-time or near-real-time data processing is required.

In conclusion, both data warehouses and data lakes have their own advantages and setbacks. The choice between them depends on the specific needs and circumstances of the organization. It’s like choosing between a library and an ocean – both have their charm, but the choice depends on what you’re looking for. So, whether you’re a tech enthusiast or a business leader, understanding these two tools can help you make informed decisions in the tech world. After all, in the world of data, knowledge is power!

This article inspired you ?
Artificial Intelligence, Business Intelligence, Change and Project Management, Data Governance, Data Marketing, Data Mining and Data Integration, Machine Learning, Self-service Analytics, Technology

Mastering your Data: the essence and impact of the data catalogue

In today’s hyper-connected world, where data is seen as the new gold, knowing how to manage and exploit it is essential for businesses wishing to make informed decisions and remain competitive. The concept of the data catalogue is emerging as a key response to this challenge, offering a compass in the vast and often tumultuous ocean of data.

This article aims to shed light on the challenges and benefits of data catalogues, modern libraries where metadata is not just stored, but made comprehensible and accessible. Through the automation of metadata documentation and the implementation of collaborative data governance, data catalogues are transforming the way organisations access, understand and use their valuable information.


By facilitating the discovery and sharing of trusted data, they enable organisations to navigate confidently towards a truly data-driven strategy.

But also...

A data catalogue is a centralised tool designed to effectively manage data within an organisation. According to Gartner, it maintains an inventory of active data by facilitating its discovery, description and organisation.

The basic analogy would be to say that it is a directory, where readers find the information they need about books and where they are: title, author, summary, edition and the opinions of other readers.

The aim of a data catalogue is to make data governance collaborative, by improving accessibility, accuracy and relevance of data for the business. It supports data confidentiality and regulatory compliance through intelligent data lineage tracing and compliance monitoring.

Here are 5 reasons for your data teams to use a data catalogue:

Data analysts / Business analysts

They use the data catalogue to find and understand the data they need for their analyses. This enables them to access relevant data quickly, understand its context and guarantee its quality and reliability for reporting and analysis.


Data Scientists

The data catalogue is essential for locating the datasets they need for their machine learning and artificial intelligence models. It also makes it easier to understand the metadata (where the data comes from and the transformations it has undergone), which is vital for data pre-processing.


Data Stewards

They are responsible for data quality, availability and governance. They use the data catalogue to document metadata, manage data standards, and monitor compliance and the use of data within the organisation.


Compliance and security managers

The data catalogue helps them to ensure that data is managed and used in accordance with current regulations, such as the GDPR for the protection of personal data. They can use it to track access to sensitive data and audit data use.


Data architects and engineers

These technicians use the data catalogue to design and maintain the data infrastructure. It provides them with an overview of the data available, its structure and its interrelationships, making it easier to optimise the data architecture and integrate new data sources.

It’s important to note that business users are not left out of this tool either. Although they are not technical users, they benefit from the data catalogue to access the information and insights they need to make decisions. The directory enables them to find relevant data easily, without the need for in-depth technical knowledge.

Key points

A data catalogue is used to:


  • Improve data discovery and access


  • Strengthen data governance


  • Improve data quality and reliability


  • Facilitate collaboration between teams


  • Optimise the use of data resources


With Data Catalogues, just as we now do with our own revolutionary DUKE solution, navigate the complex data landscape today, with the luxury of effectively accessing, managing and exploiting data to support informed decision-making and business innovation.

Let your Data teams shine today and dive straight into the heart of our DUKE project.

Business Intelligence, Data Governance, Data Marketing, Data Mining and Data Integration, Data Quality Management, Machine Learning

RETAIL : 4 règles pour devenir Data Driven // S3E4

Face à des freins culturels et organisationnels, il est difficile de déployer la culture de la donnée dans les entreprises du retail. Diffuser la culture de la donnée en magasin veut dire donner le pouvoir aux employés de mieux vendre. La question principale est donc de dépasser les obstacles, et d’accompagner le changement.


Voici les 4 règles clés à suivre durant votre transformation :

1. Soyez soutenu(s) par votre hiérarchie

Mettre la culture de la donnée au cœur de l’organisation est une prérogative du haut management. Il faut emmener l’ensemble de vos collaborateurs dans la transformation. Il y a parfois des freins culturels, les personnes non issues de l’ère numérique, conservent des réflexes. Du jour au lendemain, elles sont invitées à repenser leurs habitudes. Il est donc nécessaire d’adopter une conduite de changement.

2. La communication, c'est la clé

Tout lancement d’un nouveau projet implique forcément des changements de processus et des changements organisationnels. Pour réussir, il vous faut communiquer pendant toute la durée du projet.

Pour créer une culture de la donnée (dite « Data Driven culture ») vous devez penser votre projet pour que les données puissent être communiquées à des non-spécialistes. Gartner précise qu’une des caractéristiques fondamentales d’une culture de la donnée est la mise à disposition de la donnée de manière simple et claire à toutes les personnes en entreprise. Par exemple, utilisez une solution logicielle de tableau de bord « retail » ou de visualisation de données pour restituer de manière claire vos données. Et par conséquent, prendre des décisions éclairées !

Vous pouvez même raconter des histoires avec vos données en leur donnant du contexte grâce aux solutions de « data storytelling » comme dans Tableau Story.

Vous pouvez rendre vos tableaux de bord simples personnalisables. Par exemple, chaque point de vente devrait être en mesure de s’approprier et d’analyser ses données « retail ». Il appréciera de pouvoir changer l’angle de vue en fonction de ses besoins. Passer d’une vision par produit, à une vision par client (B2B), ou d’une vue « directeur de magasin » à une vue « team leader », ou d’une vue produit à une vision par zone géographique, etc. La personnalisation de l’angle de vue est fondamentale pour que la donnée soit vulgarisée et comprise par l’ensemble du personnel en magasin. D’autre part, vu le nombre d’informations auxquelles il est exposé, il est important de rester simple pour une communication efficace.

Simplicité, efficacité ; n’est-ce pas ?

3. Focus : les motivations personnelles de vos collaborateurs pour améliorer le taux d'adoption des outils

Vous devez intéresser le personnel de vos magasins par les données qui sont à sa disposition. Vos collaborateurs doivent voir des solutions à leurs problématiques métiers dans le projet ; c’est une étape essentielle pour un projet data réussi. Par exemple, la rémunération variable du personnel est souvent en fonction des résultats des ventes du magasin. Lui donner des solutions concrètes pour mieux vendre est donc dans son intérêt.

Fournir des tableaux de bord retail personnalisés et simples, est un enjeu de votre projet. Imaginez un mini site internet fournissant au directeur du magasin le tutoriel sur la nouvelle disposition des articles en magasin, l’emploi du temps de la semaine, les performances de vente par produit…Une mini-plateforme personnalisée lui fournissant des informations pour lui et son équipe : le rêve !

Si vous souhaitez la réussite de votre organisation (on n’en doute pas une seule seconde !), vous devez penser « adoption par les collaborateurs » de votre projet.

4. Enfin : rendre toutes ces données actionnables et pertinentes !

Le défaut de nombreux projets data est qu’ils naissent sans être pensés pour des cas d’usage métier précis. La donnée est privilégiée au détriment de l’apport métier. Nous pensons que c’est une vision purement technique de voir les choses ! Avoir les données à disposition n’est pas le but du projet data. La finalité est de pouvoir fournir des informations actionnables à des professionnels et répondre à leurs problématiques.

La Data permet de réhabiliter l’efficacité des stratégies marketing en offrant aux retailers l’approche « ROIste » qu’ils réclament. Le Data Storytelling permet, lui, de légitimer et valoriser les choix en systèmes d’information qui récupèrent cette Data, en la racontant aux magasins. Ces derniers peuvent désormais prendre les meilleures décisions.

La Data est votre nouvelle monnaie. Mieux que de l’échanger, il faut la faire fructifier et la rendre exploitable. La question n’est plus « Pourquoi ?», mais « Quand ?». Faites-nous confiance, nous nous occupons du « Comment ?».

Nous espérons que cette mini-série spéciale « Data & Retail » vous a plu ! Nous vous encourageons à lire les articles précédents si ce n’est pas déjà fait…

Nous vous préparons la rentrée avec d’autres mini-séries à venir! Des thématiques que vous souhaiteriez voir abordées par ici ? Ecrivez-nous !

Cet article vous a inspiré ?
Business Intelligence, Data Governance, Data Marketing, Data Mining and Data Integration, Data Quality Management, Machine Learning

RETAIL: Data Science & Insights // S3E3

La Data Science est la science des données. C’est un ensemble de techniques et de méthodes qui permettent à une organisation d’analyser ses données brutes pour en extraire des informations précieuses permettant de répondre à des besoins spécifiques ou de résoudre des problèmes analytiques complexes.

La Data Science permet de découvrir des informations pertinentes au sein des ensembles de données

En plongeant dans ces informations à un niveau fin, l’utilisateur peut découvrir et comprendre des tendances et des comportements complexes. Il s’agit de faire remonter à la surface des informations pouvant aider les entreprises à prendre des décisions plus intelligentes.

Cette « fouille de données » peut se faire grâce à l’apprentissage automatique (Machine Learning). Ce dernier fait référence au développement, à l’analyse et à l’implémentation de méthodes et algorithmes qui permettent à une machine (au sens large) d’évoluer grâce à un processus d’apprentissage, et ainsi de remplir des tâches qu’il est difficile ou impossible de remplir par des moyens algorithmiques plus classiques.

La Data Science permet de créer un Data Product

Un data product est un outil qui repose sur des données et les traite pour générer des résultats à l’aide d’un algorithme. L’exemple classique d’un data product est un moteur de recommandation.

Moteur de recommandation

Il a été rapporté que plus de 35% de toutes les ventes d’Amazon sont générées par leur moteur de recommandation. Le principe est assez basique : en se basant sur l’historique des achats d’un utilisateur, les articles qu’il a déjà dans son panier, les articles qu’il a notés ou aimés dans le passé et ce que les autres clients ont vu ou acheté récemment, des recommandations sur d’autres produits sont automatiquement générées.

Optimiser votre gestion de stock

Un autre exemple de cas d’usage de la data science est l’optimisation de l’inventaire, les cycles de vie des produits qui s’accélèrent de plus en plus et les opérations qui deviennent de plus en plus complexes obligent les détaillants à utiliser la Data Science pour comprendre les chaînes d’approvisionnement et proposer une distribution optimale des produits.

Optimiser ses stocks est une opération qui touche de nombreux aspects de la chaîne d’approvisionnement et nécessite souvent une coordination étroite entre les fabricants et les distributeurs. Les détaillants cherchent de plus en plus à améliorer la disponibilité des produits tout en augmentant la rentabilité des magasins afin d’acquérir un avantage concurrentiel et de générer de meilleures performances commerciales.

Ceci est possible grâce à des algorithmes d’expédition qui déterminent quels sont les produits à stocker en prenant en compte des données externes telles que les conditions macroéconomiques, les données climatiques et les données sociales. Serveurs, machines d’usine, appareils appartenant au client et infrastructures de réseau énergétique sont tous des exemples de sources de données précieuses.

Ces utilisations innovantes de la Data Science améliorent réellement l’expérience client et ont le potentiel de dynamiser les ventes des détaillants. Les avantages sont multiples : une meilleure gestion des risques, une amélioration des performances et la possibilité de découvrir des informations qui auraient pu être cachées.

La plupart des détaillants utilisent déjà des solutions liées à la Data Science pour augmenter la fidélisation de la clientèle, renforcer la perception de leur marque et améliorer les scores des promoteurs.

Et vous, quand est-ce que vous ouvrez votre précieux sésame ?

Cet article vous a inspiré ?
Business Intelligence, Data Marketing, Data Mining and Data Integration

RETAIL: maîtriser vos données métiers // S3E2

Dans l’épisode précédent, nous avions présenté la qualité des données et les enjeux d’une mise en place de process de fiabilisation et de suivi de l’évolution de la donnée au sein d’une organisation. Dans cet épisode, nous vous parlons d’une méthode de gestion de données appelée la « la gestion des données de référence » ou MDM (Master Data Management).
Connaissez-vous cette méthode ?
pexels-fauxels-3184287 (1)

Le MDM consiste à centraliser la gestion de données dites essentielles intéressant les grandes applications de l’entreprise. Il implique une réflexion plus globale sur l’urbanisation du SI. Tant du point de vue des données que des processus.

Pour mieux cerner la notion de « gestion des données de référence », faisons un tour d’horizon de ce domaine, des fonctionnalités proposées par les outils du marché, et les principaux acteurs.


Le référentiel de données n’est pas une notion nouvelle. Mais le MDM est lui un concept émergent qui prend toute sa dimension aujourd’hui.  En effet, la complexité croissante des systèmes d’information souvent éclatés suite à des réorganisations d’entreprises, la volumétrie croissante des informations à gérer, la multiplication des contraintes réglementaires obligent le gestionnaire à mieux maîtriser les informations clés de l’activité de l’entreprise : clients, produits, fournisseurs, etc.

Si la notion de dictionnaire ou « référentiel de données » n’est pas nouvelle, le concept-même de MDM est apparu en 2003 et prend vraiment son essor actuellement. Historiquement, celui-ci s’est développé dans des contextes très verticalisés, et sous deux angles :

La gestion des catalogues produits (ou PIM pour Product Information Management) notamment dans les domaines de la grande distribution (retail) et du manufacturing,
L’intégration des données clients (ou CDI pour Customer Data Integration) particulièrement pour l’administration de grosses bases de données transactionnelles (gestion des doublons, vérification et homogénéisation des adresses, etc.).

Ce concept désormais d’autres problématiques et concerne la gestion des tiers et personnes, des produits et des offres, de l’organisation et des structures͕ des nomenclatures et des codifications, de la configuration et des paramètres.


Face à la mondialisation et à l’ouverture des marchés͕ les entreprises et organismes publics connaissent de multiples restructurations et opérations de fusion et doivent s’adapter à des contextes d’internationalisation pour se maintenir dans la course et s’ouvrir de nouvelles opportunités de business. Ces structures doivent faire face à de multiples contraintes qui régissent leur environnement :

La complexité croissante des contraintes réglementaires (Bâle II, IFRS, MIF, etc.) nécessite de collecter plus de données, de justifier  davantage les opérations, d’avoir  plus de transparence au niveau de la présentation des résultats,
Une compétitivité plus forte : face à la mondialisation et à l’ouverture des marchés, il faut être en mesure d’anticiper les tendances du marché, mettre en place de nouvelles offres pour répondre aux clients exigeants, répondre à la pression des actionnaires, et enfin pouvoir se mesurer régulièrement à la concurrence,
Les impératifs de rentabilité sont incontournables face à l’accroissement des risques opérationnels,
Une organisation centrée sur le client : il s’agit de lui proposer le bon produit, sur le bon canal au bon moment.


En interne aussi, la gestion de l’information est soumise à des contraintes nombreuses et complexes dues à :

La multiplication des systèmes et applications,
La multiplication des données (structurées ou non) avec la dispersion, la redondance et les incohérences sur les données les plus essentielles, les désaccords internes sur la valeur à attribuer à telle ou telle donnée, les définitions incorrectes sur certaines données, la difficulté d’accès et de manipulation des données͕ l’absence de gestion unifiée et maîtrisée des données clés de l’entreprise,
L’apparition  de nouveaux impératifs métier qui nécessitent d’avoir l’information quasi en temps réel , et de se doter des bons indicateurs pour réduire les risques opérationnels.


Parmi les fonctions du Master Data Management, on distingue :

Les fonctions de base : la gestion du référentiel centralisé, la gestion de catalogues multiples (clients, produits, etc.), la gestion du cycle de vie des données, la gestion des versions Développement, test, production), la gestion des types et liens entre données,
L’intégration : la synchronisation; le profiling de données et la gestion de la qualité de données, la réplication͕ la transformation͕ l’intégration des données et applications ;au sens chargement ETL des données),
La modélisation : les outils de modélisation, la découverte et le mapping des données, la gestion des hiérarchies complexes et sémantiques,
La gouvernance  la gestion de la sécurité͕ l’interface utilisateur métier͕ les fonctions de recherche et d’accès͕ le workflow,
Les fonctions avancées : l’évolutivité, pour étendre le référentiel à d’autres catégories de données via des modèles de données standardisés et extensibles ; la présence d’un moteur de règles, pour piloter et conditionner les processus de mise à jour dans les référentiels ; les fonctions natives de workflow enrichies d’étapes de validation humaines lors du design des flux, la réconciliation des données clients produits entre les différentes applications des fonctions exposées sous forme de Web services pour faciliter le dialogue synchrone avec le référentiel, l’intégration native avec les outils ETL (Outils d’intégration de données) et les outils de gestion de qualité des données.

Use case : l'exemple de Domino's Pizza


L’entreprise avait besoin de gérer ses données référentielles afin d’optimiser ses ventes et profits

  1. L’entreprise avait une directive stratégique d’identifier de façon unique un client et son comportement d’achats.
  2. Les informations des clients étaient dupliquées et se trouvaient dans différents systèmes. A savoir : l’application web et mobile de commande de Pizzas, le CRM et Applications de gestion commerciales (POS).


Création d’une stratégie Data orientée Client en 3 grands axes :

  1. Implémentation d’une gestion de données de référence (MDM) des données clients avec la création de « Golden records » (enregistrement unique pour identifier un client) dans le CRM, ERP, et les applications décisionnelles.
  2. Automatisation de la validation et l’identification des différences entre les systèmes opérationnels en utilisant des règles de gestion métiers.
  3. Transformation, nettoyage et synchronisation des enregistrements entre les différents systèmes et création d’un workflow permettant de maintenir les données entres les différentes entités du système.


  • Optimisation des ventes et de la profitabilité avec des campagnes marketing stratégiques et mieux ciblées.
  • Création d’un Data hub pour les clients. Tous les systèmes qui utilisent le référentiel client utilise une seul et unique source et version de la donnée.
  • Mise en place d’une fondation solide de gestion de données et l’élimination des pratiques manuelles source d’erreurs.

Un projet MDM vise à urbaniser l’administration des données en différenciant bien ce qui est du ressort des applications opérationnelles et des données locales et au contraire ce qui revient au MDM et à la gestion des données de référence d’entreprise͘.  Modélisation, intégration et gouvernance sont les grands axes de réflexion des projets MDM͕ lesquels doivent se doter d’une méthodologie rigoureuse assortie des meilleures pratiques.

Les données « pré-traitées » ça vous parle ?

Dans le prochain épisode, nous aborderons les méthodes de la « Data science » qui permettent d’extraire les connaissances d’une entreprise à partir de ce type de données. Soyez au RDV !
Cet article vous a inspiré?
Business Intelligence, Data Governance, Data Mining and Data Integration, Data Quality Management

RETAIL : meilleures Data, meilleurs résultats // S3E1

La stratégie « Data-driven » passe d’abord par une qualité de données irréprochable. La non qualité des données influe directement sur la qualité du pilotage de l’activité. Les données du client inexactes et multiples altèrent la connaissance client et par conséquent la relation client est impactée. Les indicateurs de performance d’un point de vente doivent être fiabilisés car ils sont exploités pour l’évaluation des équipes ou certaines décisions comme la fermeture, la relocalisation, la rénovation ou encore l’estimation du chiffre d’affaires prévisionnel.

Qu’entend-on par « données de qualité » ? 

On peut parler de données de qualité lorsque les 4 caractéristiques suivantes sont réunies :

  • Des données complètes: vous disposez d’informations complètes sur vos référentiels et vos données transactionnelles.
  • Des données disponibles: vous accédez sans problème et rapidement aux données dont vous avez besoin.
  • Des données à jour: des données de qualité impliquent un nettoyage régulier, ainsi que la mise à jour de vos référentiels… faute de quoi vous prenez des décisions basées sur des facteurs devenus obsolètes.
  • Des données utilisables : erreurs de remplissage de champs, fautes d’orthographe, coquilles, chiffres erronés… Des données de qualité impliquent de résoudre ces problèmes et de bien encadrer la terminologie utilisée.

Pourquoi avoir de meilleures data ?

Malgré la tendance qui met de plus en plus en avant l’importance de disposer de données fiables pour prendre les bonnes décisions stratégiques et commerciales, de nombreuses entreprises hésitent encore à véritablement investir dans ce sens et pensent avant tout à réduire leurs coûts.

pexels-karolina-grabowska-4210850 (1)

Est-ce votre cas ?

Si oui, dans ce cas, vous passez à côté de données précieuses pour augmenter vos ventes, attirer plus de clients et mettre de côté les dépenses inutiles.

Il ne suffit pas de consulter ses statistiques de CA et fréquentation pour assurer un véritable pilotage par la data.

La qualité des données est indispensable et permet d’optimiser plusieurs axes :

  • La croissance du chiffre d’affaires
  • La réduction, voire la suppression des dépenses non-pertinentes
  • Un meilleur management du risque
  • Une meilleur relation client

Des données bien paramétrées et prêtes à être analysées selon vos objectifs vous permettront par exemple d’identifier en un clin d’œil vos tendances de vente par produits, de mieux comprendre ce qui fonctionne auprès de vos clients, mais aussi de réduire les coûts de campagnes selon leur ROI, d’anticiper vos lancements et de limiter les risques…

Comment faire pour avoir de meilleures données ??

Les dirigeants les mieux informés reconnaissent l’importance d’établir et d’institutionnaliser les pratiques exemplaires pour améliorer l’utilisation des données. L’objectif premier est d’élever le niveau de qualité de l’information. Cependant, des problèmes peuvent apparaître si les entreprises entament des efforts sporadiques pour les nettoyer et les corriger. L’absence de processus exhaustifs réservés à la gestion de la « qualité de données » entraîne la multiplication des interventions, et de fait l’augmentation des coûts. Pire encore, cela entrave la distribution d’informations cohérentes auprès des utilisateurs métiers.

Il convient alors d’adopter une approche pragmatique afin d’aligner les pratiques disparates en termes de maintien de la qualité des données. Cette démarche permet de mettre en place un programme à l’échelle d’une société afin de relever ces deux défis. Au-delà du fait de se rapprocher de partenaires commerciaux, de développer des cas d’usage et d’élaborer une analyse du retour sur investissement, il faut lister les procédures essentielles à l’amélioration de cette « qualité de données ».

Voici les cinq procédures les plus pertinentes :

  1. Documenter les exigences et définir des règles de mesure

 Dans la majorité des cas, accroître la qualité des données consiste à améliorer la pertinence des informations commerciales. Pour ce faire, les organisations doivent commencer par collecter les besoins. Cela implique une collaboration avec les utilisateurs métiers afin de comprendre leurs objectifs commerciaux. Une fois cette étape finalisée, ces informations combinées à des expériences partagées sur l’impact commercial des problèmes liés à la qualité de données peuvent être transformées en règles clés. Celles-ci mesurent la fraîcheur, l’exhaustivité et la pertinence des données.


  1. Évaluer les nouvelles données pour créer un référentiel adapté

 Un processus reproductible d’évaluation des données permet de compléter l’ensemble des règles de mesure, en scrutant les systèmes sources à la recherche d’anomalies potentielles dans les nouvelles données. Les outils de profilage permettent de balayer les valeurs, les colonnes et les relations dans et entre les sources de données. Mener cette opération fréquemment facilite l’identification des valeurs aberrantes, les erreurs et renforce leur intégrité. Ces outils permettent également de renseigner les administrateurs quant aux types de données, la structure des bases de données, et sur les interactions entre les entités. Les résultats peuvent être partagés avec les métiers pour aider à élaborer les règles de validation de la qualité des données en aval.


  1. Mettre en œuvre des processus de gestion sémantique des données

 Au fur et à mesure que le nombre et la variété des sources de données augmentent, il est nécessaire de limiter le risque que les utilisateurs finaux des différentes divisions d’une organisation interprètent mal ce surplus d’informations. L’on peut centraliser la gestion des métadonnées (dictionnaire de données) commercialement pertinentes et engager les utilisateurs et le Chief Data Officer (Directeur des données) à collaborer. Il s’agit d’établir des standards afin de réduire le nombre de cas où de mauvaises interprétations entraînent des problèmes d’exploitation des données. Les métadonnées et les librairies associées peuvent être accessibles depuis le Catalogue de données dans le but de comprendre les informations disponibles.


  1. Vérifier la validité des données en continu

Ensuite, il est recommandé de développer des services automatisés pour valider les données enregistrées, services qui adopteront les règles de qualités préalablement définies. Un déploiement stratégique facilite le partage des règles et des mécanismes de validation à travers l’ensemble des applications et dans tous les flux informatiques, afin d’assurer une inspection continue et la mesure de la qualité des données. Les résultats peuvent être intégrés à divers systèmes de rapports tels que des notifications et des alertes directes envoyées aux responsables de la gestion des données pour traiter les anomalies les plus graves et les failles de données hautement prioritaires, ainsi que des tableaux de bord figurant des agrégats pour les collaborateurs non-initiés.


  1. Endiguer les problèmes liés à la mauvaise qualité des données

 En ce sens, il est pertinent de développer une plateforme pour enregistrer, suivre et gérer les incidents liés à la « qualité de données ». Il ne suffit pas de comparer les règles mises en place. En soi, cet effort n’entraîne pas d’amélioration à moins qu’il y ait des processus standards pour évaluer et éliminer la source des erreurs. Un système de gestion des événements peut automatiser les tâches de reporting, mettre en avant les urgences, alerter les responsables, assigner les tâches et suivre les efforts d’assainissement.


Bien menées, ces méthodes de « Data Governance » constituent l’épine dorsale d’un cadre proactif de gestion de la qualité des données, assorti de contrôles, de règles et de processus qui peuvent permettre à une organisation d’identifier et de corriger les erreurs avant qu’elles n’aient des conséquences commerciales négatives. En fin de compte, ces procédures permettront une meilleure exploitation des ressources au bénéfice des entreprises qui les déploient.

Vous assurer des données de qualité ne devrait jamais être considéré comme une dépense, mais bien comme un investissement… rentable !


Comment la data peut-elle être véritablement utile aux retailers ?

Dans le prochain épisode, nous nous penchons sur des cas d’usage pour illustrer « l’intérêt de la Donnée dans le monde du retail ». Stay tuned.