Data Quality Management

Business Intelligence, Data Governance, Data Marketing, Data Mining and Data Integration, Data Quality Management, Machine Learning

RETAIL: Data Science & Insights // S3E3

La Data Science est la science des données. C’est un ensemble de techniques et de méthodes qui permettent à une organisation d’analyser ses données brutes pour en extraire des informations précieuses permettant de répondre à des besoins spécifiques ou de résoudre des problèmes analytiques complexes.

La Data Science permet de découvrir des informations pertinentes au sein des ensembles de données

En plongeant dans ces informations à un niveau fin, l’utilisateur peut découvrir et comprendre des tendances et des comportements complexes. Il s’agit de faire remonter à la surface des informations pouvant aider les entreprises à prendre des décisions plus intelligentes.

Cette « fouille de données » peut se faire grâce à l’apprentissage automatique (Machine Learning). Ce dernier fait référence au développement, à l’analyse et à l’implémentation de méthodes et algorithmes qui permettent à une machine (au sens large) d’évoluer grâce à un processus d’apprentissage, et ainsi de remplir des tâches qu’il est difficile ou impossible de remplir par des moyens algorithmiques plus classiques.

La Data Science permet de créer un Data Product

Un data product est un outil qui repose sur des données et les traite pour générer des résultats à l’aide d’un algorithme. L’exemple classique d’un data product est un moteur de recommandation.

Moteur de recommandation

Il a été rapporté que plus de 35% de toutes les ventes d’Amazon sont générées par leur moteur de recommandation. Le principe est assez basique : en se basant sur l’historique des achats d’un utilisateur, les articles qu’il a déjà dans son panier, les articles qu’il a notés ou aimés dans le passé et ce que les autres clients ont vu ou acheté récemment, des recommandations sur d’autres produits sont automatiquement générées.

Optimiser votre gestion de stock

Un autre exemple de cas d’usage de la data science est l’optimisation de l’inventaire, les cycles de vie des produits qui s’accélèrent de plus en plus et les opérations qui deviennent de plus en plus complexes obligent les détaillants à utiliser la Data Science pour comprendre les chaînes d’approvisionnement et proposer une distribution optimale des produits.

Optimiser ses stocks est une opération qui touche de nombreux aspects de la chaîne d’approvisionnement et nécessite souvent une coordination étroite entre les fabricants et les distributeurs. Les détaillants cherchent de plus en plus à améliorer la disponibilité des produits tout en augmentant la rentabilité des magasins afin d’acquérir un avantage concurrentiel et de générer de meilleures performances commerciales.

Ceci est possible grâce à des algorithmes d’expédition qui déterminent quels sont les produits à stocker en prenant en compte des données externes telles que les conditions macroéconomiques, les données climatiques et les données sociales. Serveurs, machines d’usine, appareils appartenant au client et infrastructures de réseau énergétique sont tous des exemples de sources de données précieuses.

Ces utilisations innovantes de la Data Science améliorent réellement l’expérience client et ont le potentiel de dynamiser les ventes des détaillants. Les avantages sont multiples : une meilleure gestion des risques, une amélioration des performances et la possibilité de découvrir des informations qui auraient pu être cachées.

La plupart des détaillants utilisent déjà des solutions liées à la Data Science pour augmenter la fidélisation de la clientèle, renforcer la perception de leur marque et améliorer les scores des promoteurs.

Et vous, quand est-ce que vous ouvrez votre précieux sésame ?

Cet article vous a inspiré ?
Business Intelligence, Data Governance, Data Mining and Data Integration, Data Quality Management

RETAIL : meilleures Data, meilleurs résultats // S3E1

La stratégie « Data-driven » passe d’abord par une qualité de données irréprochable. La non qualité des données influe directement sur la qualité du pilotage de l’activité. Les données du client inexactes et multiples altèrent la connaissance client et par conséquent la relation client est impactée. Les indicateurs de performance d’un point de vente doivent être fiabilisés car ils sont exploités pour l’évaluation des équipes ou certaines décisions comme la fermeture, la relocalisation, la rénovation ou encore l’estimation du chiffre d’affaires prévisionnel.

Qu’entend-on par « données de qualité » ? 

On peut parler de données de qualité lorsque les 4 caractéristiques suivantes sont réunies :

  • Des données complètes: vous disposez d’informations complètes sur vos référentiels et vos données transactionnelles.
  • Des données disponibles: vous accédez sans problème et rapidement aux données dont vous avez besoin.
  • Des données à jour: des données de qualité impliquent un nettoyage régulier, ainsi que la mise à jour de vos référentiels… faute de quoi vous prenez des décisions basées sur des facteurs devenus obsolètes.
  • Des données utilisables : erreurs de remplissage de champs, fautes d’orthographe, coquilles, chiffres erronés… Des données de qualité impliquent de résoudre ces problèmes et de bien encadrer la terminologie utilisée.

Pourquoi avoir de meilleures data ?

Malgré la tendance qui met de plus en plus en avant l’importance de disposer de données fiables pour prendre les bonnes décisions stratégiques et commerciales, de nombreuses entreprises hésitent encore à véritablement investir dans ce sens et pensent avant tout à réduire leurs coûts.

pexels-karolina-grabowska-4210850 (1)

Est-ce votre cas ?

Si oui, dans ce cas, vous passez à côté de données précieuses pour augmenter vos ventes, attirer plus de clients et mettre de côté les dépenses inutiles.

Il ne suffit pas de consulter ses statistiques de CA et fréquentation pour assurer un véritable pilotage par la data.

La qualité des données est indispensable et permet d’optimiser plusieurs axes :

  • La croissance du chiffre d’affaires
  • La réduction, voire la suppression des dépenses non-pertinentes
  • Un meilleur management du risque
  • Une meilleur relation client

Des données bien paramétrées et prêtes à être analysées selon vos objectifs vous permettront par exemple d’identifier en un clin d’œil vos tendances de vente par produits, de mieux comprendre ce qui fonctionne auprès de vos clients, mais aussi de réduire les coûts de campagnes selon leur ROI, d’anticiper vos lancements et de limiter les risques…

Comment faire pour avoir de meilleures données ??

Les dirigeants les mieux informés reconnaissent l’importance d’établir et d’institutionnaliser les pratiques exemplaires pour améliorer l’utilisation des données. L’objectif premier est d’élever le niveau de qualité de l’information. Cependant, des problèmes peuvent apparaître si les entreprises entament des efforts sporadiques pour les nettoyer et les corriger. L’absence de processus exhaustifs réservés à la gestion de la « qualité de données » entraîne la multiplication des interventions, et de fait l’augmentation des coûts. Pire encore, cela entrave la distribution d’informations cohérentes auprès des utilisateurs métiers.

Il convient alors d’adopter une approche pragmatique afin d’aligner les pratiques disparates en termes de maintien de la qualité des données. Cette démarche permet de mettre en place un programme à l’échelle d’une société afin de relever ces deux défis. Au-delà du fait de se rapprocher de partenaires commerciaux, de développer des cas d’usage et d’élaborer une analyse du retour sur investissement, il faut lister les procédures essentielles à l’amélioration de cette « qualité de données ».

Voici les cinq procédures les plus pertinentes :

  1. Documenter les exigences et définir des règles de mesure

 Dans la majorité des cas, accroître la qualité des données consiste à améliorer la pertinence des informations commerciales. Pour ce faire, les organisations doivent commencer par collecter les besoins. Cela implique une collaboration avec les utilisateurs métiers afin de comprendre leurs objectifs commerciaux. Une fois cette étape finalisée, ces informations combinées à des expériences partagées sur l’impact commercial des problèmes liés à la qualité de données peuvent être transformées en règles clés. Celles-ci mesurent la fraîcheur, l’exhaustivité et la pertinence des données.

 

  1. Évaluer les nouvelles données pour créer un référentiel adapté

 Un processus reproductible d’évaluation des données permet de compléter l’ensemble des règles de mesure, en scrutant les systèmes sources à la recherche d’anomalies potentielles dans les nouvelles données. Les outils de profilage permettent de balayer les valeurs, les colonnes et les relations dans et entre les sources de données. Mener cette opération fréquemment facilite l’identification des valeurs aberrantes, les erreurs et renforce leur intégrité. Ces outils permettent également de renseigner les administrateurs quant aux types de données, la structure des bases de données, et sur les interactions entre les entités. Les résultats peuvent être partagés avec les métiers pour aider à élaborer les règles de validation de la qualité des données en aval.

 

  1. Mettre en œuvre des processus de gestion sémantique des données

 Au fur et à mesure que le nombre et la variété des sources de données augmentent, il est nécessaire de limiter le risque que les utilisateurs finaux des différentes divisions d’une organisation interprètent mal ce surplus d’informations. L’on peut centraliser la gestion des métadonnées (dictionnaire de données) commercialement pertinentes et engager les utilisateurs et le Chief Data Officer (Directeur des données) à collaborer. Il s’agit d’établir des standards afin de réduire le nombre de cas où de mauvaises interprétations entraînent des problèmes d’exploitation des données. Les métadonnées et les librairies associées peuvent être accessibles depuis le Catalogue de données dans le but de comprendre les informations disponibles.

 

  1. Vérifier la validité des données en continu

Ensuite, il est recommandé de développer des services automatisés pour valider les données enregistrées, services qui adopteront les règles de qualités préalablement définies. Un déploiement stratégique facilite le partage des règles et des mécanismes de validation à travers l’ensemble des applications et dans tous les flux informatiques, afin d’assurer une inspection continue et la mesure de la qualité des données. Les résultats peuvent être intégrés à divers systèmes de rapports tels que des notifications et des alertes directes envoyées aux responsables de la gestion des données pour traiter les anomalies les plus graves et les failles de données hautement prioritaires, ainsi que des tableaux de bord figurant des agrégats pour les collaborateurs non-initiés.

 

  1. Endiguer les problèmes liés à la mauvaise qualité des données

 En ce sens, il est pertinent de développer une plateforme pour enregistrer, suivre et gérer les incidents liés à la « qualité de données ». Il ne suffit pas de comparer les règles mises en place. En soi, cet effort n’entraîne pas d’amélioration à moins qu’il y ait des processus standards pour évaluer et éliminer la source des erreurs. Un système de gestion des événements peut automatiser les tâches de reporting, mettre en avant les urgences, alerter les responsables, assigner les tâches et suivre les efforts d’assainissement.

pexels-andrew-neel-2682452

Bien menées, ces méthodes de « Data Governance » constituent l’épine dorsale d’un cadre proactif de gestion de la qualité des données, assorti de contrôles, de règles et de processus qui peuvent permettre à une organisation d’identifier et de corriger les erreurs avant qu’elles n’aient des conséquences commerciales négatives. En fin de compte, ces procédures permettront une meilleure exploitation des ressources au bénéfice des entreprises qui les déploient.

Vous assurer des données de qualité ne devrait jamais être considéré comme une dépense, mais bien comme un investissement… rentable !

 

Comment la data peut-elle être véritablement utile aux retailers ?

Dans le prochain épisode, nous nous penchons sur des cas d’usage pour illustrer « l’intérêt de la Donnée dans le monde du retail ». Stay tuned.

Data Quality Management

Dirty Data – Hygiene Etiquette

If you’ve ever analyzed data, you know the pain of digging into your data only to find that the data is poorly structured, full of inaccuracies, or just plain incomplete. But « dirty data » isn’t just a pain point for analysts; it can ultimately lead to missed opportunities and lost revenue to an organisation.  Gartner research shows that the “average financial impact of poor data quality on organizations is $9.7 million per year.”

The amount of time and energy it takes to go from disjointed data to actionable insights leads to inefficient ad-hoc analyses and declining trust in organizational data.

A recent Harvard Business Review study reports that people spend 80% of their time prepping data, and only 20% of their time analyzing it. And this statistic isn’t restricted to the role of the data stewards. Data prep tasks have bled into the work of analysts and even non-technical business users.

Enterprises are taking steps to overcome dirty data by establishing data hygiene etiquette:

  • Understand your data location, structure, and composition, along with granular details like field definitions.

Some people refer to this process as “data discovery” and it is a fundamental element of data    preparation. Confusion around data definitions, for example, can hinder analysis or worse, lead to inaccurate analyses across the company. For example, if someone wants to analyze customer data, they may find that a marketing team might have a different definition for the term“customer” than someone in finance.

  • Standardize data definitions across your company by creating a data dictionary.

This will help analysts understand how terms are used within each business application, showing the fields are relevant for analysis versus the ones that are strictly system-based. Developing a data dictionary is no small task. Data stewards and subject matter experts need to commit to ongoing iteration, checking in as requirements change. If a dictionary is out of date, it can actually do harm to your organization’s data strategy. Communication and ownership should be built into the process from the beginning to determine where the glossary should live and how often it should be updated and refined.

  • Data cleansing prior to imports

You need to prepare your data before even thinking of importing it in your system.  Every organization has specific needs and there is no ‘one size-fits-all’ approach to data preparation. A self-service data preparation tool allows people to see the full end-to-end process, seeing potential flags earlier on—like misspellings in the data, extra spaces, or incorrect join clauses. It also increases confidence in the final analysis.

  • Hands off!!

Keeping your hands out of the data in regular use increases the chances of it keeping clean. Introducing a little dirty data to a system will compromise an entire data set and your little bit of dirty data has suddenly created a lot of dirty data. Cleansing the mess is a far far bigger job than making sure the data is clean before importing it.

  • Invest in a self-service business intelligence tool

Adopting a self-service data prep across an organization requires users to learn the ins and outs of the data. Since this knowledge was historically reserved for IT and data engineering roles, it is crucial that analysts take time to learn about nuances within the data, including the granularity and any transformations that have been done to the data set. Scheduling regular check-ins or a standardized workflow for questions allows engineers to share the most up-to-date way to query and work with valid data, while empowering analysts to prepare data faster and with greater confidence.

Data hygiene should be a top concern in organisations. Devoting some resources to ensuring that the data you’re basing decisions on is complete and accurate is a smart investment, because dirty data is costly in so many ways. To get the most and best use out of your data, you need to take the time to ensure its quality is sufficient and that data used by different departments is integrated. This gives you the most complete and precise customer view, so you can make smarter decisions and maximize your return on investment.