Partager :

Lexique de la plateforme Data Microsoft

Lexique de la BI Microsoft

Stream Analytics
Service Cloud Azure permettant de traiter massivement et en temps réel des données structurées et non structurées

Event Hub
Concentrateur d’évènements permettant l’intégration des informations de télémétrie des sites web, applications et objets connectés (IoT : Internet of things)
Utilisé pour capter, en quasi temps-réel, des évènements à grande échelle, de s’interfacer avec une multitude d’appareils indépendamment de leur plateforme, etc.

Integration Services
L’ETL On-Premise utilisé dans toute solution décisionnelle d’entreprise pour extraire, transformer et charger vos données dans votre DataWarehouse

StreamInsight
Solution On-Premise permettant de capter et de traiter des évènements complexes en temps réel

Master Data Services / Data Quality Services
Les outils On-Premise de gouvernance des données permettant de gérer respectivement les données référentielles de l’entreprise et la qualité de ses données

SQL Azure
Les bases de données de l’entreprise disponibles dans le Cloud Azure comme un simple service managé, réduisant ainsi ses coûts d’exploitation, de maintenance, de continuité de service, etc.

Analytic Plaform System – APS
Moteur de bases de données massivement parallèle (MPP) permettant de mettre en place une plateforme analytique de forte volumétrie (<=6Po), ultra-performante, hautement disponible, scalable et Big Data Ready.
Disponible en Appliance On-Premise ou bien dans le Cloud Azure

HDInsight
Est la solution Big Data proposée par Microsoft pour mettre en œuvre vos clusters Hadoop. Cette solution est disponible dans le cloud Azure et s’appuie sur la distribution Hortonworks. Elle permet le stockage distribué des données et leur traitement avec des technologies comme Hive, R ou encore Kafka / Storm.

Azure Blob Storage
Service cloud Azure de stockage  massif de données non structurées, telles que des données texte ou binaires (documents, images, vidéos, audios, etc) pour un accès distribué en diffusion continu.

SQL Server
Le moteur de bases données préféré des entreprises, On-Premise, utilisé pour gérer leurs Datawarehouse

Analysis Services
Le moteur sémantique permettant de mettre à disposition des métiers des Cubes d’analyses multidimensionnels ou tabulaires

SharePoint / Office 365
Plateforme collaborative à travers laquelle les métiers consomment et partagent l’information
SharePoint est disponible On-Premise et dans le Cloud Azure en SaaS

Power BI Site
Site collaboratif sous Office 365 permettant de concevoir et de partager des datasets, des rapports et des dashboards mais aussi de bénéficier d’un requêteur en langage naturel : Q&A

Power BI App
Application mobile disponible sur Windows et IOS pour visualiser, interagir et partager vos tableaux de bords et rapports Power BI

Excel
Tableur pour effectuer toutes vos analyses, disponible On-Premise ou en SaaS via Office 365

Power BI
Suite de produits intégrés en partie dans Excel et disponibles en intégralité sur le Cloud Azure en SaaS via Office 365
Les outils composant cette suite permettent de récupérer, de visualiser et d’analyser vos données sans pour autant disposer d’une plateforme BI existante :

  • Power Query – l’ELT self-service
  • Power Pivot – moteur analytique (design + stockage)
  • Power View – outil de Data Visualisation
  • Power BI Designer – outil d’élaboration de rapports Power BI
  • Power MAP – outil de visualisation cartographique et de storytelling
  • Data Management Gateway – permet à vos équipes du service informatique de publier des sources de données sur un site Power BI

Cette suite permet de mettre en place des rapports et tableaux de bord graphiques et interactifs permettant une visualisation 360° de vos données d’entreprise en bénéficiant d’une navigation fluide et performante.

Azure Machine Learning Studio
Client sur le poste de travail, dédié au développement d’un « pipeline » de Machine Learning, c’est-à-dire d’un modèle d’apprentissage automatique. Un tel modèle a principalement un usage prédictif pour des données numériques ou catégorielles.

Azure Machine Learning Workbench
Client sur le poste de travail, dédié au développement d’un « pipeline » de Machine Learning, c’est-à-dire d’un modèle d’apprentissage automatique. Un tel modèle a principalement un usage prédictif pour des données numériques ou catégorielles.

Azure Databricks
Cluster Hadoop managé basé sur Apache Spark pour des traitements sur des données volumineuses ou des problématiques proches du temps réel. Les autres services Azure tels que Azure Data Lake, SQL Data Warehouse et Cosmos DB peuvent s’intégrer automatiquement à cette solution.

Machine Learning Server
Serveur autonome pour l’exécution d’algorithmes R ou Python, optimisés par les librairie de calcul distribué RevoScaleR et revoscalepy. Le serveur permet également le déploiement d’API pour l’exploitation des modèles prédictifs.

Azure Data Lake
Système de fichiers en architecture distribuée pour le stockage de données structurées ou non structurées, basée sur la technologie HDFS. Les données peuvent être cryptées par l’utilisateur. Il n’y a pas de limite de volumétrie.

Azure Data Factory
Service d’intégration de données se connectant à de multiples sources et permettant de planifier les traitements. La version 2 dispose d’une interface graphique.

Azure SQL Data Warehouse
Déclinaison de la solution SQL Server, architecture parallèle (tables nativement distribuées) et en mode PaaS (n’implique pas la gestion de machines virtuelles). Dispose du stockage optimisé « ColumnStore Index » et de PolyBase pour l’intégration de données semi-structurées (XML, JSON).

Azure Cosmos DB
Donne accès aux différentes familles de bases NOSQL, au travers d’une architecture distribuée : bases orientées colonnes, orientées documents ou pour des problématiques de type graphe.

SSIS

L’ETL : Integration Services
Refonte complète du moteur Data Transformation Services (DTS de SQL Server 2000) ETL d’entreprise :

  • Gestion de sources de données hétérogènes (OLEDB, .NET, Oracle, SMTP, XML, WMI, Excel, Flat…..)
  • Nombreuses transformations natives (Conditional Split, Merge Join, Derived Column, Aggregate, SCD…)

SSIS est intégré à l’environnement de développement :

  • Fonctionnalités de débogage, de visualisation du contenu des flux de données

Intégration avec le reste de la plate-forme SQL Server :

  • Analysis Services : possibilité de traiter des cubes dans des packages SSIS
  • Datamining : possibilité d’accéder aux algorithmes de datamining dans les lots SSIS
  • RDBMS : Mise en place du plan d’un plan de maintenance

SSAS

Le moteur OLAP : Analysis Services
Analysis Services propose un outil de conception intégré à Visual Studio. Le stockage des informations métiers est effectué dans des Cubes multidimensionnels pour une navigation intuitive et performante :

  • Conception à part des cubes, mesures, dimensions, hiérarchies, attributs
  • Ajout d’intelligence métier spécifique : Time Intelligence, gestion des mesures (semi-)additives/non-additives (ex : CA vs Stock vs %Marge), langage utilisé : MDX

Analysis Services permet la création et la gestion d’indicateurs clés de performance (KPI) :

  • Objectifs et tendances
  • Gestion d’indicateurs visuels pour le scorecarding
  • Gestion, administration dans SQL Server Management Studio

Optimisation des agrégations, pro-active caching (temps réel).
Analysis Services intègre également un moteur de datamining.

SSRS

Le serveur de rapports Reporting Services
Reporting Services est une solution de reporting opérationnel (développement IT).
La solution est directement intégrable dans SharePoint.

Les rapports sont formatés et diffusables à grande échelle :

  • Gestion d’abonnements
  • Distribution par mail
  • Scheduler (Agent SQL) intégré

L’affichage des rapports peut se faire au travers d’un navigateur Web :

  • Choix du format de sortie (HTML, PDF, Excel, …)
  • Choix du canal de distribution (fichiers, mails, url, …)
  • Les données utilisées sont multi-sources (SQL, Oracle, DB2, OLAP, Web Services, XML, SAP BW…).

L’ensemble est très facilement programmable (APIs, extensions pour intégration dans applications tiers).
Outil de création de rapports ad-hoc pour les utilisateurs finaux (Report Builder) basé sur un « Report Model »

Power Pivot
Power Pivot offre à Excel des moyens surpuissants d’analyses de données, même très importantes, en offrant des temps de réponses rapides grâce à une technologie récente (mise en mémoire).

Les 5 fonctionnalités clés sont :

  • Analyse de mémoire de données au travers d’Excel.
  • L’association d’une technologie, qui utilise pleinement la mémoire dynamique de votre ordinateur combinée à des algorithmes sophistiqués, permet à l’utilisateur « expert » d’Excel de bénéficier d’un outil d’analyses unique à ce jour. Analysez des données volumineuses sur votre poste de travail grâce aux puissants algorithmes de compression permettant de charger d’ambitieux jeux de données directement en mémoire.
  • Data Analysis Expressions (DAX).
  • Définissez simplement de puissants calculs métiers grâce à DAX une extension analytique des fonctions d’Excel conçue pour Power Pivot.
  • Intégration à SharePoint
  • Partagez vos modèles de données et d’analyses avec d’autres. Un simple navigateur Web suffit alors pour la visualisation des rapports qui restent dynamiques.
  • Support d’un très large éventail de sources de données
  • Vous pouvez charger et combiner un très grand nombre de sources de données directement sur votre poste de travail : bases de données, cubes OLAP, services cloud, flux, fichiers texte, Excel, …
    Tableau de bord d’administration
    Permet au service informatique de superviser et maintenir vos applications Power Pivot (rafraîchissement des données, sécurité, performance, haute disponibilité, …)

Microsoft DQS

Gérez mieux La qualité des données
Le traitement de la qualité de données a toujours été un souci pour les entreprises. Les données incohérentes ou erronées sont en effet une cause de dysfonctionnement ou de surcoûts.
Pour les corriger, les équipes métiers ou IT doivent le plus souvent ré-analyser les informations stockées.

Voici quelques exemples d’actions qui doivent souvent être réalisées :

  • Traitement des doublons des données d’un service clientèle / satisfaction
  • Rapprochement entre les libellés d’une facture émise et ceux du paiement reçu
  • Vérification des adresses lors de campagnes marketing
  • Mise en correspondance des libellés de produits commandés depuis un site web de vente et de ceux utilisés lors de l’inventaire
  • Contrôle de la cohérence des données d’un référentiel produit lors des lancements de nouveaux produits
  • Traitement des doublons d’un annuaire d’entreprise et rapprochement des informations des employés entre la DRH et le service juridique.

Les problèmes de qualité de données le plus souvent rencontrés sont les suivants :

  • Duplication de l’information volontaire ou involontaire
  • Valeur inappropriés, invalides ou non conforme
  • Clé fonctionnelle distincte pour référencer la même donnée

Ces problèmes sont souvent dus à des erreurs de saisie de données (syntaxe, orthographe, espaces en trop…), aux différences dans les normes, terminologies ou dénominations utilisés entre les services de l’entreprise ou alors aux différences de langues. Cela peut avoir un impact et de mauvaises données entraînent de mauvaises décisions.

Avec SQL Server, Microsoft propose une solution dédiée au problème de la qualité de données : Microsoft DQS (Data Qualité Services). En plus de fonctions purement de stockage transactionnelles et décisionnelles, ce produit met au cœur de services rendus l’analyse de la qualité de l’information stockée.

  • Interface Visual Studio / BIDS : conception graphique des packages (lots)

Comment Microsoft Data Quality Services résout ces problèmes ?

INFEENY_Qualite_des_donnees_Microsoft_dqs

Le service de Qualité des données (DQS) effectue un rapprochement de données en comparant chaque ligne de données source aux  données existantes déjà « entrainées » dans une base de connaissances et en produisant une probabilité pour que les lignes soient similaires (des valeurs équivalentes, mais saisies dans un format ou un style différent sont alors unifiées). Cette étape est majeure dans un projet de qualité des données, il est préférable de l’effectuer après le nettoyage des données, de sorte que les données rapprochées soient valides et les autres rejetées dans une table d’erreurs.

DQS fournit aussi des fonctionnalités pour réduire la duplication des données et améliorer la précision des données provenant d’une source de données.

Ces fonctionnalités peuvent être utilisées au travers d’une application riche par son interface utilisateur « DQS Client » ou bien d’un composant SSIS.

Un suivi de l’activité de qualité est également possible dans l’outil DQS Client ainsi que la possibilité d’afficher des rapports d’analyse sur les données sources pour connaître leurs degrés de qualité.

Enfin, des services complémentaires payants sont disponibles pour enrichir la gestion de la qualité, ils sont facilement ineterfaçables à DQS. Par exemple, le service « Address Check » qui est relié à une base d’adresses uniques et normalisées (pour l’instant américaine), permet la vérification d’adresses postales.