Qu'est-ce que Data Analytics?
L'analyse de données est un processus permettant de découvrir des informations clés et des conclusions précieuses à partir d'une énorme quantité de données collectées ou collectées à partir de diverses sources pour soutenir la prise de décision. Puissance de calcul accrue, vitesse de traitement élevée. L'arrivée d'interfaces utilisateur final interactives et l'efficacité prouvée du paradigme de l'informatique distribuée pour gérer de gros morceaux de données ont fait progresser l'analyse des données dans tous les domaines, en particulier dans la vente au détail, la banque, les soins de santé, la logistique, la défense, l'administration publique, etc.
Types d'analyses de données
Le processus d'analyse des données est subjectivement classé en trois types en fonction de l'objectif de l'analyse des données
- Analytique descriptive
- Analyses prédictives
- Analyses normatives
Les fonctionnalités des types d'analyses répertoriés ci-dessus sont décrites ci-dessous:
1. Analyse descriptive
Descriptive Analytics se concentre sur la synthèse des données passées pour en déduire des inférences. Les mesures les plus couramment utilisées pour caractériser quantitativement la distribution des données historiques comprennent
- Mesures de tendance centrale - Moyenne, médiane, quartiles, mode.
- Mesures de variabilité ou de propagation - Gamme, Gamme inter-quartile, Centiles.
Ces derniers temps, les difficultés et les limites liées à la collecte, au stockage et à la compréhension de tas de données massifs sont surmontées grâce au processus d'inférence statistique. Les inférences généralisées sur les statistiques des ensembles de données sur la population sont déduites en utilisant des méthodes d'échantillonnage ainsi que l'application de la théorie de la limitation centrale.
Un important diffuseur de nouvelles rassemble les détails des votes des électeurs choisis au hasard à la sortie d'un bureau de scrutin le jour du scrutin afin de tirer des conclusions statistiques sur les préférences de l'ensemble de la population.
L'échantillonnage répété de l'ensemble de données sur la population donne des morceaux d'échantillons avec une taille d'échantillon suffisamment grande. L'échantillonnage en grappes est généralement préféré pour générer des représentants bien stratifiés et impartiaux de l'ensemble de données sur la population. La mesure statistique d'intérêt est calculée sur les blocs de données échantillonnés pour obtenir une distribution des valeurs statistiques de l'échantillon appelée distribution d'échantillonnage. Les caractéristiques de la distribution d'échantillonnage sont liées à celles de l'ensemble de données sur la population en utilisant la théorie de la limitation centrale.
2. Analytique prédictive
Predictive Analytics exploite les modèles des données historiques ou passées pour estimer les résultats futurs, identifier les tendances, découvrir les risques et opportunités potentiels ou prévoir le comportement des processus. Comme les cas d'utilisation des prévisions sont de nature plausible, ces approches utilisent des modèles probabilistes pour mesurer la probabilité de tous les résultats possibles.
Le chatBot dans le portail de service client de la société financière apprend de manière proactive l'intention du client ou doit être basé sur ses activités passées dans son domaine Web. Avec le contexte prévu, chatBot converse de manière interactive avec le client pour fournir rapidement des services adaptés et obtenir une meilleure satisfaction client.
En plus des scénarios d'extrapolation pour prédire ce qui se passera dans le futur en fonction des données passées disponibles, il existe peu d'applications qui devinent les entrées de données manquées à l'aide des échantillons de données disponibles. Cette approximation des valeurs manquées dans la plage d'échantillons de données donnés est appelée techniquement interpolation.
Une puissante application d'édition d'image prend en charge la reconstruction des parties manquantes de la texture en raison du texte superposé en interpolant la fonction de fonction sur le bloc manquant. La fonction caractéristique peut être interprétée comme une notation mathématique de motifs dans la texture d'une image déformée.
Les facteurs importants qui influencent le choix des modèles / stratégies prédictifs sont:
- Précision de prédiction: qui traduit le degré de proximité entre une valeur prédite et une valeur réelle. Une variance plus faible de la différence entre la valeur prédite et la valeur réelle implique une précision plus élevée du modèle prédictif.
- Vitesse des prédictions: elle est prioritaire dans les applications de suivi en temps réel
- Taux d'apprentissage du modèle: il dépend de la complexité du modèle et des calculs impliqués dans le calcul des paramètres du modèle.
3. Analyses normatives
Prescriptive Analytics utilise les connaissances découvertes dans le cadre d'une analyse descriptive et prédictive pour recommander une ligne de conduite sensible au contexte. Des techniques statistiques avancées et des méthodes d'optimisation à forte intensité de calcul sont mises en œuvre pour comprendre la distribution des prévisions estimées.
En termes précis, l'impact et le bénéfice de chaque résultat, qui sont estimés lors de l'analyse prédictive, sont évalués pour prendre des décisions heuristiques et sensibles au temps pour un ensemble donné de conditions.
Un cabinet de conseil en bourse effectue une analyse SWOT (Force, Faiblesse, Opportunités et Menace) sur les prix prévus des actions dans le portefeuille des investisseurs et recommande les meilleures options d'achat-vente à ses clients.
Flux de processus dans l'analyse de données
Le processus d'analyse des données comporte différentes étapes de traitement des données, comme expliqué ci-dessous:
1. Extraction de données
L'ingestion de données à partir de plusieurs sources de données de différents types, y compris des pages Web, des bases de données, des applications héritées, se traduit par des jeux de données d'entrée de différents formats. Les formats de données entrés dans le flux d'analyse de données peuvent être généralement classés comme
- Les données structurées ont une définition claire des types de données ainsi que la longueur ou les délimiteurs de champ associés. Ce type de données peut être facilement interrogé comme le contenu stocké dans la base de données relationnelle (SGBDR)
- Les données semi-structurées n'ont pas de définition de mise en page précise, mais les éléments de données peuvent être identifiés, séparés et regroupés sur la base d'un schéma standard ou d'autres règles de métadonnées. Un fichier XML utilise le balisage pour contenir des données tandis que le fichier de notation d'objet Javascript (JSON) contient des données dans des paires nom-valeur. Les bases de données NoSQL (non seulement SQL) comme MongoDB, mais la base de canapé sont également utilisées pour stocker des données semi-structurées.
- Les données non structurées incluent les conversations sur les réseaux sociaux, les images, les clips audio, etc. Les méthodes traditionnelles d'analyse des données ne parviennent pas à comprendre ces données. Les données non structurées sont stockées dans des lacs de données.
L'implémentation de l'analyse de données pour les données structurées et semi-structurées est intégrée dans divers outils ETL comme Ab Initio, Informatica, Datastage et des alternatives open source comme Talend.
2. Nettoyage et transformation des données
Le nettoyage des données analysées est effectué pour garantir la cohérence des données et la disponibilité des données pertinentes pour les étapes ultérieures d'un flux de processus. Les principales opérations de nettoyage dans l'analyse de données sont les suivantes:
- Détection et élimination des valeurs aberrantes dans les volumes de données
- Suppression des doublons dans l'ensemble de données
- Gestion des entrées manquantes dans les enregistrements de données avec la compréhension des fonctionnalités ou des cas d'utilisation
- Les validations des valeurs de champ autorisées dans les enregistrements de données comme «31-février» ne peuvent pas être une valeur valide dans aucun des champs de date.
Les données nettoyées sont transformées dans un format approprié pour analyser les données. Les transformations de données incluent
- Un filtre d'enregistrements de données indésirables.
- Rejoindre les données extraites de différentes sources.
- Agrégation ou regroupement de données
- Transtypage de données
3. Dérivation des KPI / Insight
L'exploration de données, des méthodes d'apprentissage en profondeur sont utilisées pour évaluer les indicateurs de performance clés (KPI) ou tirer des informations précieuses des données nettoyées et transformées. Sur la base de l'objectif de l'analyse, l'analyse des données est effectuée à l'aide de diverses techniques de reconnaissance de formes comme le clustering k-means, la classification SVM, les classificateurs bayésiens, etc. et les modèles d'apprentissage automatique comme les modèles de Markov, les modèles de mélange gaussiens (GMM), etc.
Les modèles probabilistes en phase d'apprentissage apprennent les paramètres optimaux du modèle et en phase de validation, le modèle est testé à l'aide de tests de validation croisée k-fold pour éviter les erreurs de sur-ajustement et de sous-ajustement.
Les langages de programmation les plus couramment utilisés pour l'analyse des données sont R et Python. Les deux ont un riche ensemble de bibliothèques (SciPy, NumPy, Pandas) qui sont open-source pour effectuer une analyse de données complexe.
4. Visualisation des données
La visualisation des données est le processus de présentation claire et efficace des modèles découverts, des conclusions dérivées des données à l'aide de graphiques, de graphiques, de tableaux de bord et de graphiques.
- Les outils de rapport de données comme QlikView, Tableau etc., affichent les KPI et autres mesures dérivées à différents niveaux de granularité.
- Les outils de création de rapports permettent aux utilisateurs finaux de créer des rapports personnalisés avec des options de pivotement et d'exploration en utilisant des interfaces conviviales de glisser-déposer
- Des bibliothèques de visualisation de données interactives comme D3.js (documents pilotés par les données), HTML5-Anycharts etc. sont utilisées pour augmenter la capacité d'explorer les données analysées
Articles recommandés
Cela a été un guide sur Qu'est-ce que Data Analytics. Ici, nous avons discuté des différents types d'analyse de données avec le flux de processus. Vous pouvez également consulter d'autres articles suggérés pour en savoir plus -
- Questions et réponses d'entretiens pour le poste de Data Analyst
- Qu'est-ce que la visualisation des données?
- Qu'est-ce que l'analyse Big Data?
- Qu'est-ce que Minitab?