Le big data est un terme utilisé pour désigner un ensemble de données si volumineux et complexe qu'il est difficile à traiter avec des applications/outils traditionnels. Il s'agit de données supérieures à des téraoctets. En raison de la variété des données qu'elles englobent, les mégadonnées posent toujours une série de défis liés à leur volume et à leur complexité. Selon une étude récente, 80% des données créées dans le monde ne sont pas structurées. L'un des enjeux est de structurer ces données non structurées, avant d'essayer de comprendre et de capter les données les plus importantes. Un autre défi est de savoir comment les stocker. Ce sont les principaux outils utilisés pour stocker et analyser le Big Data. On peut les classer en deux catégories (stockage et requête/analyse).
1. Apache Hadoop Apache Hadoop est un framework logiciel gratuit basé sur Java qui peut stocker efficacement de grandes quantités de données sur un cluster. Ce framework s'exécute en parallèle sur un cluster et a la capacité de nous permettre de traiter les données sur tous les nœuds. Hadoop Distributed File System (HDFS) est le système de stockage de Hadoop qui partitionne les données volumineuses et les distribue sur plusieurs nœuds d'un cluster. Cela réplique également les données sur un cluster, offrant une haute disponibilité.
2. Microsoft HDInsight Il s'agit d'une solution Microsoft Big Data alimentée par Apache Hadoop qui est disponible en tant que service cloud. HDInsight utilise le stockage d'objets blob Windows Azure comme système de fichiers par défaut. Il permet également une haute disponibilité à faible coût.
3. NoSQL Alors que le SQL traditionnel peut être utilisé efficacement pour traiter une grande quantité de données structurées, nous avons besoin de NoSQL (pas seulement SQL) pour traiter les données non structurées. Les bases de données NoSQL stockent des données non structurées sans schéma particulier. Chaque ligne peut avoir son propre ensemble de valeurs de colonne. Les bases de données NoSQL offrent de meilleures performances pour le stockage de quantités massives de données. Il existe de nombreuses bases de données NoSQL open source disponibles pour analyser le Big Data.
4.Hive It est une gestion de données distribuée pour Hadoop. Il prend en charge l'option de requête de type SQL HiveSQL (HSQL) pour accéder au Big Data. Il peut être utilisé principalement à des fins d'exploration de données. Il fonctionne sur Hadoop.
5. Sqoop est un outil qui connecte Hadoop à diverses bases de données relationnelles pour transférer des données. Cela peut être utilisé efficacement pour transférer des données structurées vers Hadoop ou Hive.
6. PolyBase s'exécute au-dessus de SQL Server 2012 Parallel Data Warehouse (PDW) et est utilisé pour accéder aux données stockées dans PDW. PDW est une appliance d'entrepôt de données conçue pour gérer n'importe quel volume de données relationnelles et fournit une intégration avec Hadoop, nous permettant également d'accéder à des données non relationnelles.
7. Big data dans EXCEL Étant donné que de nombreuses personnes sont à l'aise pour effectuer des analyses dans EXCEL, un outil populaire de Microsoft, vous pouvez également connecter des données stockées dans Hadoop à l'aide d'EXCEL 2013. Hortonworks, qui se concentre principalement sur la fourniture d'Apache Hadoop aux entreprises, offre une option pour accéder aux données volumineuses stockées sur votre plate-forme Hadoop à l'aide d'EXCEL 2013. Vous pouvez utiliser la fonction Power View d'EXCEL 2013 pour résumer facilement les données. De même, HDInsight de Microsoft nous permet de nous connecter aux données volumineuses stockées dans le cloud Azure via une puissante option de requête.
8. Presto Facebook a développé et récemment ouvert son moteur de requête (SQL sur Hadoop) appelé Presto, qui est conçu pour gérer des pétaoctets de données. Contrairement à Hive, Presto ne s'appuie pas sur la technique MapReduce et peut récupérer rapidement des données.