Microsoft m'a vraiment impressionné avec Power BI. Ils travaillent très dur pour l'améliorer en effectuant des mises à jour hebdomadaires du service Power BI et des mises à jour mensuelles du bureau Power BI.
L'une des récentes mises à jour du bureau Power BI est la version GA de la possibilité d'utiliser R comme source de données. Beaucoup ont recommandé d'utiliser cette option pour stocker vos données avant de les importer dans Power BI via l'un des nombreux algorithmes de science des données disponibles dans R. C'est un excellent cas d'utilisation. Mais à part cela, je recommande de l'utiliser comme une alternative viable pour effectuer des tâches de manipulation de données difficiles que M n'est pas équipé pour gérer efficacement. Voici 4 situations où R peut être une meilleure option que M dans Power BI pour le traitement des données :
1. Quand pouvez-vous bénéficier de l'exploitation d'un package de litige de données sur CRAN ?
deux. Lorsque vous devez tirer parti des expressions régulières
3. Lorsque vous souhaitez créer un tableau de dimensions de date à la volée
4. Lorsque vous souhaitez enregistrer des informations sur vos téléchargements de données
Quand pouvez-vous bénéficier de l'exploitation d'un package de litige de données sur CRAN ?
Nous savons déjà à quel point R est génial pour la science des données. Mais peu de gens savent qu'il est également idéal pour le type de traitement de données nécessaire à la préparation de vos données pour Power BI. R est un langage plus mature que M et a une plus grande communauté d'utilisateurs que M. De nombreux brillants développeurs R ont écrit des packages qui ajoutent aux capacités de R.
En se référant à ce qui peut être fait dans iOS, Apple dit souvent qu'il existe une "application" pour cela. De même, lorsque les développeurs R font référence à ce qui peut être fait dans R, nous disons souvent qu'il existe un "package" pour cela. Par exemple :
– Si l'on a besoin de récupérer des données sur le Web, il existe des packages pour cela (rvest, httr, rcurl et autres)
– Si vous avez besoin d'effectuer des transformations compliquées sur vos données, il existe des packages pour cela (dplyr, tidyr, lubrdiate, stringr et autres)
– Si vous avez besoin d'extraire des données de sources de données SQL ou NoSQL, il existe des packages pour cela (RODBC, SparkR, RMongo, RHadoop et autres).
– Si l'on a besoin de travailler avec des données XML ou JSON, il existe également des packages pour cela (XML, jsonlite et autres).
Lorsque vous devez tirer parti des expressions régulières
Les données sont très précieuses. Certains les appellent le nouvel or. Comme l'or, vous devez les nettoyer ou les purifier pour les rendre utilisables. Souvent, les méthodes que vous utilisez pour nettoyer vos données sont simples et des outils comme Power Query suffisent. Mais parfois, vos données sont très sales ou dans un format compliqué. Dans la plupart de ces cas, un code M personnalisé suffira. Mais il y a des cas où ce ne sera pas le cas.
Disons que vos données sont dans un format difficile à analyser car il n'y a pas de délimiteur unique que vous pouvez utiliser. Mais s'il existe un modèle clair qui peut être utilisé pour analyser vos données, vous pourriez bénéficier des expressions régulières. Malheureusement, les expressions régulières ne sont pas disponibles en M mais elles le sont en R.
Lorsque vous souhaitez créer un tableau de taille de date à la volée
Il existe plusieurs façons de saisir une table de taille de date dans Power BI. Vous pouvez en récupérer un à partir de votre entrepôt de données, vous pouvez en créer un à la volée à l'aide de Power Query et de M, et vous pouvez en créer un à la volée à l'aide de DAX.
Un moyen moins connu consiste à utiliser R et à tirer parti du package "lubrifier" créé par mon développeur de packages R préféré, Hadley Wickham. Voici le lien vers mon référentiel GitHub montrant un exemple d'utilisation de R et du package lubridate pour créer un tableau de dimensions de date.
Le package lubridate contient de nombreuses fonctions de date faciles à utiliser et très indulgentes qui peuvent être utilisées pour créer des attributs de date pour votre tableau de dimensions de date. Prenons l'exemple de la fonction "ymd". Cette fonction renvoie la représentation de la date du texte qui lui est transmis, qui peut être interprétée comme un format année-mois-jour. Les exemples de code suivants renvoient la date du 11 août 2016 : ymd(20160811), ymd("2016 August 1") et ymd(160811). Incroyable! C'est un moment où il faut lâcher le micro! MDR. M n'est pas aussi facile et n'est pas aussi indulgent. Le package de lubrification a également des fonctions qui gèrent les fonctions d'année ISO, de semaine ISO et de jour ISO, donc en utilisant R, vous pouvez facilement ajouter ces attributs de date à votre table de taille de date. Cette fonctionnalité n'est pas disponible nativement dans M.
Notez que dans l'exemple de code que j'ai inclus dans le référentiel, j'ai pu utiliser le package 'rvest' pour gratter un site Web pour les jours fériés fédéraux et ajouter ces informations en tant qu'attribut à ma table de dimension de date. Vous pouvez probablement faire la même chose dans Power Query, mais c'était plus intuitif pour moi de le faire dans R.