Zooms

Comment ChatGPT aide à écrire de meilleurs modèles de données dbt

Tribune d'expert / 27 novembre 2023

Comment les équipes d'ingénieurs analytiques utilise ChatGPT pour écrire les packages dbt les plus efficaces pour les cas d'utilisation analytiques les plus courants.

Quel est le secret ? Bien que les modèles de données nécessitent beaucoup de travail manuel et de collaboration, une partie de ce travail a été mise à l'échelle à l'aide de ChatGPT. En effet, l'outil d'IA naissant qui révolutionne le monde des affaires et domine la conversation nationale aide également à modéliser les données.

Voici quelques façons d’utiliser ChatGPT pour la création de modèle de données dbt :

Documentation et recherche des descriptions des colonnes

Lors du développement de nouveaux modèles de données - et de la mise à jour de modèles existants - beaucoup de temps est nécessaire pour documenter les tables et les champs de la couche de données brutes. Il s'agit d'un processus lourd, qui nécessite beaucoup de recherches.

Cependant, l'avènement de l'IA a permis de rationaliser ce processus en générant une quantité importante de définitions de données sources (et même des tests d'intégrité des données) en interagissant avec ChatGPT. Il est possible de fournir des schémas de sources de données à ChatGPT directement et de lui demander de générer un yml à saveur de dbt qui documente les tables et les champs définis. ChatGPT est capable de générer ce yml en s'appuyant sur les documents de l'API des destinations sources.

Un processus qui aurait pris beaucoup plus de temps dans le passé est maintenant automatisé en quelques minutes. Ce temps est réattribué à la recherche et la conception à la validation des résultats. Cela permet de passer plus de temps à travailler sur les transformations de données et à comprendre les données brutes qu'à passer méticuleusement au peigne fin la documentation de l'API.

Création de scripts python pour aider à automatiser les efforts de maintenance

L'IA est très utile lorsque vous avez une connaissance de base d'un sujet mais que vous manquez d'expertise pour accomplir des tâches spécifiques sans une bonne dose de recherche. L'IA peut vous aider dans cette recherche et la réaliser en une fraction du temps.

Grâce à l'IA, il est possible de poser des questions simples et obtenir un code et commencer à le tester en quelques minutes. Il est également possible de poser des questions complémentaires si les résultats ne sont pas satisfaisants ou si le résultat n’est pas compréhensible.

Aide à la construction de transformations SQL complexes

Beaucoup de gens sont familiers avec la philosophie de débogage du canard en caoutchouc (rubber duck debugging). Il s'agit d'une méthode qui consiste à placer un canard en caoutchouc sur votre bureau et à lui expliquer votre code. En expliquant le code, vous êtes en mesure de trouver des points de réalisation où vous devez ajuster ou mettre à jour votre code pour qu'il soit plus précis et plus performant.

Il existe un nouvel équivalent du ChatGPT qu’on appelle "robot duck debugging". Avec cette méthode, les sessions avec ChatGPT sont comparables à celle avec un canard en caoutchouc bien réel qui se trouve sur votre bureau. Il faut repasser en revue le code et l’expliquer en détail, tout en soulignant ce qu’on essaie d'obtenir avec le résultat.

ChatGPT est extrêmement utile pour travailler sur des codes et des solutions complexes. Il est important de noter que ChatGPT peut parfois aller trop vite et suggérer des solutions qui ne sont pas pratiques. Il est plus efficace de corriger le canard du robot et de l'entraîner pour qu'il reste sur la bonne voie.

Comprendre les résultats commerciaux de modèles de données spécifiques

Lors de l'élaboration de nouveaux modèles de données, les équipes d'analystes mène des entretiens avec les clients afin de comprendre le cas d'utilisation de leurs données sources pour l'analyse commerciale.

Heureusement, ChatGPT est en mesure d’aider à mettre à l'échelle des connaissances commerciales supplémentaires. Avec une simple requête, l’exploitation de l'ensemble de l'histoire d'Internet pour comprendre les problèmes et les questions que les autres ont rencontrés lorsqu'ils ont utilisé une certaine source de données vous est possible.

Aide à la compatibilité entre bases de données

Il est normal de s’assurer que les modèles de données que nous créons sont utiles à toutes les organisations, quel que soit le data warehouse déployé. Lors de la construction des modèles, il existe des différences nuancées entre les entrepôts que dbt n'a pas de fonction comme dbt.type pour gérer automatiquement. Les warehouse utilisant des données JSON ont des méthodes similaires de traitement des données, mais la syntaxe varie d'un warehouse à l'autre.

Ainsi, lors de la modélisation de modèles, il est possible de demander à ChatGPT, "Comment puis-je rendre le code ci-dessous compatible avec ce modèle ?" Même s'il ne donne pas la réponse exacte, il oriente dans la bonne direction.

L'utilisation de l'IA pour vous aider à obtenir les meilleures tables prêtes pour l'analyse

L'IA générative comme ChatGPT est en passe de devenir une fantastique aide à la productivité pour tous ceux qui créent du contenu pour vivre - code, texte, images et autres. Bien que ChatGPT ne puisse pas encore créer des modèles de données à partir de zéro, il aide certainement à publier et à mettre à jour plus efficacement des modèles pour des cas d'utilisation les plus nécessaires. Ces modèles sont gratuits et accessibles à tous.

Par Juliette Guin, experte en data integration chez Fivetran

0
commentaire

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.