Technologie utilisée :
Au cours des trois premiers jours de mise en œuvre de Data Rocket, les clients passent de zéro (aucune mise en œuvre de Talend ou de Snowflake) à la configuration dans Snowflake Data Cloud avec des millions de lignes de données. Pour David Adams, ingénieur en données de Passerelle, qui travaille dans ce domaine depuis 35 ans, Data Rocket est tout simplement révolutionnaire.
« Pour y arriver à partir de zéro, il aurait fallu de nombreux membres expérimentés de l’équipe et énormément de temps, nous parlons de plusieurs mois » a déclaré David.
En tout, l’installation et la configuration de Data Rocket prennent environ six heures. Les ingénieurs de Passerelle créent un compte Snowflake et personnalisent les scripts pour la première source de données. Les scripts incluent les rôles, les bases de données, les schémas, les tableaux et toutes les mesures qui seront utilisées dans les tableaux de bord de Data Rocket.
Une fois le paramétrage de Snowflake terminé, un compte Talend Cloud est créé et configuré; les ingénieurs créent des utilisateurs et attribuent des autorisations, et créent des environnements, des espaces de travail, des projets et des moteurs distants.
Avec les identifiants Snowflake et Talend en main, et les comptes configurés, les données peuvent commencer à être extraites d’une source de données dans Snowflake Data Cloud. Les ingénieurs utilisent le cadre d’ingestion dynamique de données de Data Rocket pour tester le premier ensemble de données.
First, a Passerelle engineer configures Metadata from the data source. Data Rocket SQL scripts accelerate populations of Metadata information. A scheduled Talend Job refers to Metadata and extracts data from the associated source system, ingesting it into the transient staging layer of the Snowflake database. The Data Source could be a relational database, files or REST API. In a recent implementation, Passerelle engineers ingested millions of rows of data from one table. While it took two hours to query the data from the source database, Snowflake ingests the data in a matter of seconds.
Une fois les données intégrées dans Snowflake Data Cloud, Data Rocket effectue automatiquement des contrôles de qualité des données et le masquage des données. Après avoir terminé le chargement des données dans la couche transitoire, la tâche Talend déclenche le processus de chargement de la couche persistante, au cours duquel les données nouvellement chargées sont comparées aux données existantes chargées dans la couche persistante et un historique de l’instantané des données est créé.
En fonction de la comparaison, les données sont chargées de l’une des trois manières suivantes :
La tâche Talend compare également les nouvelles données avec les données historiques (déjà ingérées) afin de détecter tout changement. Snowflake effectue des mises à jour dynamiques, y compris les colonnes nouvelles ou supprimées, les changements de tableau, les changements de type ou de structure de données, en utilisant des composants Talend orchestrés par la tâche Dynamic Data Ingestion.
20 heures avec Data Rocket
Après 20 heures de travail avec Data Rocket, une entreprise sans architecture de données préalable peut commencer à travailler avec des données brutes provenant d’un système source, au moyen d’un cadre reproductible qui peut être utilisé encore et encore. Au cours du premier mois d’adoption de Data Rocket, des modules supplémentaires sont mis en œuvre, notamment des tableaux de bord personnalisés sur la qualité des données, un cadre d’audit et de contrôle et un accélérateur de sécurité des données.