Description
De RVA heeft recent een Modern Data Platform (MDP) opgezet als center of excellence voor meerdere datateams. Het platform bestaat uit:
Data ingestion: Airbyte
Orchestratie: Dagster (of vergelijkbare orchestrator)
Transformaties: dbt
Lakehouse: Databricks
Visualisatie: Power BI
Metadata: OpenMetadata
Het directieteam vraagt een centrale monitoring-oplossing om het gebruik en de performantie van het MDP op te volgen (uptime, fouten, gebruik, kosten, …). Deze opdracht wordt opgesplitst in verschillende fases.
Doel voor de fase Data ingestion & integratie:
Alle noodzakelijke monitoring-data technisch ontsluiten en centraal beschikbaar maken in het Databricks lakehouse, op basis van de analyse van fase 1.
Taken:
Implementeren van data‑ingestieflows voor alle geselecteerde bronnen:
Opzetten en configureren van Airbyte connectors (standaard en/of custom)
Opzetten van API‑calls naar de verschillende tools (Airbyte, Dagster, dbt, Databricks, OpenMetadata, …)
Implementeren van authenticatie en verbindingen:
API keys, service principals, VPN/ netwerkconfiguratie indien nodig
Laden van ruwe monitoring-data in Databricks (bronlagen / raw zones)
Modelleren en transformeren van data:
Unnesting / exploderen van JSON‑structuren
Bouwen van genormaliseerde en geaggregeerde tabellen voor monitoring
Eventueel gebruik van dbt voor transformaties
Zorgen voor herhaalbare, robuuste pipelines (logging, foutafhandeling, herstartbaarheid)
Overdracht & documentatie naar het dashboarding-profiel:
Duidelijke beschrijving van tabellen, kolommen, refresh-logica en afhankelijkheden
Profiel:
Ervaring als Data Engineer met:
Data ingestion via Airbyte (idealiter ook custom connectors)
Werken met Databricks (Delta Lake, notebooks, SQL/PySpark)
API‑integraties (REST, JSON) en basis netwerkconcepten
Kennis van dbt is een sterke troef
Ervaring met het opzetten van monitoring-/loggingpijplijnen is een plus, evenals certificering DataCamp – Data Analyst Associate en dbt Fundamentals
Samen met je CV vragen we om het antwoord op onderstaande vraag mee op te sturen. Het niet indienen van een antwoord of indien de antwoorden onvoldoende zijn maakt dat de kandidaat niet weerhouden zal worden: Hoe heb je in het verleden gewerkt met Airbyte en Databricks? Geef een concreet voorbeeld.
