{"id":466,"date":"2025-05-20T20:08:56","date_gmt":"2025-05-20T20:08:56","guid":{"rendered":"https:\/\/devopsopen.com\/?p=466"},"modified":"2025-09-25T15:37:44","modified_gmt":"2025-09-25T15:37:44","slug":"architecture-et-patterns-data","status":"publish","type":"post","link":"https:\/\/devopsopen.com\/index.php\/2025\/05\/20\/architecture-et-patterns-data\/","title":{"rendered":"Architecture et patterns Data"},"content":{"rendered":"<h1>Pattern Data<\/h1>\n<h2>DataBoks<\/h2>\n<ul>\n<li>Trino: the definitve Guide (Startburst)<br \/>\nPerform fast interactive analytics against different data sources using the Trino high performance distributed SQL query engine<\/li>\n<\/ul>\n<p>-Delta Lake up &amp; Running (Databricks)<\/p>\n<ul>\n<li>The Data Lakehouse dummies<\/li>\n<li>The data LakeHouse Platforme dummies<\/li>\n<li>Apache Iceberg the definitive Guide (dremio)<\/li>\n<li>Quick Guide to The Apache Iceberg Lakehouse<\/li>\n<li>Data mesh<\/li>\n<li>K8S operator <\/li>\n<\/ul>\n<h2>Flexible LakeHouse<\/h2>\n<p>offre de service Flexible Lakehouse est utilis\u00e9 par les clients pour ex\u00e9cuter des t\u00e2ches de traitement de donn\u00e9es distribu\u00e9es \u00e0 grande \u00e9chelle, des requ\u00eates SQL et des applicationsde maching learning \u00e0 l'aide du frameworks  opensource apache spark<\/p>\n<p>le flexiblehouse sert \u00e0 s\u00e9parer le moteur SQL et le stockage<\/p>\n<p>Ref: <a href=\"https:\/\/www.databricks.com\/research\/lakehouse-a-new-generation-of-open-platforms-that-unify-data-warehousing-and-advanced-analytics\">https:\/\/www.databricks.com\/research\/lakehouse-a-new-generation-of-open-platforms-that-unify-data-warehousing-and-advanced-analytics<\/a><\/p>\n<p><a href=\"https:\/\/www.databricks.com\/sites\/default\/files\/2020\/12\/cidr_lakehouse.pdf\">https:\/\/www.databricks.com\/sites\/default\/files\/2020\/12\/cidr_lakehouse.pdf<\/a><\/p>\n<h2>DataWareHouse (entrep\u00f4t)<\/h2>\n<p>Le datawarehouse est une base de donn\u00e9es relationnelle con\u00e7ue pour les requ\u00eates analytiques<br \/>\nD\u00e9fini par Bill Immon comme un r\u00e9f\u00e9rentiel centralis\u00e9 :<\/p>\n<p>Le datawarehouse est encadr\u00e9 par 4 principes :<\/p>\n<ul>\n<li>Orionet\u00e9 sujet : les donn\u00e9es y sont organis\u00e9es par th\u00e8me (marketing, ventes, inventaire, ressource humaine...)<\/li>\n<li>Int\u00e9gr\u00e9 : les donn\u00e9es h\u00e9t\u00e9rog\u00e8nes provenant de sources disparates sont int\u00e9gr\u00e9es de mani\u00e8re coh\u00e9rente et pr\u00eates \u00e0 \u00eatre utilis\u00e9es<\/li>\n<li>Non volatiles : les donn\u00e9es ne sont pas modifi\u00e9es ou supprim\u00e9es<\/li>\n<li>Chronologique: un datawarehouse doit permettre d'analyser l'\u00e9volution d'une donn\u00e9es dans le temps gra\u00e7ce \u00e0 une historisation<\/li>\n<\/ul>\n<p>Solution : Terradata<\/p>\n<h2>DataMart<\/h2>\n<p>Un \u00ab data mart \u00bb est une base de donn\u00e9es dont le contenu est en rapport avec une activit\u00e9 de l'entreprise et qui est cr\u00e9\u00e9e pour r\u00e9pondre aux besoins sp\u00e9cifiques d'un groupe d'utilisateurs. Il s'agit souvent (mais pas toujours) d'un segment partitionn\u00e9 dans le data warehouse de l'entreprise<\/p>\n<p>Solution : table dans terradata ou postgresql<\/p>\n<h2>DataLake<\/h2>\n<p>Un lac de donn\u00e9es est une m\u00e9thode de stockage de donn\u00e9es massives utilis\u00e9e par le big data. Ces donn\u00e9es sont gard\u00e9es dans leurs formats originaux ou sont tr\u00e8s peu transform\u00e9es<\/p>\n<p>Solution : Cloudera, Hadoop<br \/>\n=&gt; Cloudera : quelle est la diff\u00e9rence ? Apache Hadoop est une technologie de traitement de donn\u00e9es gratuite et open source qui utilise un r\u00e9seau d'ordinateurs pour traiter des donn\u00e9es volumineuses via le mod\u00e8le de programmation MapReduce. Cloudera propose une plateforme commerciale bas\u00e9e sur Hadoop, accessible par abonnement payant<\/p>\n<h2>DataRoom<\/h2>\n<p>un espace digitale ou un site ou on peut partager des fichiers des donn\u00e9es.<\/p>\n<p>Use case : une soci\u00e9t\u00e9 veut partager des fichiers avec des partenaires externes sans leur donner l'acc\u00e8s au SI<\/p>\n<p>Solution : DataSite, VDR (Citrix ou)<\/p>\n<h2>DataLayer<\/h2>\n<p>DataLayer est  une structure de donn\u00e9es qui contient id\u00e9alement toutes les donn\u00e9es que l'on souhaite traiter et transmettre d'un site site web \u00e0 d'autres applications int\u00e9grant votre \u00e9cosyst\u00e8me digital<\/p>\n<p>Usecase: Dans un SI, les donn\u00e9es sont organis\u00e9es dans des domaines et chaque domaine est responsable de ses applications. il se trouve qu'une application a besoin d'une agregation et affichage en temps r\u00e9el de ces donn\u00e9es. le fait que cette application appelle plusieurs sources de donn\u00e9es peut cr\u00e9er des probl\u00e8mes de latances, int\u00e9grit\u00e9 de donn\u00e9es... La solution est de pr\u00e9parer une base de donn\u00e9es qui est alliment\u00e9e avec une fr\u00e9quence d\u00e9termin\u00e9e par batch ou CDC.... et avec une vue adapt\u00e9e \u00e0 l'application. <\/p>\n<h2>DataGateway<\/h2>\n<p>Une Data Gateway en Big Data est un point d\u2019entr\u00e9e ou un proxy s\u00e9curis\u00e9 entre des sources de donn\u00e9es (ou producteurs) et les syst\u00e8mes analytiques (ou consommateurs).<br \/>\nElle permet de g\u00e9rer, filtrer, transformer, s\u00e9curiser ou monitorer les flux de donn\u00e9es avant qu\u2019ils n'atteignent les syst\u00e8mes de stockage ou de traitement<\/p>\n<p>La fonction :   Ingestion, filtrage, s\u00e9curit\u00e9, contr\u00f4le d'acc\u00e8s<\/p>\n<p>Exemple d'architecture:<br \/>\n[Sources de donn\u00e9es]<br \/>\n\u2193<br \/>\n[Data Gateway] \u2190 (auth, filtres, logs, quotas)<br \/>\n\u2193<br \/>\n[Kafka \/ Data Lake \/ Stream Processor]<br \/>\n\u2193<br \/>\n[Data Warehouse \/ Data Lake \/ Analytics Tools]<\/p>\n<p>Solutions :Apache NiFi, Fluentd, API Gateway, Knox, Kafka Connect<\/p>\n<h2>DataHub<\/h2>\n<p>Plateforme centrale de partage, gouvernance et diffusion des donn\u00e9es<\/p>\n<p>La fonction : Mise en commun, catalogage, publication et d\u00e9couverte des donn\u00e9es<\/p>\n<p>UseCase: <\/p>\n<ul>\n<li>Un analyste cherche un dataset client dans le catalogue.<\/li>\n<li>Il consulte sa description, son owner, son sch\u00e9ma, sa qualit\u00e9.<\/li>\n<li>Il demande l\u2019acc\u00e8s ou l\u2019importe dans un notebook Spark.<\/li>\n<\/ul>\n<p>Solutions: DataHub (LinkedIn), Talend Data Fabric, SAP Data Hub, Atlan<\/p>\n<h2>DataCatalog<\/h2>\n<p>Un Data Catalog est comme un &quot;Google interne&quot; pour toutes les donn\u00e9es de l'entreprise : il te dit ce qu\u2019il y a, o\u00f9 c\u2019est, \u00e0 quoi \u00e7a sert, et qui peut l\u2019utiliser. Le datacatalog est \ud83e\udde0 Cl\u00e9 pour les approches data-driven, gouvernance et data mesh<\/p>\n<p>Les fonctions:<\/p>\n<ul>\n<li>Recherche de donn\u00e9es : Trouver des datasets via mots-cl\u00e9s, tags, colonnes, description, etc.<\/li>\n<li>Documentation \/ m\u00e9tadonn\u00e9es: Stocke les infos sur les donn\u00e9es : type, origine, format, propri\u00e9taire\u2026<\/li>\n<li>Gouvernance des donn\u00e9es: G\u00e8re les r\u00f4les, les acc\u00e8s, la confidentialit\u00e9, les politiques RGPD\/DAM.<\/li>\n<li>Lineage des donn\u00e9es: Visualise le flux des donn\u00e9es : d\u2019o\u00f9 elles viennent, o\u00f9 elles vont<\/li>\n<li>Notation \/ qualit\u00e9: Indique la qualit\u00e9 per\u00e7ue ou mesur\u00e9e d\u2019un dataset (notes, validation)<\/li>\n<li>Collaboration: Permet de commenter, annoter, partager des jeux de donn\u00e9es<\/li>\n<\/ul>\n<p>UseCase:<\/p>\n<ul>\n<li>Tu es data analyst et tu veux trouver un dataset clients fiable ? \u2192 Tu le recherches dans le catalogue.<\/li>\n<li>Tu es data steward et tu veux documenter les colonnes sensibles d\u2019une table ? \u2192 Tu le fais dans le catalogue.<\/li>\n<li>Tu veux savoir si une donn\u00e9e est encore \u00e0 jour ou qui l\u2019a modifi\u00e9e ? \u2192 Le catalogue te montre son lineage.<\/li>\n<\/ul>\n<p>Les solutions:<\/p>\n<table>\n<thead>\n<tr>\n<th>Outils open source<\/th>\n<th>Outils commerciaux<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td><strong>DataHub<\/strong> (LinkedIn)<\/td>\n<td><strong>Collibra<\/strong><\/td>\n<\/tr>\n<tr>\n<td><strong>Amundsen<\/strong> (Lyft)<\/td>\n<td><strong>Alation<\/strong>, <strong>Informatica<\/strong><\/td>\n<\/tr>\n<tr>\n<td><strong>OpenMetadata<\/strong><\/td>\n<td><strong>Google Data Catalog<\/strong><\/td>\n<\/tr>\n<tr>\n<td><strong>Metacat<\/strong><\/td>\n<td><strong>Microsoft Purview<\/strong><\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<h2>Data Factory<\/h2>\n<p>D\u00e9finition technique :<br \/>\nETL (Extract, Transform, Load) moderne qui permet de :<\/p>\n<pre><code>Connecter plusieurs sources de donn\u00e9es (bases SQL, fichiers, APIs, etc.).\n\nTransformer les donn\u00e9es.\n\nCharger les donn\u00e9es dans des entrep\u00f4ts ou des data lakes.\n\nOrchestrer des flux de donn\u00e9es (pipelines).<\/code><\/pre>\n<p>D\u00e9fintion Organisationnelle:<br \/>\nIl s'agit d'une structure d\u00e9di\u00e9e aux projets data, regroupant des experts tels que :<\/p>\n<pre><code>Data Engineers (ing\u00e9nieurs de donn\u00e9es)\n\nData Scientists\n\nData Analysts\n\nArchitectes Data\n\nChefs de projets Data<\/code><\/pre>\n<p>Elle a pour mission de :<\/p>\n<pre><code>Industrialiser les traitements de donn\u00e9es.\n\nCr\u00e9er des pipelines de donn\u00e9es (collecte, transformation, stockage).\n\nMettre \u00e0 disposition des jeux de donn\u00e9es fiables pour les m\u00e9tiers.\n\nSoutenir les projets d\u2019intelligence artificielle et de business intelligence.<\/code><\/pre>\n<p>En r\u00e9sum\u00e9 :<\/p>\n<pre><code>Data Factory (organisation) : une \"usine \u00e0 donn\u00e9es\" interne \u00e0 une entreprise.\n\nData Factory (outil) : une solution logicielle pour automatiser les flux de donn\u00e9es.<\/code><\/pre>\n","protected":false},"excerpt":{"rendered":"<p>Pattern Data DataBoks Trino: the definitve Guide (Startburst) Perform fast interactive analytics against different data sources using the Trino high performance distributed SQL query engine -Delta Lake up &amp; Running (Databricks) The Data Lakehouse dummies The data LakeHouse Platforme dummies Apache Iceberg the definitive Guide (dremio) Quick Guide to The Apache Iceberg Lakehouse Data mesh K8S operator Flexible LakeHouse offre de service Flexible Lakehouse est utilis\u00e9 par les clients pour ex\u00e9cuter des t\u00e2ches de traitement de donn\u00e9es distribu\u00e9es \u00e0 grande \u00e9chelle, des requ\u00eates SQL et des applicationsde maching learning \u00e0 l&#8217;aide du frameworks opensource apache spark le flexiblehouse sert \u00e0\u2026<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_uag_custom_page_level_css":""},"categories":[3],"tags":[],"blocksy_meta":{"styles_descriptor":{"styles":{"desktop":"","tablet":"","mobile":""},"google_fonts":[],"version":5}},"uagb_featured_image_src":{"full":false,"thumbnail":false,"medium":false,"medium_large":false,"large":false,"1536x1536":false,"2048x2048":false},"uagb_author_info":{"display_name":"admin","author_link":"https:\/\/devopsopen.com\/index.php\/author\/admin_bak\/"},"uagb_comment_info":0,"uagb_excerpt":"Pattern Data DataBoks Trino: the definitve Guide (Startburst) Perform fast interactive analytics against different data sources using the Trino high performance distributed SQL query engine -Delta Lake up &amp; Running (Databricks) The Data Lakehouse dummies The data LakeHouse Platforme dummies Apache Iceberg the definitive Guide (dremio) Quick Guide to The Apache Iceberg Lakehouse Data mesh&hellip;","_links":{"self":[{"href":"https:\/\/devopsopen.com\/index.php\/wp-json\/wp\/v2\/posts\/466"}],"collection":[{"href":"https:\/\/devopsopen.com\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/devopsopen.com\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/devopsopen.com\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/devopsopen.com\/index.php\/wp-json\/wp\/v2\/comments?post=466"}],"version-history":[{"count":5,"href":"https:\/\/devopsopen.com\/index.php\/wp-json\/wp\/v2\/posts\/466\/revisions"}],"predecessor-version":[{"id":482,"href":"https:\/\/devopsopen.com\/index.php\/wp-json\/wp\/v2\/posts\/466\/revisions\/482"}],"wp:attachment":[{"href":"https:\/\/devopsopen.com\/index.php\/wp-json\/wp\/v2\/media?parent=466"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/devopsopen.com\/index.php\/wp-json\/wp\/v2\/categories?post=466"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/devopsopen.com\/index.php\/wp-json\/wp\/v2\/tags?post=466"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}