metadata data warehouse explained with examples
Dieses Tutorial erklärt die Rolle von Metadaten in ETL, Beispiele und Arten von Metadaten, Metadaten-Repository und Herausforderungen in der Metadatenverwaltung:
Data Mart in ETL wurde in unserem vorherigen Tutorial ausführlich erklärt.
Das Konzept der Metadaten ist in ETL sehr wichtig. In diesem Lernprogramm wird alles über Metadaten erklärt.
Es behandelt die Rolle von Metadaten, Beispiele für Metadaten sowie deren Typen, das Metadaten-Repository, die Verwaltung von Data Warehousing-Metadaten und Herausforderungen für die Metadatenverwaltung.
Sie erfahren auch, was metadatengesteuerte ETL und der Unterschied zwischen Daten und Metadaten sind.
=> Lesen Sie hier die kostenlose Data Warehouse-Schulungsreihe.
Zielgruppe
- Entwickler und Tester von Data Warehouse / ETL.
- Datenbankprofis mit Grundkenntnissen in Datenbankkonzepten.
- Datenbankadministratoren / Big-Data-Experten, die Data Warehouse- / ETL-Bereiche verstehen möchten.
- Hochschulabsolventen / Studienanfänger, die nach Data Warehouse-Jobs suchen.
Was du lernen wirst:
Was ist das Betriebssystem im Computer
Metadaten in ETL
Benutzer des Data Warehouse-Teams (oder) können Metadaten in verschiedenen Situationen verwenden, um das System zu erstellen, zu warten und zu verwalten. Die grundlegende Definition von Metadaten im Data Warehouse lautet: 'Es sind Daten über Daten' .
Metadaten können alle Arten von Informationen über DW-Daten enthalten, wie z.
- Quelle für alle extrahierten Daten.
- Verwendung dieser DW-Daten.
- Jede Art von Daten und ihre Werte.
- Merkmale von Daten.
- Transformationslogik für extrahierte Daten.
- DW-Tabellen und ihre Attribute.
- DW-Objekte
- Zeitstempel
Metadaten dienen als Inhaltsverzeichnis für Daten im DW-System, das die Technik mit weiteren Details zu diesen Daten zeigt. Mit einfachen Worten, Sie können sich einen Index in jedem Buch vorstellen, der als Metadaten für den Inhalt dieses Buches fungiert.
Ebenso fungieren Metadaten als Index für den DW-Inhalt. Alle diese Metadaten werden in einem Repository gespeichert. Durch das Durchgehen von Metadaten erfahren die Endbenutzer, von wo aus sie mit der Analyse des DW-Systems beginnen können. Andernfalls ist es für die Endbenutzer schwierig zu wissen, von wo aus die Datenanalyse in einem so großen DW-System gestartet werden kann.
Rolle von Metadaten im Data Warehouse
In früheren Tagen wurden Metadaten als Dokumente erstellt und verwaltet. In der heutigen digitalen Welt haben verschiedene Tools diese Aufgabe erleichtert, indem Metadaten auf jeder Ebene des DW-Prozesses aufgezeichnet wurden.
Von einem Tool erstellte Metadaten können standardisiert werden (d. H. Daten können in ein eindeutiges Format gebracht werden) und für alle anderen Tools an einer beliebigen Stelle im DW-System wiederverwendet werden.
Da wir wissen, dass Betriebssysteme aktuelle Daten verwalten, verwalten die DW-Systeme historische und aktuelle Daten.
Metadaten müssen alle Änderungen verfolgen, die in Quellsystemen, Datenextraktions- / Transformationsmethoden und in der Struktur (oder dem Inhalt) von Daten auftreten, die in diesem Prozess auftreten werden. Metadaten werden verschiedene Versionen verwalten, um all diese Änderungen über mehrere Jahre hinweg zu verfolgen.
Ausreichende Metadaten im Repository helfen jedem Benutzer, das System effizienter und unabhängiger zu analysieren. Wenn Sie die Metadaten verstehen, können Sie beliebige Abfragen für DW-Daten ausführen, um die besten Ergebnisse zu erzielen.
Bildliche Darstellung der Rolle von Metadaten:
Beispiele für Metadaten in einfachen Worten
Im Folgenden sind einige Beispiele für Metadaten aufgeführt.
- Metadaten für eine Webseite können die Sprache enthalten, in der sie codiert ist, die zum Erstellen verwendeten Tools, die Unterstützung von Browsern usw.
- Metadaten für ein digitales Bild können die Größe des Bildes, die Auflösung, die Farbintensität, das Erstellungsdatum des Bildes usw. enthalten.
- Metadaten für ein Dokument können das Erstellungsdatum des Dokuments, das Datum der letzten Änderung, dessen Größe, Autor, Beschreibung usw. enthalten.
Vergleich zwischen Daten und Metadaten
S.No. | Daten | Metadaten |
---|---|---|
ein | Daten sind eine Reihe von Informationen. | Metadaten sind Informationen zu Daten. |
zwei | Daten können (oder) nicht verarbeitet werden. | Metadaten sind immer verarbeitete Daten. |
Arten von Metadaten
Die Klassifizierung von Metadaten in verschiedene Typen hilft uns, sie besser zu verstehen. Diese Klassifizierung kann auf der Verwendung (oder) der Benutzer usw. basieren.
Lassen Sie uns die verschiedenen Arten von Metadaten unten untersuchen:
# 1) Hinterzimmer-Metadaten: Weist die DBAs (oder) die Endbenutzer an, Prozesse zu extrahieren, zu bereinigen und zu laden.
# 2) Metadaten des vorderen Raums: Weist die Endbenutzer an, mit BI-Tools und Berichten zu arbeiten.
# 3) Metadaten verarbeiten: Hier werden ETL-Prozessmetadaten gespeichert, z. B. die Anzahl der geladenen, abgelehnten, verarbeiteten Zeilen und die zum Laden in ein DW-System benötigte Zeit usw. Auf diese Informationen kann auch der Endbenutzer zugreifen.
Gleichzeitig sind die Statistiken der Staging-Tabellen für das ETL-Team wichtig. In diesen Metadaten werden die Prozessdaten der Staging-Tabellen gespeichert, z. B. die Anzahl der geladenen, abgelehnten, verarbeiteten Zeilen und die Zeit, die zum Laden in jede Staging-Tabelle benötigt wird.
# 4) Datenlinie: Dadurch wird die logische Umwandlung für jedes Quellsystemelement in das DW-Zielelement gespeichert.
# 5) Geschäftsdefinitionen: Der Kontext für DW-Tabellen wurde aus den Geschäftsdefinitionen abgeleitet. Jedes Attribut in einer Tabelle ist einer Geschäftsdefinition zugeordnet. Daher sollten diese als Metadaten (oder) jedes andere Dokument zur späteren Bezugnahme gespeichert werden. Sowohl die Endbenutzer als auch das ETL-Team hängen von diesen Geschäftsdefinitionen ab.
# 6) Technische Definitionen: Technische Definitionen werden ausschließlich im Bereich der Datenbereitstellung mehr als die Geschäftsdefinitionen verwendet. Der Hauptzweck besteht darin, die Mehrdeutigkeit beim Erstellen von Staging-Tabellen zu verringern und vorhandene Tabellen wiederzuverwenden. In technischen Definitionen werden die Details jeder Staging-Tabelle wie Standort und Struktur gespeichert.
Fragen und Antworten zu Qualitätssicherungsinterviews pdf
Jede Staging-Tabelle ist hier technisch dokumentiert. Wenn sie nicht dokumentiert ist, bedeutet dies, dass die Staging-Tabelle nicht vorhanden ist. Dies vermeidet die Neuerstellung derselben Staging-Tabelle.
# 7) Geschäftsmetadaten: Die Daten werden geschäftlich zum Nutzen der Endbenutzer / Analysten / Manager / Benutzer gespeichert. Geschäftsmetadaten sind ein Proxy für die Quellsystemdaten, d. H. Es werden keine Datenmanipulationen daran durchgeführt. Es kann aus beliebigen Geschäftsdokumenten und Geschäftsregeln abgeleitet werden.
# 8) Technische Metadaten: Dadurch werden technische Daten wie Tabellenattribute, deren Datentypen, Größe, Primärschlüsselattribute, Fremdschlüsselattribute und alle Indizes gespeichert. Dies ist im Vergleich zu Geschäftsmetadaten strukturierter.
Technische Metadaten sind hauptsächlich für das DW-Team wie Entwickler / Tester / Analysten / Datenbankadministratoren gedacht, um das System aufzubauen (oder zu warten). Dies wird auch von den Administratoren in erheblichem Maße zur Überwachung der Datenbankladungen und Datensicherungen usw. verwendet.
# 9) Betriebsmetadaten: Wie wir wissen, stammen die Daten in das DW-System aus vielen Betriebssystemen mit unterschiedlichen Datentypen und Feldern. DW-Extrakte wandeln solche Daten in den eindeutigen Typ um und laden alle diese Daten in das System.
Gleichzeitig muss es in der Lage sein, die Daten mit den Daten des Quellsystems zu verknüpfen. Die Metadaten, in denen alle diese Informationen zu Betriebsdatenquellen gespeichert sind, werden als Betriebsmetadaten bezeichnet.
# 10) Informationen zum Quellsystem:
Sie können die folgenden Metadaten aus verschiedenen Quellsystemen erfassen:
- Datenbank (oder) Dateisystem: Dadurch werden die Namen der Quellsystemdatenbanken (oder) gespeichert.
- Tabellenangaben: Dadurch werden alle Details zu Tabellen wie Tabellenname, Zweck, Größe, Attribute, Primärschlüssel und Fremdschlüssel gespeichert.
- Regeln für die Ausnahmebehandlung: Dadurch werden verschiedene Methoden zur Wiederherstellung des Systems bei Systemfehlern gespeichert.
- Geschäftsdefinitionen: Hier werden Geschäftsdefinitionen für ein kurzes Verständnis der Daten gespeichert.
- Geschäftsregeln: Dadurch wird eine Reihe von Regeln für jede Tabelle gespeichert, um ihre Daten zu verstehen und Inkonsistenzen zu vermeiden.
Metadaten des Quellsystems sparen dem DW-Team viel Zeit bei der Analyse der Daten.
# 11) ETL-Job-Metadaten: ETL-Jobmetadaten sind sehr wichtig, da sie die Details aller zu verarbeitenden Jobs im Zeitplan speichern, um das ETL-System zu laden.
Diese Metadaten speichern die folgenden Informationen:
- Berufsbezeichnung: ETL-Jobname.
- Berufszweck: Der Zweck der Ausführung des Jobs.
- Quelltabellen / -dateien: Es enthält die Namen und den Speicherort aller Tabellen und Dateien, aus denen die Daten von diesem ETL-Job bezogen werden. Dies kann mehr als einen Tabellennamen (oder Dateinamen) haben.
- Zieltabellen / -dateien: Es enthält die Namen und den Speicherort aller Tabellen und Dateien, in die die Daten von diesem ETL-Job transformiert werden. Dies kann mehr als einen Tabellennamen (oder Dateinamen) haben.
- Abgelehnte Daten: Es enthält die Namen und den Speicherort aller Tabellen und Dateien, aus denen die beabsichtigten Quelldaten nicht in das Ziel geladen wurden.
- Vorprozesse: Es enthält die Job- (oder) Skriptnamen, von denen der aktuelle Job abhängig ist. Dies bedeutet, dass diese erfolgreich ausgeführt werden müssen, bevor der aktuelle Job ausgeführt wird.
- Nachbearbeitungen: Es enthält die Job- (oder) Skriptnamen, die unmittelbar nach dem aktuellen Job ausgeführt werden sollen, um den Vorgang abzuschließen.
- Frequenz: Es gibt Auskunft darüber, wie oft der Job ausgeführt werden soll, d. H. Täglich, wöchentlich (oder) monatlich.
# 12) Transformationsmetadaten: Transformationsmetadaten speichern alle prozessbezogenen ETL-Konstruktionsinformationen. Jede einzelne Manipulation von Daten im ETL-Prozess wird als Datentransformation bezeichnet.
Alle Funktionen, gespeicherten Prozeduren, Cursor, Variablen und Schleifen im ETL-Prozess können als Transformationen betrachtet werden. Solche Transformationen können jedoch nicht separat als Metadaten dokumentiert werden.
Der gesamte ETL-Prozess wird mit Datentransformationen aufgebaut. Nur wenige Transformationen in ETL können vordefiniert und im gesamten DW-System verwendet werden. ETL-Entwickler verbringen ihre Zeit damit, alle Datentransformationen zu erstellen (oder erneut zu verarbeiten). Die Wiederverwendung der vordefinierten Transformationen während der ETL-Prozessentwicklung beschleunigt die Arbeit.
Lesen Sie die folgenden Datentransformationen durch, die Sie in ETL finden:
- Quelldatenextraktionen: Dies beinhaltet Datentransformationen zum Lesen aus Quellsystemdaten wie einer SQL Select-Abfrage (oder) FTP (oder) zum Lesen von XML / Mainframe-Daten.
- Ersatzschlüsselgeneratoren: Die neue Sequenznummer, die für jede Datenbanktabellenzeile generiert werden soll, wird als Metadaten gespeichert.
- Lookups: Lookups können mit allen IN-Anweisungen, inneren Verknüpfungen und äußeren Verknüpfungen erstellt werden. Diese werden hauptsächlich verwendet, um die Ersatzschlüssel aus allen jeweiligen Dimensionstabellen zu halten, während ein Fakt geladen wird.
- Filter: Es wird empfohlen, Filter zu verwenden, um die Daten zu sortieren, die im ETL-Prozess extrahiert, geladen und zurückgewiesen werden sollen. Das Filtern der Daten in den frühen Stadien des ETL-Systems ist eine gute Praxis. Filter werden abhängig von den Geschäftsregeln (oder) Einschränkungen angewendet.
- Aggregate: Abhängig vom Grad der Datengranularität können die Metadaten für Aggregatfunktionen wie Summe, Anzahl, Durchschnitt usw. verwendet werden.
- Strategien aktualisieren: Dies sind die Regeln, die beim Aktualisieren der Daten auf einen Datensatz angewendet werden. Wenn die vorhandenen Daten geändert werden, wird angezeigt, ob ein Datensatz hinzugefügt, gelöscht (oder aktualisiert) werden soll.
- Ziellader: Der Ziellader speichert die Details der Datenbank, Tabellennamen und Spaltennamen, in die die Daten über den ETL-Prozess geladen werden sollen. Darüber hinaus werden hier auch die Details des Dienstprogramms für Massenladungen gespeichert, das beim Laden von Daten in das ETL-System ausgeführt wird.
Jede Transformation kann mit einem kurzen Hinweis auf ihren Zweck eindeutig benannt werden.
Einige Beispiele für Namenskonventionen sind hier für die obige Liste der Transformationen aufgeführt.
SRC_ SEQ_ LKP_ FIL_ AGG_ UPD__ TRG_
Metadaten-Repository In ETL
Ein Metadaten-Repository ist ein Ort, an dem jede Art von Metadaten entweder in einer lokalen Datenbank (oder) in einer virtuellen Datenbank gespeichert wird. Jeder Metadatentyp, z. B. Geschäftsmetadaten (oder technische Metadaten), kann in einem Repository logisch getrennt werden.
Zusätzlich zu den beiden oben genannten Typen verfügt das Repository über eine weitere Komponente mit dem Namen Information Navigator.
Der Informationsnavigator kann verwendet werden, um die folgenden Aufgaben auszuführen:
- Schnittstelle aus dem Abfrage-Tool: Dies bietet eine Schnittstelle zu den Abfragetools für den Zugriff auf DW-Metadaten.
- Drilldown für Details: Auf diese Weise kann der Benutzer einen Drilldown zu Metadaten durchführen, um detailliertere Informationen zu erhalten. Auf der ersten Ebene kann der Benutzer beispielsweise eine Datentabellendefinition erhalten. Durch einen Drilldown kann er die Tabellenattribute auf der nächsten Ebene erhalten. Indem er die Daten genauer aufschlüsselt, kann er die Details der einzelnen Attribute usw. abrufen.
- Überprüfen Sie vordefinierte Abfragen und Berichte: Auf diese Weise kann der Benutzer vordefinierte Abfragen und Berichte überprüfen. Dies dient als Referenz für eigene Rahmenabfragen mit geeigneten Parametern usw.
Bildliche Darstellung des Metadata Repository:
Microsoft Dynamics Axe Tutorial für Anfänger
Wie können Data Warehousing-Metadaten verwaltet werden?
Personen, Prozesse und Tools sind die wichtigsten Quellen für die Verwaltung von Metadaten.
- Die Benutzer sollten die Metadaten für eine angemessene Verwendung verstehen.
- Der Prozess wird Metadaten in das Tools (oder) Repository mit dem Fortschritt des DW-Lebenszyklus für die zukünftige Verwendung integrieren.
- Anschließend können Metadaten von Tools verwaltet werden.
Herausforderungen für das Metadatenmanagement
Sobald die Metadaten erstellt sind, können Sie sich den folgenden Herausforderungen stellen, während Sie Metadaten in das System integrieren und verwalten.
- Das Bringen verschiedener Metadatenformate in ein Standardformat erfordert möglicherweise mehr Aufwand, wenn verschiedene Tools im DW-System verwendet werden, da Metadaten in Tabellenkalkulationen, Anwendungen (oder) Datenbanken gespeichert werden können.
- Metadatenformate haben keine etablierten branchenweiten Standards. Aufgrund dieses Mangels an standardisierten Prozessen ist es schwierig, Metadaten durch verschiedene Ebenen des DW-Systems und der Tools zu leiten.
- Die konsequente Pflege verschiedener Versionen historischer Metadaten ist eine komplexe Aufgabe.
Was ist metadatengesteuerte ETL?
Die metadatengesteuerte ETL erstellt eine Ebene, um das Laden von Daten in ein DW-System zu vereinfachen. Abhängig von den Metadaten können Sie entscheiden, ob die Daten im System verarbeitet werden sollen (oder nicht). Daher können Sie es als metadatengesteuerte ETL bezeichnen.
Fazit
Die wichtige Rolle von Metadaten bei der Bestimmung des Erfolgs (oder Misserfolgs) eines DW-Systems wurde in diesem Lernprogramm ausführlich erläutert.
Wir haben auch die Bedeutung, Rolle, Beispiele, Typen, Herausforderungen von Metadaten im Detail zusammen mit der betreffenden bildlichen Darstellung untersucht.
Wir hoffen, dass diese informativen Tutorials aus dieser Data Warehouse-Reihe Ihr Wissen über Data Warehousing und verwandte Konzepte bereichert haben !!!
Fröhliches Lesen!!
=> Besuchen Sie hier, um Data Warehousing von Grund auf neu zu lernen.
Literatur-Empfehlungen
- Tutorial zum Testen von Data Warehouse mit Beispielen | ETL-Testhandbuch
- Tutorial zum Testen von ETL-Data Warehouse-Tests (Eine vollständige Anleitung)
- Dimensionales Datenmodell im Data Warehouse - Lernprogramm mit Beispielen
- Data Mart Tutorial - Typen, Beispiele und Implementierung von Data Mart
- Was ist der ETL-Prozess (Extrahieren, Transformieren, Laden) im Data Warehouse?
- 10 besten Tools für die Datenzuordnung, die im ETL-Prozess nützlich sind (2021 LIST)
- Data Mining-Beispiele: Häufigste Anwendungen von Data Mining 2021
- Fragen und Antworten zum ETL-Testinterview