dimensional data model data warehouse tutorial with examples
Dieses Tutorial erklärt die Vorteile und Mythen des Dimensionsdatenmodells in Data Warehouse. Weitere Informationen zu Dimensionstabellen und Faktentabellen mit Beispielen:
Data Warehouse-Tests wurde in unserem vorherigen Tutorial in diesem erklärt Data Warehouse-Schulungsserie für alle .
Riesige Daten werden im Data Warehouse (DW) mit Dimensional Data Modeling-Techniken organisiert. Diese Dimensional Data Modeling-Techniken machen es Endbenutzern sehr einfach, sich nach den Geschäftsdaten zu erkundigen. Dieses Tutorial erklärt alles über die dimensionalen Datenmodelle in DW.
Zielgruppe
- Entwickler und Tester von Data Warehouse / ETL.
- Datenbankprofis mit Grundkenntnissen in Datenbankkonzepten.
- Datenbankadministratoren / Big Data-Experten, die Data Warehouse / ETL-Konzepte verstehen möchten.
- Hochschulabsolventen / Studienanfänger, die nach Data Warehouse-Jobs suchen.
Was du lernen wirst:
Dimensionsdatenmodelle
Dimensionsdatenmodelle sind die Datenstrukturen, die den Endbenutzern im ETL-Fluss zur Abfrage und Analyse der Daten zur Verfügung stehen. Der ETL-Prozess endet mit dem Laden von Daten in die Ziel-Dimensionsdatenmodelle. Jedes dimensionale Datenmodell wird mit einer Faktentabelle erstellt, die von mehreren Dimensionstabellen umgeben ist.
Schritte zum Entwerfen eines Dimensionsdatenmodells:
Vorteile der Dimensionsdatenmodellierung
Nachfolgend sind die verschiedenen Vorteile der Dimensionsdatenmodellierung aufgeführt.
- Sie sind für die Verwendung der sich ständig ändernden DW-Umgebungen gesichert.
- Mit Hilfe von dimensionalen Datenmodellen können problemlos riesige Daten erstellt werden.
- Die Daten aus den dimensionalen Datenmodellen sind leicht zu verstehen und zu analysieren.
- Sie sind für Endbenutzer schnell zugänglich, um mit hoher Leistung abzufragen.
- Mithilfe von Dimensionsdatenmodellen können wir die Daten hierarchisch aufschlüsseln (oder aufrollen).
ER-Modellierung gegen Dimensionsdatenmodellierung
- Die ER-Modellierung eignet sich für Betriebssysteme, während die Dimensionsmodellierung für das Data Warehouse geeignet ist.
- Bei der ER-Modellierung werden detaillierte aktuelle Transaktionsdaten verwaltet, während bei der Dimensionsmodellierung sowohl aktuelle als auch historische Transaktionsdaten zusammengefasst werden.
- Die ER-Modellierung hat normalisierte Daten, während die dimensionale Modellierung Daten de-normalisiert hat.
- Bei der ER-Modellierung werden beim Abrufen von Abfragen mehr Verknüpfungen verwendet, während bei der Dimensionsmodellierung weniger Verknüpfungen verwendet werden. Daher ist die Abfrageleistung bei der Dimensionsmodellierung schneller.
Mythen zur Modellierung von Dimensionsdaten
Im Folgenden sind einige der vorhandenen Mythen zur Modellierung dimensionaler Daten aufgeführt.
- Dimensionsdatenmodelle werden nur zur Darstellung der Zusammenfassung der Daten verwendet.
- Sie sind abteilungsspezifisch in einer Organisation.
- Sie unterstützen keine Skalierbarkeit.
- Sie dienen dem Zweck von Endbenutzerberichten und -abfragen.
- Wir können die dimensionalen Datenmodelle nicht integrieren.
Maßtabellen
Dimensionstabellen spielen im DW-System eine Schlüsselrolle, indem alle analysierten Metrikwerte gespeichert werden. Diese Werte werden unter leicht auswählbaren Dimensionsattributen (Spalten) in der Tabelle gespeichert. Die Qualität eines DW-Systems hängt hauptsächlich von der Tiefe der Dimensionsattribute ab.
Daher sollten wir versuchen, viele Attribute zusammen mit ihren jeweiligen Werten in den Dimensionstabellen anzugeben.
Lassen Sie uns die Struktur von Dimensionstabellen untersuchen!
# 1) Dimensionstabellenschlüssel: Jede Dimensionstabelle verfügt über eines ihrer Dimensionsattribute als Primärschlüssel, um jede Zeile eindeutig zu identifizieren. Daher können die unterschiedlichen numerischen Werte dieses Attributs als Primärschlüssel fungieren.
Wenn die Attributwerte in keinem Fall eindeutig sind, können Sie sequentiell generierte Systemnummern als Primärschlüssel betrachten. Diese werden auch als Ersatzschlüssel bezeichnet.
Dimensionsdatenmodelle müssen für jeden Schlüssel zwischen Dimensionen und Fakten die Einschränkung der referenziellen Integrität aufweisen. Daher haben Faktentabellen eine Fremdschlüsselreferenz für jeden Primär- / Ersatzschlüssel in der Dimensionstabelle, um die referenzielle Integrität aufrechtzuerhalten.
Wenn dies fehlschlägt, können die entsprechenden Faktentabellendaten für diesen Dimensionsschlüssel nicht abgerufen werden.
# 2) Tabelle ist breit: Wir können sagen, dass Dimensionstabellen breit sind, da wir einer Dimensionstabelle zu jedem Zeitpunkt im DW-Zyklus eine beliebige Anzahl von Attributen hinzufügen können. Der DW-Architekt fordert das ETL-Team auf, dem Schema entsprechende neue Attribute hinzuzufügen.
In Echtzeitszenarien können Dimensionstabellen mit 50 (oder mehr) Attributen angezeigt werden.
# 3) Textattribute: Dimensionsattribute können von einem beliebigen Typ sein, vorzugsweise als Text (oder) numerisch. Textattribute enthalten eher echte Geschäftswörter als Codes. Dimensionstabellen sind nicht für Berechnungen gedacht, daher werden numerische Werte selten für Dimensionsattribute verwendet.
# 4) Attribute stehen möglicherweise nicht in direktem Zusammenhang: Möglicherweise sind nicht alle Attribute in einer Dimensionstabelle miteinander verknüpft.
# 5) Nicht normalisiert: Durch das Normalisieren einer Dimensionstabelle werden mehr Zwischentabellen ins Bild gebracht, was nicht effizient ist. Daher werden Dimensionstabellen nicht normalisiert.
Dimensionsattribute können als Quelle für Einschränkungen in Abfragen dienen und können auch als Beschriftungen in den Berichten angezeigt werden. Die Abfragen werden effizient ausgeführt, wenn Sie ein Attribut direkt aus der Dimensionstabelle auswählen und direkt auf die jeweilige Faktentabelle verweisen, ohne andere Zwischentabellen zu berühren.
# 6) Drilldown und Rollup: Dimensionsattribute können die Daten bei Bedarf aufschlüsseln (oder aufrollen).
# 7) Mehrere Hierarchien: Eine eindimensionale Tabelle mit mehreren Hierarchien ist sehr verbreitet. Eine Dimensionstabelle hat eine einfache Hierarchie, wenn nur ein Pfad von der untersten Ebene nach oben vorhanden ist. Ebenso hat es mehrere Hierarchien, wenn mehrere Pfade vorhanden sind, die von der untersten Ebene nach oben reichen.
# 8) Wenige Rekorde: Dimensionstabellen enthalten weniger Datensätze (in Hunderten) als Faktentabellen (in Millionen). Obwohl sie kleiner als die Fakten sind, liefern sie alle Eingaben in die Faktentabellen.
Hier ist ein Beispiel für eine Kundendimensionstabelle:
Wenn Sie die obigen Konzepte verstehen, können Sie entscheiden, ob ein Datenfeld als Dimensionsattribut fungieren kann (oder nicht), während Sie die Daten aus der Quelle selbst extrahieren.
Der Basislastplan für eine Dimension
Dimensionen können auf zwei Arten erstellt werden, d. H. Durch Extrahieren der Dimensionsdaten aus externen Quellsystemen (oder). Das ETL-System kann die Dimensionen aus dem Staging erstellen, ohne externe Quellen einzubeziehen. Ein ETL-System ohne externe Verarbeitung eignet sich jedoch besser zum Erstellen von Dimensionstabellen.
Im Folgenden sind die Schritte aufgeführt, die an diesem Prozess beteiligt sind:
So führen Sie JAR-Dateien unter Windows aus
- Datenreinigung: Vor dem Laden in die Dimensionstabelle werden Daten bereinigt, validiert und Geschäftsregeln angewendet, um die Konsistenz zu gewährleisten.
- Datenkonformität: Daten aus anderen Teilen des Data Warehouse sollten in Bezug auf jedes Feld der Dimensionstabelle ordnungsgemäß als ein einziger Wert zusammengefasst werden.
- Teilen Sie die gleichen Domains: Sobald die Daten bestätigt sind, werden sie erneut in Staging-Tabellen gespeichert.
- Datenlieferung: Schließlich werden alle dimensionalen Attributwerte mit zugewiesenen Primär- / Ersatzschlüsseln geladen.
Arten von Abmessungen
Die verschiedenen Arten von Abmessungen sind unten als Referenz aufgeführt.
Lasst uns beginnen!!
# 1) Kleine Abmessungen
Kleine Dimensionen im Data Warehouse dienen als Nachschlagetabellen mit weniger Zeilen und Spalten. Daten in kleinen Dimensionen können einfach aus Tabellenkalkulationen geladen werden. Bei Bedarf können kleine Abmessungen als Superabmessung kombiniert werden.
# 2) Angepasste Abmessung
Eine konforme Dimension ist eine Dimension, auf die mit jeder zugehörigen Faktentabelle auf dieselbe Weise verwiesen werden kann.
Die Datumsdimension ist das beste Beispiel für eine angepasste Dimension, da die Attribute der Datumsdimension wie Jahr, Monat, Woche, Tage usw. dieselben Daten auf dieselbe Weise über eine beliebige Anzahl von Fakten hinweg kommunizieren.
Ein Beispiel für eine konforme Dimension.
# 3) Junk-Dimension
Nur wenige Attribute in einer Faktentabelle wie Flags und Indikatoren können in eine separate Junk-Dimensionstabelle verschoben werden. Diese Attribute gehören auch nicht zu anderen vorhandenen Dimensionstabellen. Im Allgemeinen sind die Werte dieser Attribute einfach ein 'Ja / Nein' (oder) 'wahr / falsch'.
Das Erstellen einer neuen Dimension für jedes einzelne Flag-Attribut macht es komplex, indem mehr Fremdschlüssel für die Faktentabelle erstellt werden. Gleichzeitig erhöht das Behalten all dieser Flags und Indikatorinformationen in Faktentabellen auch die in Fakten gespeicherte Datenmenge, wodurch die Leistung beeinträchtigt wird.
Daher ist die beste Lösung hierfür das Erstellen einer einzelnen Junk-Dimension, da eine Junk-Dimension eine beliebige Anzahl von 'Ja / Nein' - oder 'Richtig / Falsch' -Indikatoren enthalten kann. In Junk-Dimensionen werden jedoch beschreibende Werte für diese Indikatoren (Ja / Nein (oder) Richtig / Falsch) gespeichert, z. B. Aktiv & Ausstehend usw.
Basierend auf der Komplexität einer Faktentabelle und ihrer Indikatoren kann eine Faktentabelle eine oder mehrere Junk-Dimensionen haben.
Ein Beispiel für Junk Dimension.
# 4) Rollenspieldimension
Eine einzelne Dimension, auf die in einer Faktentabelle für mehrere Zwecke verwiesen werden kann, wird als Rollenspieldimension bezeichnet.
Das beste Beispiel für eine Rollenspieldimension ist wiederum eine Datumsdimensionstabelle, da dasselbe Datumsattribut in einer Dimension für verschiedene Zwecke verwendet werden kann, z. B. Bestelldatum, Lieferdatum, Transaktionsdatum, Stornierungsdatum. usw.
Bei Bedarf können Sie vier verschiedene Ansichten der Datumsdimensionstabelle in Bezug auf vier verschiedene Datumsattribute einer Faktentabelle erstellen.
Ein Beispiel für eine Rollenspieldimension.
# 5) Entartete Dimensionen
Es gibt möglicherweise nur wenige Attribute, die weder Dimensionen (Metriken) noch Fakten (Kennzahlen) sein können, die jedoch zur Analyse benötigt werden. Alle diese Attribute können in entartete Dimensionen verschoben werden.
Beispielsweise, Sie können die Bestellnummer, die Rechnungsnummer usw. als entartete Dimensionsattribute betrachten.
Ein Beispiel für eine entartete Dimension.
# 6) Langsam wechselnde Abmessungen
Eine sich langsam ändernde Dimension ist eine Art, bei der sich Daten jederzeit langsam ändern können und nicht in regelmäßigen Abständen. Geänderte Daten in Dimensionstabellen können auf verschiedene Arten behandelt werden, wie unten erläutert.
Sie können den SCD-Typ auswählen, um auf eine Änderung für jedes Attribut in einer Dimensionstabelle einzeln zu reagieren.
(i) Typ 1 SCD
- Bei Typ 1 werden bei einer Änderung der Werte der Dimensionsattribute die vorhandenen Werte mit den neu geänderten Werten überschrieben, was nichts anderes als eine Aktualisierung ist.
- Alte Daten werden nicht als historische Referenz aufbewahrt.
- Frühere Berichte können nicht wiederhergestellt werden, da keine alten Daten vorhanden sind.
- Pflegeleicht.
- Die Auswirkungen auf Faktentabellen sind größer.
Beispiel für Typ 1 SCD:
(Ii) Typ 2 SCD
- Bei Typ 2 wird bei einer Änderung der Werte der Dimensionsattribute eine neue Zeile mit den geänderten Werten eingefügt, ohne die alten Zeilendaten zu ändern.
- Wenn in einer der Faktentabellen ein Fremdschlüsselverweis auf den alten Datensatz vorhanden ist, wird der alte Ersatzschlüssel überall automatisch mit einem neuen Ersatzschlüssel aktualisiert.
- Die Auswirkung auf die Änderungen der Faktentabelle ist mit dem obigen Schritt sehr viel geringer.
- Alte Daten werden nach den Änderungen nirgendwo berücksichtigt.
- In Typ 2 können wir alle Änderungen verfolgen, die an den Dimensionsattributen vorgenommen werden.
- Die Speicherung historischer Daten ist unbegrenzt.
- Bei Typ 2 ist das Hinzufügen einiger Attribute zu jeder Zeile, wie z. B. Änderungsdatum, Gültigkeitsdatum, Enddatum, Uhrzeit, Grund für die Änderung und aktuelles Flag, optional. Dies ist jedoch wichtig, wenn das Unternehmen die Anzahl der in einem bestimmten Zeitraum vorgenommenen Änderungen wissen möchte.
Beispiel für Typ 2 SCD:
(Iii) Typ 3 SCD
- Bei Typ 3 werden bei einer Änderung der Werte der Dimensionsattribute neue Werte aktualisiert, die alten Werte bleiben jedoch als zweite Option gültig.
- Anstatt für jede Änderung eine neue Zeile hinzuzufügen, wird eine neue Spalte hinzugefügt, wenn sie zuvor nicht vorhanden war.
- Alte Werte werden in die oben hinzugefügten Attribute eingefügt und die Daten des primären Attributs werden mit dem geänderten Wert wie in Typ 1 überschrieben.
- Die Speicherung historischer Daten ist begrenzt.
- Die Auswirkungen auf Faktentabellen sind größer.
Beispiel für Typ 3 SCD:
(iv) Typ 4 SCD
- Bei Typ 4 werden die aktuellen Daten in einer Tabelle gespeichert.
- Alle historischen Daten werden in einer anderen Tabelle gespeichert.
Beispiel für Typ 4 SCD:
(v) Typ 6 SCD
- Eine Dimensionstabelle kann auch eine Kombination aller drei SCD-Typen 1, 2 und 3 enthalten, die als sich langsam ändernde Dimension des Typs 6 (oder) Hybrids bekannt ist.
Faktentabellen
Faktentabellen speichern eine Reihe quantitativ gemessener Werte, die für Berechnungen verwendet werden. Die Werte der Faktentabelle werden in den Geschäftsberichten angezeigt. Im Gegensatz zum Textdatentyp für Dimensionstabellen ist der Datentyp für Faktentabellen erheblich numerisch.
Faktentabellen sind tief, während Dimensionstabellen breit sind, da Faktentabellen eine höhere Anzahl von Zeilen und eine geringere Anzahl von Spalten haben. Ein in der Faktentabelle definierter Primärschlüssel besteht hauptsächlich darin, jede Zeile separat zu identifizieren. Der Primärschlüssel wird auch als zusammengesetzte Schlüsseltabelle bezeichnet.
Wenn der zusammengesetzte Schlüssel in einer Faktentabelle fehlt und zwei Datensätze dieselben Daten enthalten, ist es sehr schwierig, zwischen den Daten zu unterscheiden und die Daten in Dimensionstabellen zu referenzieren.
Wenn daher ein geeigneter eindeutiger Schlüssel als zusammengesetzter Schlüssel vorhanden ist, ist es gut, eine Sequenznummer für jeden Faktentabellendatensatz zu generieren. Eine andere Alternative besteht darin, einen verketteten Primärschlüssel zu bilden. Dies wird generiert, indem alle referenzierten Primärschlüssel von Dimensionstabellen zeilenweise verkettet werden.
Eine einzelne Faktentabelle kann von mehreren Dimensionstabellen umgeben sein. Mit Hilfe der in Faktentabellen vorhandenen Fremdschlüssel kann auf den jeweiligen Kontext (ausführliche Daten) der Messwerte in den Dimensionstabellen verwiesen werden. Mithilfe von Abfragen führen die Benutzer einen Drilldown und ein effizientes Rollup durch.
Die niedrigste Datenebene, die in einer Faktentabelle gespeichert werden kann, wird als Granularität bezeichnet. Die Anzahl der einer Faktentabelle zugeordneten Dimensionstabellen ist umgekehrt proportional zur Granularität dieser Faktentabellendaten. d.h. der kleinste Messwert benötigt mehr Dimensionstabellen, auf die verwiesen werden muss.
In einem Dimensionsmodell behalten die Faktentabellen eine Viele-zu-Viele-Beziehung zu Dimensionstabellen bei.
Ein Beispiel für eine Sales Fact Table:
Ladeplan für Faktentabellen
Sie können Faktentabellendaten effizient laden, indem Sie die folgenden Zeiger berücksichtigen:
# 1) Indizes löschen und wiederherstellen
Tatsächlich sind Indizes Tabellen gute Leistungssteigerer beim Abfragen der Daten, aber sie beeinträchtigen die Leistung beim Laden der Daten. Bevor Sie also große Datenmengen in Faktentabellen laden, löschen Sie in erster Linie alle Indizes in dieser Tabelle, laden Sie die Daten und stellen Sie die Indizes wieder her.
# 2) Einfügungen von Updates trennen
Führen Sie beim Laden in eine Faktentabelle keine Einfüge- und Aktualisierungsdatensätze zusammen. Wenn die Anzahl der Aktualisierungen geringer ist, verarbeiten Sie Einfügungen und Aktualisierungen separat. Wenn die Anzahl der Aktualisierungen höher ist, ist es ratsam, die Faktentabelle abzuschneiden und neu zu laden, um schnelle Ergebnisse zu erzielen.
# 3) Partitionierung
Führen Sie die physische Partitionierung einer Faktentabelle in Minitabellen durch, um eine bessere Abfrageleistung für die Daten der Bulk-Faktentabelle zu erzielen. Mit Ausnahme der DBAs und des ETL-Teams wird niemandem die Aufteilung der Fakten bekannt sein.
Als Beispiel Sie können eine Tabelle monatlich, vierteljährlich, jährlich usw. partitionieren. Bei der Abfrage werden nur die partitionierten Daten berücksichtigt, anstatt die gesamte Tabelle zu scannen.
# 4) Parallel laden
Was ist das beste E-Mail-Konto?
Wir haben jetzt eine Vorstellung von Partitionen in Faktentabellen. Partitionen auf Fakten sind auch beim Laden großer Datenmengen in Fakten von Vorteil. Teilen Sie dazu zunächst die Daten logisch in verschiedene Datendateien auf und führen Sie die ETL-Jobs aus, um alle diese logischen Teile der Daten parallel zu laden.
# 5) Massenlastdienstprogramm
Im Gegensatz zu anderen RDBMS-Systemen muss das ETL-System Rollback-Protokolle nicht explizit für Fehler während der Transaktion verwalten. Hier passieren 'Massenladungen' in Fakten anstelle von 'SQL-Einfügungen', um große Datenmengen zu laden. Wenn eine einzelne Ladung ausfällt, können die gesamten Daten einfach neu geladen werden (oder) und können dort fortgesetzt werden, wo sie mit der Massenladung aufgehört haben.
# 6) Löschen eines Faktendatensatzes
Das Löschen eines Faktentabellendatensatzes erfolgt nur, wenn das Unternehmen dies ausdrücklich wünscht. Wenn es Faktentabellendaten gibt, die in den Quellsystemen nicht mehr vorhanden sind, können diese entsprechenden Daten entweder physisch (oder logisch) gelöscht werden.
- Physisches Löschen: Unerwünschte Datensätze werden dauerhaft aus der Faktentabelle entfernt.
- Logisches Löschen: Der Faktentabelle wird eine neue Spalte hinzugefügt, z. B. 'gelöscht' vom Typ Boolescher Bit (oder). Dies fungiert als Flag zur Darstellung der gelöschten Datensätze. Sie müssen sicherstellen, dass Sie die gelöschten Datensätze nicht auswählen, während Sie die Faktentabellendaten abfragen.
# 7) Reihenfolge für Aktualisierungen und Löschungen in einer Faktentabelle
Wenn Daten aktualisiert werden müssen, sollten die Dimensionstabellen zuerst aktualisiert werden, gefolgt von der Aktualisierung der Ersatzschlüssel in der Nachschlagetabelle, falls erforderlich, und danach wird die jeweilige Faktentabelle aktualisiert. Das Löschen erfolgt in umgekehrter Reihenfolge, da das Löschen aller unerwünschten Daten aus Faktentabellen das Löschen der verknüpften unerwünschten Daten aus den Dimensionstabellen erleichtert.
In beiden Fällen sollten wir die obige Reihenfolge einhalten, da Dimensionstabellen und Faktentabellen die referenzielle Integrität ständig beibehalten.
Arten von Fakten
Basierend auf dem Verhalten von Faktentabellendaten werden sie als Transaktionsfaktentabellen, Snapshot-Faktentabellen und akkumulierte Snapshot-Faktentabellen kategorisiert. Alle diese drei Typen folgen unterschiedlichen Funktionen mit unterschiedlichen Datenladestrategien.
# 1) Transaktionsfaktentabellen
Wie der Name schon sagt, speichern Transaktionsfaktentabellen Daten auf Transaktionsebene für jedes Ereignis, das auftritt. Solche Daten sind auf der Ebene der Faktentabellen selbst leicht zu analysieren. Zur weiteren Analyse können Sie sich aber auch auf die zugehörigen Dimensionen beziehen.
Beispielsweise, Jeder Verkauf (oder) Kauf über eine Marketing-Website sollte in eine Transaktions-Faktentabelle geladen werden.
Ein Beispiel für eine Transaktionsfaktentabelle ist unten gezeigt.
# 2) Periodische Snapshot-Faktentabellen
Wie der Name schon sagt, werden Daten in der periodischen Snapshot-Faktentabelle in Form von Snapshots (Bildern) in regelmäßigen Abständen gespeichert, z. B. für jeden Tag, jede Woche, jeden Monat, jedes Quartal usw., abhängig von den Geschäftsanforderungen.
Es ist also klar, dass dies immer eine Ansammlung von Daten ist. Daher sind Snapshot-Fakten im Vergleich zu Transaktionsfakten-Tabellen komplexer. Beispielsweise, Daten zu Leistungsumsatzberichten können zur einfachen Bezugnahme in Snapshot-Faktentabellen gespeichert werden.
Ein Beispiel für eine periodische Snapshot-Faktentabelle ist unten dargestellt.
# 3) Akkumulieren von Snapshot-Faktentabellen
Durch das Sammeln von Snapshot-Faktentabellen können Sie Daten für die gesamte Lebensdauer eines Produkts in Tabellen speichern. Dies ist eine Kombination der beiden oben genannten Typen, bei denen Daten von jedem Ereignis jederzeit als Momentaufnahme eingefügt werden können.
Bei diesem Typ werden zusätzliche Datumsspalten und Daten für jede Zeile mit jedem Meilenstein dieses Produkts aktualisiert.
Ein Beispiel für eine Tabelle mit akkumulierten Snapshot-Fakten.
Zusätzlich zu den oben genannten drei Typen gibt es hier einige andere Arten von Faktentabellen:
# 4) Faktenlose Tabellen: Eine Tatsache ist eine Sammlung von Maßnahmen, während Tatsache weniger nur Ereignisse (oder Bedingungen) erfasst, die keine Maßnahmen enthalten. Eine Faktentabelle ohne Fakten wird hauptsächlich zum Verfolgen eines Systems verwendet. Die Daten in diesen Tabellen können analysiert und für die Berichterstellung verwendet werden.
Beispielsweise, Sie können nach Details eines Mitarbeiters suchen, der Urlaub genommen hat, und nach der Art des Urlaubs in einem Jahr usw. Wenn Sie all diese unklaren Fakten in eine Tatsache einbeziehen, erhöht die Tabelle definitiv die Größe der Fakten.
Ein Beispiel für eine Factless Fact Table ist unten dargestellt.
# 5) Übereinstimmende Faktentabellen: Eine konforme Tatsache ist eine Tatsache, auf die bei jedem Datamart, auf den sie sich bezieht, auf dieselbe Weise verwiesen werden kann.
Spezifikationen einer Faktentabelle
Nachstehend sind die Spezifikationen einer Faktentabelle angegeben.
- Faktenname: Dies ist eine Zeichenfolge, die die Funktionalität der Faktentabelle kurz beschreibt.
- Geschäftsprozess: Gespräche über das Geschäft müssen durch diese Faktentabelle erfüllt werden.
- Fragen: Erwähnt eine Liste von Geschäftsfragen, die von dieser Faktentabelle beantwortet werden.
- Korn: Gibt die niedrigste Detailstufe an, die diesen Faktentabellendaten zugeordnet ist.
- Maße: Listen Sie alle Dimensionstabellen auf, die dieser Faktentabelle zugeordnet sind.
- Maße: Die berechneten Werte, die in der Faktentabelle gespeichert sind.
- Ladefrequenz Stellt die Zeitintervalle zum Laden von Daten in die Faktentabelle dar.
- Anfangszeilen: Beziehen Sie sich zum ersten Mal auf die Anfangsdaten in der Faktentabelle.
Beispiel für die Modellierung von Dimensionsdaten
Sie können sich ein Bild davon machen, wie Dimensionstabellen und Faktentabellen für ein System entworfen werden können, indem Sie das folgende Diagramm zur Modellierung von Dimensionsdaten für Verkäufe und Bestellungen betrachten.
Fazit
Inzwischen sollten Sie über hervorragende Kenntnisse der Modellierungstechniken für Dimensionsdaten, ihrer Vorteile, Mythen, Dimensionstabellen, Faktentabellen sowie ihrer Typen und Prozesse verfügen.
In unserem nächsten Tutorial erfahren Sie mehr über Data Warehouse-Schemas!
=> Besuchen Sie hier, um Data Warehousing von Grund auf neu zu lernen.
Literatur-Empfehlungen
- Tutorial zum Testen von Data Warehouse mit Beispielen | ETL-Testhandbuch
- Data Mining-Beispiele: Häufigste Anwendungen von Data Mining 2021
- Python DateTime Tutorial mit Beispielen
- Grundlagen des Data Warehousing: Ein ultimativer Leitfaden mit Beispielen
- Tutorial zum Volumentest: Beispiele und Tools zum Volumentest
- Top 10 der beliebtesten Data Warehouse-Tools und Testtechnologien
- Data Mining: Prozesse, Techniken und wichtige Probleme bei der Datenanalyse
- So führen Sie datengesteuerte Tests in SoapUI Pro durch - SoapUI Tutorial Nr. 14