data warehousing fundamentals
Erfahren Sie alles über die Grundlagen des Data Warehousing. In diesem ausführlichen Handbuch wird erläutert, was Data Warehousing zusammen mit seinen Typen, Merkmalen, Vorzügen und Nachteilen ist:
Ein Data Warehouse ist der neueste Speichertrend in der heutigen IT-Branche.
In diesem Tutorial wird erklärt, was ein Data Warehouse ist. Warum ist Data Warehousing so wichtig? Arten von Data Warehouse-Anwendungen, Merkmale eines Data Warehouse, Vor- und Nachteile von Data Warehousing.
Präprozessor-Direktiven in c ++ mit Beispiel
Liste der Data Warehousing-Tutorials in dieser Reihe:
Tutorial Nr. 1: Grundlagen des Data Warehousing
Tutorial # 2: Was ist der ETL-Prozess im Data Warehouse?
Tutorial # 3: Data Warehouse-Tests
Tutorial # 4: Dimensionsdatenmodell im Data Warehouse
Tutorial Nr. 5: Schematypen in der Data Warehouse-Modellierung
Tutorial # 6: Data Mart Tutorial
Tutorial Nr. 7: Metadaten in ETL
Übersicht der Tutorials in dieser Data Warehousing-Reihe
Tutorial_Num | Was du lernen wirst |
---|---|
Tutorial # 7 | Metadaten in ETL In diesem Lernprogramm werden die Rolle von Metadaten in ETL, Beispiele und Arten von Metadaten, das Metadaten-Repository und die Herausforderungen bei der Metadatenverwaltung erläutert. |
Tutorial # 1 | Grundlagen des Data Warehousing In diesem Tutorial erfahren Sie alles über Data Warehousing-Konzepte. In diesem ausführlichen Handbuch wird erläutert, was Data Warehousing zusammen mit seinen Typen, Merkmalen, Vorzügen und Nachteilen ist. |
Tutorial # 2 | Was ist der ETL-Prozess im Data Warehouse? In diesem ausführlichen Tutorial zum ETL-Prozess werden der Prozessablauf und die Schritte erläutert, die am ETL-Prozess (Extraktion, Transformation und Laden) in Data Warehouse beteiligt sind. |
Tutorial # 3 | Data Warehouse-Tests Ziele und Bedeutung von Data Warehouse-Tests, Verantwortlichkeiten für ETL-Tests, Fehler in der DW- und ETL-Bereitstellung werden in diesem Lernprogramm ausführlich beschrieben. |
Tutorial # 4 | Dimensionsdatenmodell im Data Warehouse In diesem Tutorial werden die Vorteile und Mythen des Dimensionsdatenmodells in Data Warehouse erläutert. Sie erfahren auch mehr über Dimensionstabellen und Faktentabellen mit Beispielen. |
Tutorial # 5 | Schematypen in der Data Warehouse-Modellierung In diesem Lernprogramm werden verschiedene Data Warehouse-Schematypen erläutert. Erfahren Sie, was Sternschema und Schneeflockenschema sind und welchen Unterschied es zwischen Stern- und Schneeflockenschema gibt. |
Tutorial # 6 | Data Mart Tutorial In diesem Tutorial werden Data Mart-Konzepte erläutert, einschließlich Data Mart-Implementierung, Typen, Struktur sowie Unterschiede zwischen Data Warehouse und Data Mart. |
Was du lernen wirst:
Grundlagen des Data Warehousing: Ein vollständiger Leitfaden
Zielgruppe
- Entwickler und Tester von Data Warehouse / ETL.
- Datenbankprofis mit Grundkenntnissen in Datenbankkonzepten.
- Datenbankadministratoren / Big Data-Experten, die Data Warehousing-Konzepte verstehen möchten.
- Hochschulabsolventen / Studienanfänger, die nach Data-Warehouse-Jobs suchen.
Was ist Data Warehousing?
Ein Data Warehouse (DW) ist ein Repository mit einer großen Menge organisierter Daten. Diese Daten werden aus einer oder mehreren verschiedenen Datenquellen konsolidiert. DW ist eine relationale Datenbank, die hauptsächlich für analytische Berichte und pünktliche Entscheidungen in Organisationen entwickelt wurde.
Die Daten für diesen Zweck werden von den Quelltransaktionsdaten isoliert und optimiert, was keine Auswirkungen auf das Hauptgeschäft hat. Wenn eine Organisation geschäftliche Änderungen einführt, wird DW verwendet, um die Auswirkungen dieser Änderung zu untersuchen, und daher wird DW auch verwendet, um den Nichtentscheidungsprozess zu überwachen.
Das Data Warehouse ist meist ein schreibgeschütztes System, da die Betriebsdaten stark vom DW getrennt sind. Dies bietet eine Umgebung zum Abrufen der höchsten Datenmenge mit gutem Abfrageschreiben.
Somit fungiert DW als Backend-Engine für Business Intelligence-Tools, die die Berichte und Dashboards für die Geschäftsbenutzer anzeigt. DW wird häufig in den Bereichen Bankwesen, Finanzen, Einzelhandel usw. eingesetzt.
Warum ist Data Warehousing so wichtig?
Nachfolgend sind einige der Gründe aufgeführt, aus denen Data Warehouse von entscheidender Bedeutung ist.
- Data Warehouse sammelt alle Betriebsdaten aus verschiedenen heterogenen Quellen mit „unterschiedlichen Formaten“ und lädt die Daten durch Extrahieren, Transformieren und Laden (ETL) in einem „standardisierten Dimensionsformat“ unternehmensweit in DW.
- Das Data Warehouse verwaltet sowohl „aktuelle Daten als auch historische Daten“ für analytische Berichte und faktenbasierte Entscheidungen.
- Es hilft Unternehmen, „intelligentere und schnellere Entscheidungen“ zur Kostensenkung und Umsatzsteigerung zu treffen, indem Quartals- und Jahresberichte verglichen werden, um ihre Leistung zu verbessern.
Arten von Data Warehouse-Anwendungen
Business Intelligence (BI) ist ein Zweig des Data Warehousing, der für die Entscheidungsfindung entwickelt wurde. Sobald die Daten in den DW geladen sind, spielt BI eine wichtige Rolle, indem die Daten analysiert und den Geschäftsbenutzern präsentiert werden.
In der Praxis bedeutet der Begriff „Data Warehouse-Anwendungen“, in wie vielen verschiedenen Typen die Daten verarbeitet und verwendet werden können.
Wir haben drei Arten von DW-Anwendungen, wie unten erwähnt.
- Informationsverarbeitung
- Analytische Verarbeitung
- Data Mining, das dem Zweck von BI dient
# 1) Informationsverarbeitung
Dies ist eine Art Anwendung, bei der das Data Warehouse einen direkten Kontakt mit den darin gespeicherten Daten ermöglicht.
Da die Daten verarbeitet werden können, indem direkte Abfragen zu den Daten (oder) mit einer grundlegenden statistischen Analyse der Daten geschrieben werden, werden die Endergebnisse den Geschäftsbenutzern in Form von Berichten, Tabellen, Diagrammen oder Grafiken gemeldet.
DW unterstützt die folgenden Tools für die Informationsverarbeitung:
(i) Abfragetools: Das Unternehmen (oder) der Analyst führt die Abfragen mithilfe von Abfragetools aus, um die Daten zu untersuchen und die Ausgabe in Form von Berichten oder Grafiken gemäß den Geschäftsanforderungen zu generieren.
(ii) Berichterstellungstools: Wenn das Unternehmen die Ergebnisse in einem definierten Format und auf einer geplanten Basis, d. H. Täglich, wöchentlich oder monatlich, anzeigen möchte, werden Berichterstellungstools verwendet. Diese Art von Berichten kann jederzeit gespeichert und überprüft werden.
(iii) Statistik-Tools: Wenn das Unternehmen eine Analyse mit einer breiten Sicht auf Daten durchführen möchte, werden statistische Tools verwendet, um solche Ergebnisse zu generieren. Unternehmen können Schlussfolgerungen ziehen und Vorhersagen treffen, indem sie diese strategischen Ergebnisse verstehen.
# 2) Analytische Verarbeitung
Dies ist eine Art Anwendung, bei der ein Data Warehouse die analytische Verarbeitung der darin gespeicherten Daten ermöglicht. Die Daten können durch die folgenden Vorgänge wie Slice-and-Dice, Drilldown, Rollup und Pivoting analysiert werden.
(i) Slice-and-Dice : Mit Data Warehouse können Slice-and-Dice-Vorgänge die Daten analysieren, auf die von vielen Ebenen aus mit einer Kombination verschiedener Perspektiven zugegriffen wird. Die Slice-and-Dice-Operation verwendet intern den Drilldown-Mechanismus. Das Schneiden funktioniert mit Dimensionsdaten.
Wenn wir uns als Teil der Geschäftsanforderung auf einen einzelnen Bereich konzentrieren, analysiert Slicing die Dimensionen dieses bestimmten Bereichs gemäß den Anforderungen und liefert die Ergebnisse. Das Würfeln funktioniert bei Analysevorgängen. Das Würfeln zoomt für einen bestimmten Satz von Attributen über alle Dimensionen, um verschiedene Perspektiven bereitzustellen. Die Abmessungen werden aus einer oder mehreren aufeinanderfolgenden Schichten betrachtet.
(ii) Drilldown : Wenn das Unternehmen zu einer detaillierteren Ebene einer Zusammenfassungsnummer wechseln möchte, ist ein Drilldown eine Operation zum Navigieren dieser Zusammenfassung zu kleineren detaillierten Ebenen. Dies gibt eine großartige Vorstellung davon, was passiert und wo das Geschäft stärker fokussiert werden muss.
Drilldown von der Hierarchieebene bis zur untergeordneten Detailebene für die Ursachenanalyse. Dies kann anhand eines Beispiels leicht verstanden werden, da ein Drilldown des Verkaufs von erfolgen kann Länderebene -> Regionsebene -> Bundesstaatsebene -> Distriktebene -> Filialebene.
(iii) Aufrollen : Das Aufrollen funktioniert entgegengesetzt zum Drilldown. Wenn das Unternehmen zusammengefasste Daten wünscht, kommt das Rollup ins Spiel. Die Daten auf Detailebene werden aggregiert, indem sie in der Dimensionshierarchie nach oben verschoben werden.
Roll-ups werden verwendet, um die Entwicklung und Leistung eines Systems zu analysieren.
Dies kann mit einem verstanden werden Beispiel wie bei einem Verkaufs-Rollup, bei dem die Summen aufgerollt werden können Stadtebene -> Landesebene -> Regionsebene -> Länderebene .
(iv) Pivot : Beim Schwenken werden Dimensionsdaten analysiert, indem die Daten auf den Würfeln gedreht werden. Zum Beispiel, Die Zeilendimension kann in die Spaltendimension ausgetauscht werden und umgekehrt.
# 3) Data Mining
Dies ist eine Art Anwendung, bei der das Data Warehouse die Wissensermittlung der Daten ermöglicht und die Ergebnisse mit Visualisierungstools dargestellt werden. In den beiden oben genannten Anwendungstypen können die Informationen von den Benutzern gesteuert werden.
bester Festplatten-Datenwiederherstellungsdienst
Da die Daten in verschiedenen Unternehmen sehr umfangreich sind, ist es schwierig, das Data Warehouse abzufragen und einen Drilldown durchzuführen, um alle möglichen Einblicke in Daten zu erhalten. Dann kommt Data Mining ins Spiel, um die Entdeckung von Wissen zu erreichen.
Dies führt zu den Daten mit allen vergangenen Assoziationen, Ergebnissen usw. und sagt die Zukunft voraus. Daher ist dies datengesteuert und nicht benutzergesteuert. Die Daten können entdeckt werden, indem versteckte Muster, Assoziationen, Klassifikationen und Vorhersagen gefunden werden.
Data Mining geht eingehend auf die Daten ein, um die Zukunft vorherzusagen. Basierend auf den Vorhersagen werden auch die zu ergreifenden Maßnahmen vorgeschlagen.
Nachfolgend sind die verschiedenen Aktivitäten von Data Mining aufgeführt:
- Muster: Data Mining erkennt Muster, die in der Datenbank auftreten. Benutzer können die geschäftlichen Eingaben bereitstellen, anhand derer ein gewisses Wissen über die Muster für die Entscheidungsfindung erwartet wird.
- Assoziationen / Beziehungen: Beim Data Mining werden Beziehungen zwischen den Objekten mit der Häufigkeit ihrer Zuordnungsregeln ermittelt. Diese Beziehung kann zwischen zwei oder mehr Objekten bestehen (oder) sie kann die Regeln innerhalb der Eigenschaften desselben Objekts ermitteln.
- Einstufung: Data Mining organisiert Daten in einer Reihe vordefinierter Klassen. Wenn also ein Objekt aus den Daten aufgenommen wird, ordnet die Klassifizierung diesem Objekt die entsprechende Klassenbezeichnung zu.
- Prognose: Data Mining vergleicht eine Reihe vorhandener Werte, um die bestmöglichen zukünftigen Werte / Trends im Geschäft zu finden.
Basierend auf all den oben genannten Ergebnissen schlägt Data Mining daher auch eine Reihe von Maßnahmen vor, die ergriffen werden müssen.
Merkmale eines Data Warehouse
Ein Data Warehouse wird basierend auf den folgenden Merkmalen von Daten als themenorientierte, integrierte, nichtflüchtige und zeitliche Variante erstellt.
# 1) Fachorientiert: Wir können ein Data Warehouse als themenorientiert definieren, da wir Daten in Bezug auf einen bestimmten Themenbereich analysieren können, anstatt weise Daten anzuwenden. Dies liefert Ergebnisse, die für eine einfache Entscheidungsfindung definierter sind. In Bezug auf ein Bildungssystem können die Fachbereiche Schüler, Fächer, Noten, Lehrer usw. sein.
# 2) Integriert: Die Daten im Data Warehouse werden aus verschiedenen Quellen wie anderen relationalen Datenbanken, Flatfiles usw. integriert. Für eine effektive Datenanalyse wird eine so große Datenmenge abgerufen. Es kann jedoch zu Datenkonflikten kommen, da verschiedene Datenquellen in unterschiedlichen Formaten vorliegen können. Das Data Warehouse bringt all diese Daten systemweit in einem einheitlichen Format zusammen.
# 3) Nichtflüchtig: Sobald die Daten in das Data Warehouse geladen wurden, können sie nicht mehr geändert werden. Dies ist logischerweise akzeptabel, da Sie durch häufiges Ändern von Daten die Daten nicht analysieren können. Die häufigen Änderungen in der Betriebsdatenbank können planmäßig in ein Data Warehouse geladen werden. Während dieses Vorgangs werden neue Daten hinzugefügt. Die früheren Daten werden jedoch nicht gelöscht und bleiben als historische Daten erhalten.
# 4) Zeitvariante: Alle historischen Daten sowie die aktuellen Daten im Data Warehouse spielen eine entscheidende Rolle beim Abrufen von Daten für einen beliebigen Zeitraum. Wenn das Unternehmen Berichte, Grafiken usw. wünscht, sind zum Vergleich mit den Vorjahren und zur Analyse der Trends alle alten Daten erforderlich, die 6 Monate alt, 1 Jahr alt oder sogar älter sind usw.
Vorteile eines Data Warehouse
Wenn ein Data Warehouse-System produktiv ist, bietet eine Organisation die folgenden Vorteile:
- Verbesserte Business Intelligence
- Erhöhte System- und Abfrageleistung
- Business Intelligence aus mehreren Quellen
- Rechtzeitiger Zugriff auf Daten
- Verbesserte Datenqualität und -konsistenz
- Historische Intelligenz
- Hohe Kapitalrendite
# 1) Verbesserte Business Intelligence: In den früheren Tagen, als Data Warehousing und Business Intelligence noch nicht vorhanden waren, trafen die Geschäftsbenutzer und Analysten die Entscheidungen mit einer begrenzten Datenmenge und mit ihrem eigenen Bauchgefühl.
DW & BI haben eine Veränderung gebracht, indem sie Einblicke in reale Fakten und in die realen Organisationsdaten gegeben haben, die über einen bestimmten Zeitraum gesammelt wurden. Geschäftsbenutzer können alle Geschäftsprozessdaten wie Marketing, Finanzen, Vertrieb usw. direkt abfragen, basierend auf ihren Anforderungen an strategische Entscheidungen und intelligente Geschäftsentscheidungen.
# 2) Erhöhte System- und Abfrageleistung: Data Warehousing sammelt umfangreiche Informationen aus heterogenen Systemen und platziert sie unter einem System, sodass eine einzige Abfrage-Engine zum schnellen Abrufen von Daten verwendet werden kann.
# 3) Business Intelligence aus mehreren Quellen: Wissen Sie, wie Business Intelligence im Allgemeinen mit Daten arbeitet? Es absorbiert die Daten von mehreren Systemen, Subsystemen, Plattformen und Datenquellen, um an einem Projekt zu arbeiten. Data Warehouse löst dieses Problem für BI jedoch, indem alle Projektdaten ohne Duplikate konsolidiert werden.
# 4) Rechtzeitiger Zugriff auf Daten: Geschäftsanwender profitieren davon, dass sie weniger Zeit für das Abrufen von Daten aufwenden. Sie verfügen über einige Tools, mit denen sie die Daten mit minimalem technischen Wissen abfragen und die Berichte erstellen können. Dadurch verbringen Geschäftsbenutzer ausreichend Zeit mit der Datenanalyse und nicht mit der Datenerfassung.
# 5) Verbesserte Datenqualität und -konsistenz: Data Warehousing wandelt Daten mit unterschiedlichen Quellsystemformaten in ein einziges Format um. Daher können möglicherweise dieselben Geschäftsbereiche, die die Daten an das Data Warehouse beziehen, das DW-Repository für ihre Geschäftsberichte und Abfragen wiederverwenden.
Aus Sicht der Organisation stehen daher alle Geschäftsbereiche mit konsistenten Ergebnissen / Berichten zur Verfügung. Diese gute Qualität und die konsistenten Daten tragen somit zu einem erfolgreichen Geschäft bei.
gefälschter Google Mail-Konto-Generator und Passwort
# 6) Historische Intelligenz: Data Warehouse verwaltet alle historischen Daten, die von keinem Transaktionssystem verwaltet werden. Diese große Datenmenge wird verwendet, um Daten für eine bestimmte Zeitdauer zu analysieren und zu melden sowie die Trends zu analysieren, um die Zukunft vorherzusagen.
# 7) Hoher Return on Investment (ROI): Jeder, der ein Unternehmen gründet, erwartet gute Renditen für die Investitionen in Bezug auf höhere Gewinne und geringere Kosten. In der realen Datenwelt haben viele Studien bewiesen, dass die Implementierung des Data Warehouse und der Business Intelligence-Systeme hohe Einnahmen generiert und Kosten gespart hat.
Inzwischen sollten Sie verstehen können, wie ein gut gestaltetes DW-System Ihrem Unternehmen Vorteile bringt.
Nachteile von Data Warehousing
Obwohl es ein sehr erfolgreiches System ist, ist es gut, einige der Fallstricke im System zu kennen:
- Das Erstellen eines Data Warehouse ist definitiv ein zeitaufwändiger und komplexer Prozess.
- Die Wartungskosten sind hoch, da das System kontinuierlich aktualisiert werden muss. Es kann sich auch erhöhen, wenn es nicht richtig genutzt wird.
- Entwickler, Tester und Benutzer sollten entsprechend geschult werden, um das DW-System zu verstehen und es technisch zu implementieren.
- Möglicherweise sind vertrauliche Daten vorhanden, die zur Entscheidungsfindung nicht in DW geladen werden können.
- Die Umstrukturierung von Geschäftsprozessen (oder) Quellsystemen hat erhebliche Auswirkungen auf DW.
Fazit
Wir hoffen, dass dieses einführende Tutorial einen Hintergrund für die Grundlagen des Data Warehousing bietet. Wir haben uns eingehend mit allen grundlegenden Konzepten des Data Warehousing befasst.
In diesem umfassenden Tutorial haben wir die Definition, Typen, Merkmale, Vor- und Nachteile von Data Warehousing kennengelernt.
=> Lesen Sie die Easy Data Warehousing-Schulungsreihe durch.
Literatur-Empfehlungen
- Data Mining-Beispiele: Häufigste Anwendungen von Data Mining 2021
- Funktionsweise datengesteuerter Tests (Beispiele für QTP und Selen)
- Data Mining: Prozesse, Techniken und wichtige Probleme bei der Datenanalyse
- Tutorial zum Testen von ETL-Data Warehouse-Tests (Eine vollständige Anleitung)
- Beste KOSTENLOSE C # Tutorial-Serie: Der ultimative C # -Handbuch für Anfänger
- Computer Networking Tutorial: Der ultimative Leitfaden
- QTP-Tutorial Nr. 18 - Datengesteuerte und hybride Frameworks mit QTP-Beispielen
- 10+ beste Datenerfassungstools mit Datenerfassungsstrategien