data mining process models
Dieses Tutorial zum Data Mining-Prozess behandelt Data Mining-Modelle, Schritte und Herausforderungen, die am Datenextraktionsprozess beteiligt sind:
Data Mining-Techniken wurden in unserem vorherigen Tutorial in diesem ausführlich erklärt Schließen Sie das Data Mining-Training für alle ab . Data Mining ist ein vielversprechendes Feld in der Welt der Wissenschaft und Technologie.
Data Mining, auch als Knowledge Discovery in Datenbanken bezeichnet, ist ein Prozess zum Erkennen nützlicher Informationen aus großen Datenmengen, die in Datenbanken und Data Warehouses gespeichert sind. Diese Analyse wird für Entscheidungsprozesse in den Unternehmen durchgeführt.
Data Mining wird mithilfe verschiedener Techniken wie Clustering, Assoziation und sequentieller Musteranalyse und Entscheidungsbaum durchgeführt.
Was du lernen wirst:
- Was ist Data Mining?
- Datenextraktion als Prozess
- Data Mining-Modelle
- Schritte im Data Mining-Prozess
- Data Mining-Prozess In Oracle DBMS
- Data Mining-Prozess im Datawarehouse
- Was sind die Anwendungen der Datenextraktion?
- Data Mining-Herausforderungen
- Fazit
- Literatur-Empfehlungen
Was ist Data Mining?
Data Mining ist ein Prozess zum Erkennen interessanter Muster und Kenntnisse aus großen Datenmengen. Die Datenquellen können Datenbanken, Data Warehouses, das Web und andere Informationsrepositorys oder Daten enthalten, die dynamisch in das System gestreamt werden.
Warum benötigen Unternehmen Datenextraktion?
Mit dem Aufkommen von Big Data hat Data Mining an Bedeutung gewonnen. Big Data sind extrem große Datenmengen, die von Computern analysiert werden können, um bestimmte Muster, Assoziationen und Trends aufzudecken, die vom Menschen verstanden werden können. Big Data enthält umfangreiche Informationen zu verschiedenen Typen und Inhalten.
Mit dieser Datenmenge würden einfache Statistiken mit manuellem Eingriff nicht funktionieren. Dieser Bedarf wird durch den Data Mining-Prozess erfüllt. Dies führt zu einem Wechsel von einfachen Datenstatistiken zu komplexen Data Mining-Algorithmen.
Der Data Mining-Prozess extrahiert relevante Informationen aus Rohdaten wie Transaktionen, Fotos, Videos und Flatfiles und verarbeitet die Informationen automatisch, um Berichte zu erstellen, die für Unternehmen nützlich sind, um Maßnahmen zu ergreifen.
Daher ist der Data Mining-Prozess für Unternehmen von entscheidender Bedeutung, um bessere Entscheidungen zu treffen, indem sie Muster und Trends in Daten erkennen, die Daten zusammenfassen und relevante Informationen herausnehmen.
Datenextraktion als Prozess
Bei jedem Geschäftsproblem werden die Rohdaten untersucht, um ein Modell zu erstellen, das die Informationen beschreibt und die vom Unternehmen zu verwendenden Berichte herausbringt. Das Erstellen eines Modells aus Datenquellen und Datenformaten ist ein iterativer Prozess, da die Rohdaten in vielen verschiedenen Quellen und Formen verfügbar sind.
Die Daten nehmen von Tag zu Tag zu. Wenn also eine neue Datenquelle gefunden wird, können sich die Ergebnisse ändern.
Unten finden Sie eine Übersicht über den Prozess.
(Bild Quelle ))
Data Mining-Modelle
Viele Branchen wie Fertigung, Marketing, Chemie und Luft- und Raumfahrt nutzen Data Mining. Dadurch steigt die Nachfrage nach standardmäßigen und zuverlässigen Data Mining-Prozessen drastisch.
Zu den wichtigen Data Mining-Modellen gehören:
# 1) Branchenübergreifender Standardprozess für Data Mining (CRISP-DM)
CRISP-DM ist ein zuverlässiges Data Mining-Modell, das aus sechs Phasen besteht. Es ist ein zyklischer Prozess, der einen strukturierten Ansatz für den Data Mining-Prozess bietet. Die sechs Phasen können in beliebiger Reihenfolge implementiert werden, erfordern jedoch manchmal ein Zurückverfolgen zu den vorherigen Schritten und die Wiederholung von Aktionen.
Was ist der Netzwerksicherheitsschlüssel für WLAN?
Die sechs Phasen von CRISP-DM umfassen:
# 1) Geschäftsverständnis: In diesem Schritt werden die Ziele der Unternehmen festgelegt und die wichtigen Faktoren, die zur Erreichung des Ziels beitragen, ermittelt.
# 2) Datenverständnis: Dieser Schritt sammelt die gesamten Daten und füllt die Daten im Werkzeug (falls ein Werkzeug verwendet wird). Die Daten werden mit ihrer Datenquelle, ihrem Speicherort, der Art und Weise, wie sie erfasst wurden, und bei aufgetretenen Problemen aufgelistet. Die Daten werden visualisiert und abgefragt, um ihre Vollständigkeit zu überprüfen.
# 3) Datenvorbereitung: In diesem Schritt werden die entsprechenden Daten ausgewählt, bereinigt, Attribute aus Daten erstellt und Daten aus mehreren Datenbanken integriert.
# 4) Modellierung: In diesem Schritt erfolgt die Auswahl der Data Mining-Technik, z. B. des Entscheidungsbaums, die Erstellung eines Testdesigns zur Bewertung des ausgewählten Modells, die Erstellung von Modellen aus dem Datensatz und die Bewertung des erstellten Modells mit Experten, um das Ergebnis zu erörtern.
# 5) Bewertung: Dieser Schritt bestimmt, inwieweit das resultierende Modell die Geschäftsanforderungen erfüllt. Die Bewertung kann durch Testen des Modells an realen Anwendungen erfolgen. Das Modell wird auf Fehler oder Schritte überprüft, die wiederholt werden sollten.
# 6) Bereitstellung: In diesem Schritt wird ein Bereitstellungsplan erstellt, eine Strategie zur Überwachung und Pflege der Ergebnisse des Data Mining-Modells zur Überprüfung seiner Nützlichkeit erstellt, Abschlussberichte erstellt und eine Überprüfung des gesamten Prozesses durchgeführt, um Fehler zu überprüfen und festzustellen, ob ein Schritt wiederholt wird .
(Bild Quelle ))
# 2) SEMMA (Sample, Explore, Modify, Model, Assess)
SEMMA ist eine weitere vom SAS Institute entwickelte Data Mining-Methode. Das Akronym SEMMA steht für Probe, Explore, Modify, Model, Assessment.
SEMMA macht es einfach, explorative statistische und Visualisierungstechniken anzuwenden, die signifikanten vorhergesagten Variablen auszuwählen und zu transformieren, ein Modell unter Verwendung der Variablen zu erstellen, um das Ergebnis zu erhalten, und seine Genauigkeit zu überprüfen. SEMMA wird auch von einem stark iterativen Zyklus angetrieben.
Schritte in SEMMA
- Stichprobe: In diesem Schritt wird ein großer Datensatz extrahiert und eine Stichprobe, die die vollständigen Daten darstellt, entnommen. Durch die Probenahme werden die Rechenkosten und die Verarbeitungszeit reduziert.
- Erkunden: Die Daten werden auf Ausreißer und Anomalien untersucht, um die Daten besser zu verstehen. Die Daten werden visuell überprüft, um die Trends und Gruppierungen herauszufinden.
- Ändern: In diesem Schritt werden Daten wie Gruppierung und Untergruppierung bearbeitet, indem das zu erstellende Modell im Fokus bleibt.
- Modell: Basierend auf den Erkundungen und Modifikationen werden die Modelle konstruiert, die die Muster in Daten erklären.
- Beurteilen: In diesem Schritt werden die Nützlichkeit und Zuverlässigkeit des konstruierten Modells bewertet. Hier wird das Modell gegen reale Daten getestet.
Sowohl der SEMMA- als auch der CRISP-Ansatz funktionieren für den Knowledge Discovery-Prozess. Sobald Modelle erstellt wurden, werden sie für Unternehmen und Forschungsarbeiten bereitgestellt.
Schritte im Data Mining-Prozess
Der Data Mining-Prozess ist in zwei Teile unterteilt, d. H. Data Preprocessing und Data Mining. Die Datenvorverarbeitung umfasst Datenbereinigung, Datenintegration, Datenreduktion und Datentransformation. Der Data Mining-Teil führt Data Mining, Musterbewertung und Wissensrepräsentation von Daten durch.
(Bild Quelle ))
Warum verarbeiten wir die Daten vor?
Es gibt viele Faktoren, die den Nutzen von Daten bestimmen, wie Genauigkeit, Vollständigkeit, Konsistenz und Aktualität. Die Daten müssen qualitativ sein, wenn sie den beabsichtigten Zweck erfüllen. Daher ist die Vorverarbeitung im Data Mining-Prozess von entscheidender Bedeutung. Die wichtigsten Schritte bei der Datenvorverarbeitung werden nachfolgend erläutert.
# 1) Datenbereinigung
Die Datenbereinigung ist der erste Schritt im Data Mining. Dies ist wichtig, da schmutzige Daten, wenn sie direkt im Bergbau verwendet werden, zu Verwirrung bei den Verfahren führen und zu ungenauen Ergebnissen führen können.
Grundsätzlich beinhaltet dieser Schritt das Entfernen von verrauschten oder unvollständigen Daten aus der Sammlung. Viele Methoden, die Daten im Allgemeinen selbst bereinigen, sind verfügbar, aber nicht robust.
Dieser Schritt führt die routinemäßigen Reinigungsarbeiten durch:
(i) Füllen Sie die fehlenden Daten aus:
Fehlende Daten können mit folgenden Methoden gefüllt werden:
Software zum Rippen von DVDs auf den PC
- Das Tupel ignorieren.
- Den fehlenden Wert manuell füllen.
- Verwenden Sie das Maß der zentralen Tendenz, Median oder
- Den wahrscheinlichsten Wert eingeben.
(ii) Entfernen Sie die verrauschten Daten: Zufällige Fehler werden als verrauschte Daten bezeichnet.
Methoden zum Entfernen von Rauschen sind:
Klasseneinteilung: Binning-Methoden werden angewendet, indem Werte in Buckets oder Bins sortiert werden. Die Glättung erfolgt durch Rücksprache mit den Nachbarwerten.
Das Binning erfolgt durch Glätten nach Bin, d. H. Jeder Bin wird durch den Mittelwert des Bin ersetzt. Glättung durch einen Median, wobei jeder Bin-Wert durch einen Bin-Median ersetzt wird. Glätten durch Behältergrenzen, d. H. Die minimalen und maximalen Werte in dem Behälter sind Behältergrenzen, und jeder Behälterwert wird durch den nächstgelegenen Grenzwert ersetzt.
- Identifizierung der Ausreißer
- Inkonsistenzen beheben
# 2) Datenintegration
Wenn mehrere heterogene Datenquellen wie Datenbanken, Datenwürfel oder Dateien zur Analyse kombiniert werden, wird dieser Prozess als Datenintegration bezeichnet. Dies kann dazu beitragen, die Genauigkeit und Geschwindigkeit des Data Mining-Prozesses zu verbessern.
Unterschiedliche Datenbanken haben unterschiedliche Namenskonventionen für Variablen, da sie Redundanzen in den Datenbanken verursachen. Zusätzliche Datenbereinigung kann durchgeführt werden, um Redundanzen und Inkonsistenzen aus der Datenintegration zu entfernen, ohne die Zuverlässigkeit der Daten zu beeinträchtigen.
Die Datenintegration kann mit Datenmigrationstools wie Oracle Data Service Integrator und Microsoft SQL usw. durchgeführt werden.
# 3) Datenreduktion
Diese Technik wird angewendet, um relevante Daten für die Analyse aus der Datenerfassung zu erhalten. Die Größe der Darstellung ist im Volumen viel kleiner, während die Integrität erhalten bleibt. Die Datenreduktion wird mit Methoden wie Naive Bayes, Entscheidungsbäumen, Neuronalen Netzen usw. durchgeführt.
Einige Strategien zur Datenreduktion sind:
- Reduzierung der Dimensionalität: Reduzieren der Anzahl der Attribute im Dataset.
- Reduzierung der Numerosität: Ersetzen des ursprünglichen Datenvolumens durch kleinere Formen der Datendarstellung.
- Datenkompression: Komprimierte Darstellung der Originaldaten.
# 4) Datentransformation
In diesem Prozess werden Daten in eine Form umgewandelt, die für den Data Mining-Prozess geeignet ist. Die Daten werden konsolidiert, damit der Mining-Prozess effizienter und die Muster leichter verständlich sind. Die Datentransformation umfasst Datenzuordnung und Codegenerierung.
Strategien zur Datentransformation sind:
wie man apk dateien auf android findet
- Glätten: Entfernen von Rauschen aus Daten mithilfe von Clustering, Regressionstechniken usw.
- Anhäufung: Zusammenfassungsoperationen werden auf Daten angewendet.
- Normalisierung: Skalierung von Daten, um in einen kleineren Bereich zu fallen.
- Diskretisierung: Rohwerte numerischer Daten werden durch Intervalle ersetzt. Zum Beispiel, Alter.
# 5) Data Mining
Data Mining ist ein Prozess, um interessante Muster und Kenntnisse aus einer großen Datenmenge zu identifizieren. In diesen Schritten werden intelligente Muster angewendet, um die Datenmuster zu extrahieren. Die Daten werden in Form von Mustern dargestellt und Modelle werden mithilfe von Klassifizierungs- und Clustering-Techniken strukturiert.
# 6) Musterbewertung
Dieser Schritt beinhaltet das Identifizieren interessanter Muster, die das Wissen darstellen, basierend auf Interessantheitsmaßen. Datenzusammenfassungs- und Visualisierungsmethoden werden verwendet, um die Daten für den Benutzer verständlich zu machen.
# 7) Wissensrepräsentation
Die Wissensrepräsentation ist ein Schritt, bei dem Datenvisualisierungs- und Wissensrepräsentationswerkzeuge verwendet werden, um die gewonnenen Daten darzustellen. Daten werden in Form von Berichten, Tabellen usw. visualisiert.
Data Mining-Prozess In Oracle DBMS
RDBMS repräsentiert Daten in Form von Tabellen mit Zeilen und Spalten. Auf Daten kann durch Schreiben von Datenbankabfragen zugegriffen werden.
Relationale Datenbankverwaltungssysteme wie Oracle unterstützen Data Mining mit CRISP-DM. Die Funktionen der Oracle-Datenbank sind nützlich für die Datenaufbereitung und das Datenverständnis. Oracle unterstützt Data Mining über die Java-Schnittstelle, die PL / SQL-Schnittstelle, das automatisierte Data Mining, SQL-Funktionen und grafische Benutzeroberflächen.
Data Mining-Prozess im Datawarehouse
Ein Data Warehouse wird für eine mehrdimensionale Datenstruktur modelliert, die als Datenwürfel bezeichnet wird. Jede Zelle in einem Datenwürfel speichert den Wert einiger aggregierter Kennzahlen.
Data Mining im mehrdimensionalen Raum im OLAP-Stil (Online Analytical Processing), bei dem mehrere Kombinationen von Dimensionen mit unterschiedlichen Granularitätsstufen untersucht werden können.
Was sind die Anwendungen der Datenextraktion?
Die Liste der Bereiche, in denen Data Mining weit verbreitet ist, umfasst:
# 1) Finanzdatenanalyse: Data Mining wird häufig in den Bereichen Bankwesen, Investment, Kreditdienstleistungen, Hypothekendarlehen, Autokredite sowie Versicherungs- und Aktieninvestitionsdienstleistungen eingesetzt. Die aus diesen Quellen gesammelten Daten sind vollständig, zuverlässig und von hoher Qualität. Dies erleichtert die systematische Datenanalyse und das Data Mining.
# 2) Einzelhandels- und Telekommunikationsindustrie: Der Einzelhandelssektor sammelt riesige Datenmengen zu Umsatz, Kundeneinkaufshistorie, Warentransport, Verbrauch und Service. Retail Data Mining hilft dabei, Kaufverhalten, Einkaufsmuster und Trends von Kunden zu identifizieren, die Qualität des Kundenservice zu verbessern, die Kundenbindung zu verbessern und die Zufriedenheit zu verbessern.
# 3) Wissenschaft und Technik: Data Mining-Informatik und -Technik können dabei helfen, den Systemstatus zu überwachen, die Systemleistung zu verbessern, Softwarefehler zu isolieren, Softwareplagiate zu erkennen und Systemstörungen zu erkennen.
# 4) Intrusion Detection and Prevention: Eindringen ist definiert als eine Reihe von Aktionen, die die Integrität, Vertraulichkeit oder Verfügbarkeit von Netzwerkressourcen gefährden. Data Mining-Methoden können beim System zur Erkennung und Verhinderung von Eindringlingen helfen, die Leistung zu verbessern.
# 5) Empfehlungssysteme: Empfehlungssysteme helfen Verbrauchern, indem sie Produktempfehlungen abgeben, die für Benutzer von Interesse sind.
Data Mining-Herausforderungen
Nachfolgend sind die verschiedenen Herausforderungen aufgeführt, die mit Data Mining verbunden sind.
- Data Mining benötigt große Datenbanken und Datenerfassungen, die schwer zu verwalten sind.
- Der Data Mining-Prozess erfordert Domain-Experten, die wiederum schwer zu finden sind.
- Die Integration aus heterogenen Datenbanken ist ein komplexer Prozess.
- Die Praktiken auf Organisationsebene müssen geändert werden, um die Data Mining-Ergebnisse zu verwenden. Die Umstrukturierung des Prozesses erfordert Aufwand und Kosten.
Fazit
Data Mining ist ein iterativer Prozess, bei dem der Mining-Prozess verfeinert und neue Daten integriert werden können, um effizientere Ergebnisse zu erzielen. Data Mining erfüllt die Anforderungen einer effektiven, skalierbaren und flexiblen Datenanalyse.
Es kann als natürliche Bewertung der Informationstechnologie angesehen werden. Als Wissenserkennungsprozess vervollständigen Datenvorbereitungs- und Data Mining-Aufgaben den Data Mining-Prozess.
Data Mining-Prozesse können für alle Arten von Daten wie Datenbankdaten und erweiterte Datenbanken wie Zeitreihen usw. ausgeführt werden. Der Data Mining-Prozess bringt auch seine eigenen Herausforderungen mit sich.
Besuchen Sie unser bevorstehendes Tutorial, um mehr über Data Mining-Beispiele zu erfahren!
PREV Tutorial | NÄCHSTES Tutorial
Literatur-Empfehlungen
- Data Mining: Prozesse, Techniken und wichtige Probleme bei der Datenanalyse
- Data Mining-Techniken: Algorithmus, Methoden und Top-Data Mining-Tools
- 10 besten Tools für die Datenzuordnung, die im ETL-Prozess nützlich sind (2021 LIST)
- Top 10 Datenbank-Design-Tools zum Erstellen komplexer Datenmodelle
- Data Mining gegen maschinelles Lernen gegen künstliche Intelligenz gegen tiefes Lernen
- Top 15 der besten kostenlosen Data Mining-Tools: Die umfassendste Liste
- Konzept, Prozess und Strategie des Testdatenmanagements
- JMeter-Datenparametrierung mit benutzerdefinierten Variablen