data mining process
In diesem ausführlichen Data Mining-Lernprogramm wird erläutert, was Data Mining ist, einschließlich der für die Datenanalyse verwendeten Prozesse und Techniken:
Lassen Sie uns die Bedeutung des Begriffs Bergbau am Beispiel des Goldabbaus aus Gesteinen verstehen, der als Goldabbau bezeichnet wird. Hier ist das Nützliche „Gold“, daher wird es Goldabbau genannt.
In ähnlicher Weise wird das Herausnehmen nützlicher Informationen aus einer großen Datenmenge als Knowledge Mining bezeichnet und ist im Volksmund als Data Mining bekannt. Mit dem Begriff nützliche Informationen bezeichnen wir die Daten, die uns bei der Vorhersage einer Ausgabe helfen können.
Zum Beispiel die Trends beim Kauf einer bestimmten Sache (z. B. Eisen) nach einer bestimmten Altersgruppe ( Beispiel: 40-70 Jahre).
=>RUNTERSCROLLENHier finden Sie die gesamte Liste der 7 ausführlichen Data Mining-Tutorials für Anfänger
Was du lernen wirst:
beste Videokonvertierungssoftware für Mac
- Liste der Data Mining-Tutorials
- Übersicht der Tutorials in dieser Data Mining-Reihe
- Was ist Data Mining?
- Welche Arten von Daten können abgebaut werden?
- Welche Techniken werden beim Data Mining verwendet?
- Hauptprobleme bei der Datenanalyse
- Fazit
Liste der Data Mining-Tutorials
Tutorial Nr. 1: Data Mining: Prozesse, Techniken und wichtige Probleme bei der Datenanalyse (Dieses Tutorial)
Tutorial # 2: Data Mining-Techniken: Algorithmus, Methoden und Top-Data Mining-Tools
Tutorial # 3: Data Mining-Prozess: Modelle, Prozessschritte und Herausforderungen
Tutorial # 4: Data Mining-Beispiele: Häufigste Anwendungen von Data Mining 2019
Tutorial Nr. 5: Beispiele für Entscheidungsbaumalgorithmen im Data Mining
Tutorial # 6: Apriori-Algorithmus im Data Mining: Implementierung mit Beispielen
Tutorial Nr. 7: FP-Wachstumsalgorithmus (Frequent Pattern) im Data Mining
Übersicht der Tutorials in dieser Data Mining-Reihe
Lernprogramm # | Was du lernen wirst |
---|---|
Tutorial_ # 7: | FP-Wachstumsalgorithmus (Frequent Pattern) im Data Mining Dies ist ein detailliertes Tutorial zum Algorithmus für häufiges Musterwachstum, das die Datenbank in Form eines FP-Baums darstellt. Der Vergleich von FP-Wachstum und Apriori wird hier ebenfalls erläutert. |
Tutorial_ # 1: | Data Mining: Prozesse, Techniken und wichtige Probleme bei der Datenanalyse In diesem ausführlichen Data Mining-Lernprogramm wird erläutert, was Data Mining ist, einschließlich der für die Datenanalyse verwendeten Prozesse und Techniken. |
Tutorial_ # 2: | Data Mining-Techniken: Algorithmus, Methoden und Top-Data Mining-Tools In diesem Tutorial zu Data Mining-Techniken werden Algorithmen, Data Mining-Tools und Methoden zum Extrahieren nützlicher Daten erläutert. |
Tutorial_ # 3: | Data Mining-Prozess: Modelle, Prozessschritte und Herausforderungen Dieses Tutorial zum Data Mining-Prozess behandelt Data Mining-Modelle, Schritte und Herausforderungen, die am Datenextraktionsprozess beteiligt sind. |
Tutorial_ # 4: | Data Mining-Beispiele: Häufigste Anwendungen von Data Mining 2019 Die beliebtesten Data Mining-Beispiele im wirklichen Leben werden in diesem Lernprogramm behandelt. Sie erfahren mehr über Data Mining-Anwendungen in den Bereichen Finanzen, Marketing, Gesundheitswesen und CRM. |
Tutorial_ # 5: | Beispiele für Entscheidungsbaumalgorithmen im Data Mining In diesem ausführlichen Lernprogramm wird alles über den Entscheidungsbaumalgorithmus in Data Mining erläutert. Sie erfahren mehr über Beispiele, Algorithmen und Klassifizierungen von Entscheidungsbäumen. |
Tutorial_ # 6: | Apriori-Algorithmus im Data Mining: Implementierung mit Beispielen Dies ist ein einfaches Tutorial zum Apriori-Algorithmus, um häufige Itemsets im Data Mining herauszufinden. Sie werden auch die Schritte in Apriori kennenlernen und verstehen, wie es funktioniert. |
Was ist Data Mining?
Data Mining ist heute sehr gefragt, da es den Unternehmen hilft, zu untersuchen, wie der Umsatz ihrer Produkte gesteigert werden kann. Wir können dies anhand eines Beispiels eines Modegeschäfts verstehen, das jeden seiner Kunden registriert, der einen Artikel in seinem Geschäft kauft.
Anhand der vom Kunden angegebenen Daten wie Alter, Geschlecht, Einkommensgruppe, Beruf usw. kann das Geschäft herausfinden, welche Art von Kunden verschiedene Produkte kaufen. Hier können wir sehen, dass der Name des Kunden keinen Nutzen hat, da wir den Kauftrend nicht anhand des Namens vorhersagen können, ob diese Person ein bestimmtes Produkt kaufen wird oder nicht.
So können die nützlichen Informationen anhand der Altersgruppe, des Geschlechts, der Einkommensgruppe, des Berufs usw. ermittelt werden. Die Suche nach Wissen oder interessanten Mustern in Daten ist „Data Mining“. Andere Begriffe, die an Ort und Stelle verwendet werden können, sind Knowledge Mining aus Daten, Wissensextraktion, Datenanalyse, Musteranalyse usw.
Ein weiterer Begriff, der im Data Mining häufig verwendet wird, ist Knowledge Discovery from Data oder KDD.
Datenanalyseprozess
Der Wissenserkennungsprozess besteht aus einer Folge der folgenden Schritte:
- Datenreinigung: Dieser Schritt entfernt Rauschen und inkonsistente Daten aus den Eingabedaten.
- Datenintegration: Dieser Schritt kombiniert mehrere Datenquellen. Die Datenbereinigung und Datenintegration bilden zusammen die Vorverarbeitung der Daten. Die vorverarbeiteten Daten werden dann im Data Warehouse gespeichert.
- Datenauswahl: Diese Schritte wählen die Daten für die Analyseaufgabe aus der Datenbank aus.
- Datentransformation: In diesem Schritt werden verschiedene Datenaggregations- und Datenzusammenfassungstechniken angewendet, um die Daten in eine nützliche Form für das Mining umzuwandeln.
- Data Mining: In diesem Schritt werden Datenmuster durch Anwendung intelligenter Methoden extrahiert.
- Musterbewertung: Die extrahierten Datenmuster werden gemäß den Interessantheitsmaßen ausgewertet und erkannt.
- Wissensrepräsentation: Visualisierungs- und Wissensrepräsentationstechniken werden verwendet, um den Benutzern das gewonnene Wissen zu präsentieren.
Die Schritte 1 bis 4 fallen in die Datenvorverarbeitungsphase. Hier wird Data Mining als einzelner Schritt dargestellt, bezieht sich jedoch auf den gesamten Wissenserkennungsprozess.
Wir können also sagen, dass Datenanalyse der Prozess ist, interessante Muster und Wissen aus einer großen Datenmenge zu entdecken. Die Datenquellen können Datenbanken, Data Warehouses, World Wide Web, Flatfiles und andere informative Dateien umfassen.
Welche Arten von Daten können abgebaut werden?
Die grundlegendsten Datenformen für das Mining sind Datenbankdaten, Data Warehouse-Daten und Transaktionsdaten. Die Data Mining-Techniken können auch auf andere Formen wie Datenströme, sequenzierte Daten, Textdaten und räumliche Daten angewendet werden.
# 1) Datenbankdaten: Das Datenbankverwaltungssystem besteht aus einer Reihe miteinander verbundener Daten und einer Reihe von Softwareprogrammen zum Verwalten und Zugreifen auf die Daten. Das relationale Datenbanksystem ist eine Sammlung von Tabellen, und jede Tabelle besteht aus einer Reihe von Attributen und Tupeln.
Beim Mining relationaler Datenbanken werden die Trends und Datenmuster durchsucht Z.B . Kreditrisiko von Kunden basierend auf Alter, Einkommen und vorherigem Kreditrisiko. Auch im Bergbau können Abweichungen von den erwarteten festgestellt werden Z.B. eine signifikante Erhöhung des Preises eines Artikels.
# 2) Data Warehouse-Daten: Ein Data Warehouse ist eine Sammlung von Informationen aus mehreren Datenquellen, die an einem einzigen Ort unter einem einheitlichen Schema gespeichert werden. Ein DW wird als mehrdimensionale Datenstruktur modelliert, die als Datenwürfel bezeichnet wird und Zellen und Dimensionen aufweist, die eine Vorberechnung und einen schnelleren Zugriff auf Daten ermöglichen.
Data Mining wird in einem OLAP-Stil durchgeführt, indem die Dimensionen auf verschiedenen Granularitätsstufen kombiniert werden.
# 3) Transaktionsdaten: Transaktionsdaten erfassen eine Transaktion. Es hat eine Transaktions-ID und eine Liste der in der Transaktion verwendeten Elemente.
# 4) Andere Arten von Daten: Andere Daten können sein: zeitbezogene Daten, räumliche Daten, Hypertextdaten und Multimediadaten.
Welche Techniken werden beim Data Mining verwendet?
Data Mining ist eine stark anwendungsorientierte Domäne. Viele Techniken wie Statistik, maschinelles Lernen, Mustererkennung, Informationsabruf, Visualisierung usw. beeinflussen die Entwicklung von Datenanalysemethoden.
Lassen Sie uns einige davon hier diskutieren !!
Statistiken
Das Studium der Sammlung, Analyse, Interpretation und Präsentation von Daten kann unter Verwendung statistischer Modelle durchgeführt werden. Zum Beispiel Statistiken können verwendet werden, um Rauschen und fehlende Daten zu modellieren, und dieses Modell kann dann in großen Datenmengen verwendet werden, um das Rauschen und fehlende Werte in Daten zu identifizieren.
Maschinelles Lernen
ML wird verwendet, um die Leistung basierend auf Daten zu verbessern. Der Hauptforschungsbereich besteht darin, dass Computerprogramme automatisch lernen, komplexe Muster zu erkennen und anhand der Daten intelligente Entscheidungen zu treffen.
Maschinelles Lernen konzentriert sich auf Genauigkeit und Data Mining konzentriert sich auf die Effizienz und Skalierbarkeit von Mining-Methoden für große Datenmengen, komplexe Daten usw.
Es gibt drei Arten von maschinellem Lernen:
- Überwachtes Lernen: Der Zieldatensatz ist bekannt und die Maschine wird gemäß den Zielwerten trainiert.
- Unbeaufsichtigtes Lernen: Die Zielwerte sind nicht bekannt und die Maschinen lernen von selbst.
- Halbüberwachtes Lernen: Es verwendet sowohl die Techniken des überwachten als auch des unbeaufsichtigten Lernens.
Information Retrieval (IR)
Es ist die Wissenschaft, nach Dokumenten oder Informationen in Dokumenten zu suchen.
bester kostenloser youtube downloader für windows 10
Es verwendet zwei Prinzipien:
- Zu durchsuchende Daten sind unstrukturiert.
- Die Abfragen bestehen hauptsächlich aus Schlüsselwörtern.
Mithilfe von Datenanalyse und IR können wir wichtige Themen in der Dokumentensammlung sowie die Hauptthemen in jedem Dokument finden.
Hauptprobleme bei der Datenanalyse
Data Mining weist eine Reihe von Problemen auf, die im Folgenden aufgeführt sind:
Bergbaumethode
- Da es vielfältige Anwendungen gibt, entstehen immer wieder neue Mining-Aufgaben. Diese Aufgaben können dieselbe Datenbank auf unterschiedliche Weise verwenden und erfordern die Entwicklung neuer Data Mining-Techniken.
- Bei der Suche nach Wissen in großen Datenmengen müssen wir den mehrdimensionalen Raum erkunden. Um interessante Muster zu finden, müssen verschiedene Kombinationen von Dimensionen angewendet werden.
- Unsichere, verrauschte und unvollständige Daten können manchmal zu einer fehlerhaften Ableitung führen.
Benutzerinteraktion
- Der Datenanalyseprozess sollte sehr interaktiv sein. Um den Mining-Prozess zu vereinfachen, ist es wichtig, benutzerinteraktiv zu sein.
- Das Domänenwissen, Hintergrundwissen, Einschränkungen usw. sollten alle in den Data Mining-Prozess einbezogen werden.
- Das durch den Abbau der Daten entdeckte Wissen sollte für den Menschen nutzbar sein. Das System sollte eine ausdrucksstarke Darstellung von Wissen, benutzerfreundlichen Visualisierungstechniken usw. übernehmen.
Effizienz und Skalierbarkeit
- Data Mining-Algorithmen sollten effizient und skalierbar sein, um interessante Daten aus einer großen Datenmenge in den Datenrepositorys effektiv zu extrahieren.
- Durch die breite Datenverteilung und die Komplexität der Berechnung wird die Entwicklung paralleler und verteilter datenintensiver Algorithmen motiviert.
Vielfalt der Datenbanktypen
- Der Aufbau effektiver und effizienter Datenanalysewerkzeuge für verschiedene Anwendungen, ein breites Spektrum von Datentypen aus unstrukturierten Daten, Zeitdaten, Hypertext, Multimediadaten und Softwareprogrammcode bleibt ein herausforderndes und aktives Forschungsgebiet.
Sozialer Einfluss
- Die Offenlegung zur Verwendung der Daten und die mögliche Verletzung der Privatsphäre des Einzelnen sowie der Schutz der Rechte sind die Problembereiche, die angegangen werden müssen.
Fazit
Data Mining hilft bei der Entscheidungsfindung und Analyse einer großen Datenmenge. Heutzutage ist es die gängigste Geschäftstechnik. Es ermöglicht die automatische Analyse von Daten und identifiziert beliebte Trends und Verhaltensweisen.
Die Datenanalyse kann mit maschinellem Lernen, Statistik, künstlicher Intelligenz usw. kombiniert werden, um erweiterte Datenanalysen und Verhaltensstudien durchzuführen.
Data Mining sollte angewendet werden, indem verschiedene Faktoren berücksichtigt werden, z. B. die Kosten für das Extrahieren von Informationen und Mustern aus Datenbanken (komplexe Algorithmen, für die Expertenressourcen erforderlich sind, müssen angewendet werden), die Art der Informationen (da historische Daten möglicherweise nicht mit denen übereinstimmen, die sie sind Derzeit ist die Analyse daher nicht sinnvoll.
Wir hoffen dieses Tutorial bereicherte Ihr Wissen über das Konzept des Data Mining !!
Literatur-Empfehlungen
- 10 besten Datenanalyse-Tools für ein perfektes Datenmanagement (2021 LIST)
- Data Mining gegen maschinelles Lernen gegen künstliche Intelligenz gegen tiefes Lernen
- 10 besten Tools für die Datenzuordnung, die im ETL-Prozess nützlich sind (2021 LIST)
- Was sind Testdaten? Testdatenvorbereitungstechniken mit Beispiel
- JMeter-Datenparametrierung mit benutzerdefinierten Variablen
- Top 15 der besten kostenlosen Data Mining-Tools: Die umfassendste Liste
- 10+ beste Datenerfassungstools mit Datenerfassungsstrategien
- Datenpoolfunktion in IBM Rational Quality Manager für Testdatenverwaltung