data mining techniques
In diesem ausführlichen Tutorial zu Data Mining-Techniken werden Algorithmen, Data Mining-Tools und Methoden zum Extrahieren nützlicher Daten erläutert:
In diesem Ausführliche Data Mining-Schulungsanleitungen für alle In unserem vorherigen Tutorial haben wir uns mit Data Mining befasst.
In diesem Tutorial lernen wir die verschiedenen Techniken kennen, die für die Datenextraktion verwendet werden. Da wir wissen, dass Data Mining ein Konzept zum Extrahieren nützlicher Informationen aus der großen Datenmenge ist, werden einige Techniken und Methoden auf große Datenmengen angewendet, um nützliche Informationen zu extrahieren.
c ++ undefinierter Referenzfehler
Diese Techniken bestehen im Wesentlichen aus Methoden und Algorithmen, die auf Datensätze angewendet werden. Einige der Data Mining-Techniken umfassen Häufige Muster, Assoziationen und Korrelationen, Klassifizierungen, Clustering, Erkennung von Ausreißern und einige fortschrittliche Techniken wie statistisches, visuelles und Audio-Data-Mining.
Im Allgemeinen werden relationale Datenbanken, Transaktionsdatenbanken und Data Warehouses für Data Mining-Techniken verwendet. Es gibt jedoch auch einige fortgeschrittene Mining-Techniken für komplexe Daten wie Zeitreihen, symbolische Sequenzen und biologische sequentielle Daten.
Was du lernen wirst:
- Zweck von Data Mining-Techniken
- Liste der Datenextraktionstechniken
- Top Data Mining-Algorithmen
- Datenextraktionsmethoden
- Top Data Mining-Tools
- Fazit
- Literatur-Empfehlungen
Zweck von Data Mining-Techniken
Da jeden Tag eine große Datenmenge gespeichert wird, sind die Unternehmen nun daran interessiert, die Trends daraus zu ermitteln. Die Datenextraktionstechniken helfen bei der Umwandlung der Rohdaten in nützliches Wissen. Um große Datenmengen abzubauen, ist die Software erforderlich, da es für einen Menschen unmöglich ist, das große Datenvolumen manuell zu durchlaufen.
Eine Data Mining-Software analysiert die Beziehung zwischen verschiedenen Elementen in großen Datenbanken, die bei der Entscheidungsfindung helfen, mehr über Kunden erfahren, Marketingstrategien entwickeln, den Umsatz steigern und die Kosten senken können.
Liste der Datenextraktionstechniken
Welche Data Mining-Technik angewendet werden soll, hängt von der Perspektive unserer Datenanalyse ab.
Lassen Sie uns also die verschiedenen Techniken diskutieren, wie die Datenextraktion auf verschiedene Arten durchgeführt werden kann:
# 1) Häufiges Pattern Mining / Assoziationsanalyse
Diese Art der Data Mining-Technik sucht nach wiederkehrenden Beziehungen im angegebenen Datensatz. Es wird nach interessanten Assoziationen und Korrelationen zwischen den verschiedenen Elementen in der Datenbank gesucht und ein Muster identifiziert.
Ein Beispiel, von solcher Art wäre 'Einkaufskorbanalyse': herauszufinden, 'welche Produkte die Kunden wahrscheinlich zusammen im Geschäft kaufen?' wie Brot und Butter.
Anwendung: Gestaltung der Platzierung der Produkte in den Verkaufsregalen, Vermarktung, Cross-Selling von Produkten.
Die Muster können in Form von Zuordnungsregeln dargestellt werden. Die Zuordnungsregel besagt, dass Unterstützung und Vertrauen die Parameter sind, um die Nützlichkeit der zugeordneten Elemente herauszufinden. Die Transaktionen, bei denen beide Artikel auf einmal zusammen gekauft wurden, werden als Support bezeichnet.
Die Transaktionen, bei denen die Kunden beide Artikel nacheinander gekauft haben, sind Vertrauen. Das abgebaute Muster würde als interessant angesehen, wenn es ein hat Mindestunterstützungsschwelle und Mindestvertrauensschwelle Wert. Die Schwellenwerte werden von den Domain-Experten festgelegt.
Brot => Butter (Unterstützung = 2%, Vertrauen-60%)
Die obige Anweisung ist ein Beispiel für eine Zuordnungsregel. Dies bedeutet, dass es eine 2% -Transaktion gibt, bei der Brot und Butter zusammen gekauft wurden, und dass 60% der Kunden Brot und Butter gekauft haben.
Schritte zur Implementierung der Assoziationsanalyse:
- Häufige Artikel finden. Itemset bedeutet eine Reihe von Items. Ein Itemset, das k Items enthält, ist ein k-Itemset. Die Häufigkeit einer Artikelgruppe ist die Anzahl der Transaktionen, die die Artikelgruppe enthalten.
- Generieren starker Assoziationsregeln aus den häufigen Elementmengen. Mit strengen Assoziationsregeln meinen wir, dass die Mindestschwellenunterstützung und das Mindestvertrauen erreicht werden.
Es gibt verschiedene häufig verwendete Itemset-Mining-Methoden wie den Apriori-Algorithmus, den Pattern Growth Approach und das Mining unter Verwendung des vertikalen Datenformats. Diese Technik ist allgemein als Warenkorbanalyse bekannt.
# 2) Korrelationsanalyse
Die Korrelationsanalyse ist nur eine Erweiterung der Assoziationsregeln. Manchmal können die Unterstützungs- und Vertrauensparameter den Benutzern immer noch uninteressante Muster liefern.
Ein Beispiel für die obige Aussage kann sein: Von 1000 analysierten Transaktionen enthielten 600 nur Brot, 750 Butter und 400 Brot und Butter. Angenommen, die Mindestunterstützung für das Ausführen von Zuordnungsregeln beträgt 30% und das Mindestvertrauen 60%.
Der Unterstützungswert von 400/1000 = 40% und der Konfidenzwert = 400/600 = 66% erfüllen den Schwellenwert. Wir sehen jedoch, dass die Wahrscheinlichkeit, Butter zu kaufen, 75% beträgt, was mehr als 66% entspricht. Dies bedeutet, dass Brot und Butter negativ korreliert sind, da der Kauf des einen zu einem Rückgang des Kaufs des anderen führen würde. Die Ergebnisse täuschen.
Aus dem obigen Beispiel werden die Unterstützung und das Vertrauen durch ein anderes Interessantheitsmaß ergänzt, d. H. Eine Korrelationsanalyse, die beim Abbau interessanter Muster hilft.
A => B (Unterstützung, Vertrauen, Korrelation).
Die Korrelationsregel wird durch Unterstützung, Vertrauen und Korrelation zwischen den Elementmengen A und B gemessen. Die Korrelation wird durch Lift und Chi-Quadrat gemessen.
(i) Aufzug: Wie das Wort selbst sagt, repräsentiert Lift den Grad, in dem das Vorhandensein einer Objektgruppe das Auftreten anderer Objektgruppen erhöht.
Der Auftrieb zwischen dem Auftreten von A und B kann gemessen werden durch:
Heben Sie (A, B) = P (A U B) / P (A) an. P (B).
Wenn ja<1, then A and B are negatively correlated.
Wenn es> 1 ist. Dann sind A und B positiv korreliert, was bedeutet, dass das Auftreten des einen das Auftreten des anderen impliziert.
Wenn es = 1 ist, gibt es keine Korrelation zwischen ihnen.
(ii) Chi-Quadrat: Dies ist ein weiteres Korrelationsmaß. Es misst die quadratische Differenz zwischen dem beobachteten und dem erwarteten Wert für einen Schlitz (A- und B-Paar) geteilt durch den erwarteten Wert.
Wenn es> 1 ist, ist es negativ korreliert.
# 3) Klassifizierung
Die Klassifizierung hilft beim Erstellen von Modellen wichtiger Datenklassen. Ein Modell oder ein Klassifikator wird konstruiert, um die Klassenbezeichnungen vorherzusagen. Beschriftungen sind die definierten Klassen mit diskreten Werten wie 'Ja' oder 'Nein', 'sicher' oder 'riskant'. Es ist eine Art von überwachtem Lernen, da die Label-Klasse bereits bekannt ist.
Die Datenklassifizierung erfolgt in zwei Schritten:
- Lernschritt: Das Modell wird hier konstruiert. Ein vordefinierter Algorithmus wird auf die Daten angewendet, um sie mit einer bereitgestellten Klassenbezeichnung zu analysieren, und die Klassifizierungsregeln werden erstellt.
- Klassifizierungsschritt: Das Modell wird verwendet, um Klassenbezeichnungen für bestimmte Daten vorherzusagen. Die Genauigkeit der Klassifizierungsregeln wird anhand der Testdaten geschätzt, die, wenn sie als genau befunden werden, zur Klassifizierung neuer Datentupel verwendet werden.
Die Elemente in der Elementgruppe werden den Zielkategorien zugewiesen, um Funktionen auf Klassenbeschriftungsebene vorherzusagen.
Anwendung: Banken zur Identifizierung von Kreditantragstellern als Unternehmen mit geringem, mittlerem oder hohem Risiko, die Marketingkampagnen auf der Grundlage der Altersgruppenklassifizierung entwerfen. '
# 4) Entscheidungsbauminduktion
Die Methode zur Induktion von Entscheidungsbäumen fällt unter die Klassifizierungsanalyse. Ein Entscheidungsbaum ist eine baumartige Struktur, die leicht zu verstehen und einfach und schnell ist. Dabei repräsentiert jeder Nicht-Blattknoten einen Test für ein Attribut und jeder Zweig repräsentiert das Ergebnis des Tests, und der Blattknoten repräsentiert die Klassenbezeichnung.
Die Attributwerte in einem Tupel werden anhand des Entscheidungsbaums von der Wurzel bis zum Blattknoten getestet. Entscheidungsbäume sind beliebt, da sie keine Domänenkenntnisse erfordern. Diese können mehrdimensionale Daten darstellen. Die Entscheidungsbäume können leicht in Klassifizierungsregeln konvertiert werden.
Anwendung: Die Entscheidungsbäume werden in Medizin, Herstellung, Produktion, Astronomie usw. erstellt. Ein Beispiel ist unten zu sehen:
# 5) Bayes-Klassifikation
Die Bayes'sche Klassifikation ist eine weitere Methode der Klassifikationsanalyse. Bayes-Klassifikatoren sagen die Wahrscheinlichkeit voraus, dass ein bestimmtes Tupel zu einer bestimmten Klasse gehört. Es basiert auf dem Bayes-Theorem, das auf der Wahrscheinlichkeits- und Entscheidungstheorie basiert.
Die Bayes-Klassifikation arbeitet mit der posterioren Wahrscheinlichkeit und der vorherigen Wahrscheinlichkeit für den Entscheidungsprozess. Durch die hintere Wahrscheinlichkeit wird die Hypothese aus der gegebenen Information gemacht, d. H. Die Attributwerte sind bekannt, während für die vorherige Wahrscheinlichkeit die Hypothesen unabhängig von den Attributwerten gegeben sind.
wie man eine jnlp-Datei ausführt
# 6) Clusteranalyse
Es ist eine Technik zum Partitionieren eines Datensatzes in Cluster oder Gruppen von Objekten. Das Clustering erfolgt mithilfe von Algorithmen. Es handelt sich um eine Art unbeaufsichtigtes Lernen, da die Etiketteninformationen nicht bekannt sind. Clustering-Methoden identifizieren Daten, die ähnlich oder voneinander verschieden sind, und es wird eine Analyse der Merkmale durchgeführt.
Die Clusteranalyse kann als Vorschritt zum Anwenden verschiedener anderer Algorithmen wie Charakterisierung, Auswahl von Attributuntermengen usw. verwendet werden. Die Clusteranalyse kann auch zur Ausreißererkennung verwendet werden, z. B. bei hohen Einkäufen bei Kreditkartentransaktionen.
Anwendungen: Bilderkennung, Websuche und Sicherheit.
# 7) Ausreißererkennung
Das Auffinden von Datenobjekten, die ein außergewöhnliches Verhalten gegenüber den anderen Objekten aufweisen, wird als Ausreißererkennung bezeichnet. Ausreißererkennung und Clusteranalyse hängen miteinander zusammen. Ausreißermethoden werden in statistische, Proximity-basierte, Clustering-basierte und Klassifizierungs-basierte Methoden eingeteilt.
Es gibt verschiedene Arten von Ausreißern, einige davon sind:
- Globaler Ausreißer: Das Datenobjekt weicht erheblich vom Rest des Datensatzes ab.
- Kontext-Ausreißer: Dies hängt von bestimmten Faktoren wie Tag, Uhrzeit und Ort ab. Wenn ein Datenobjekt in Bezug auf einen Kontext erheblich abweicht.
- Kollektiver Ausreißer: Wenn eine Gruppe von Datenobjekten ein anderes Verhalten als der gesamte Datensatz aufweist.
Anwendung: Erkennung von Kreditkartenbetrugsrisiken, Erkennung von Neuheiten usw.
# 8) Sequentielle Muster
Bei dieser Art des Data Mining werden ein Trend oder einige konsistente Muster erkannt. Das Verständnis des Kaufverhaltens und der sequentiellen Muster der Kunden wird von den Geschäften verwendet, um ihre Produkte in Regalen zu präsentieren.
Anwendung: E-Commerce-Beispiel: Wenn Sie Artikel A kaufen, wird angezeigt, dass Artikel B häufig mit Artikel A gekauft wird, wobei die vergangene Kaufhistorie berücksichtigt wird.
# 9) Regressionsanalyse
Diese Art der Analyse wird überwacht und identifiziert, welche Itemsets zwischen den verschiedenen Beziehungen miteinander in Beziehung stehen oder voneinander unabhängig sind. Es kann Umsatz, Gewinn, Temperatur, menschliches Verhalten usw. vorhersagen. Es hat einen Datensatzwert, der bereits bekannt ist.
Wenn eine Eingabe bereitgestellt wird, vergleicht der Regressionsalgorithmus die Eingabe und den erwarteten Wert, und der Fehler wird berechnet, um zum genauen Ergebnis zu gelangen.
Anwendung: Vergleich von Marketing- und Produktentwicklungsbemühungen.
Top Data Mining-Algorithmen
Data Mining-Techniken werden über die dahinter stehenden Algorithmen angewendet. Diese Algorithmen laufen auf der Datenextraktionssoftware und werden je nach Geschäftsanforderungen angewendet.
Einige der Algorithmen, die von Organisationen häufig zur Analyse der Datensätze verwendet werden, sind nachstehend definiert:
- K-bedeutet: Es ist eine beliebte Clusteranalysetechnik, bei der eine Gruppe ähnlicher Elemente zusammen gruppiert wird.
- Apriori-Algorithmus: Es handelt sich um eine häufige Itemset-Mining-Technik, auf die in Transaktionsdatenbanken Zuordnungsregeln angewendet werden. Es erkennt häufige Artikelgruppen und hebt allgemeine Trends hervor.
- K Nächster Nachbar: Diese Methode wird zur Klassifizierungs- und Regressionsanalyse verwendet. Der k nächste Nachbar lernt faul, wo er die Trainingsdaten speichert, und wenn neue unbeschriftete Daten kommen, klassifiziert er die Eingabedaten.
- Bayes Schiffe: Es handelt sich um eine Gruppe einfacher probabilistischer Klassifizierungsalgorithmen, die davon ausgehen, dass jedes Datenobjekt unabhängig vom anderen ist. Es ist eine Anwendung des Bayes-Theorems.
- AdaBoost: Es ist ein Metaalgorithmus für maschinelles Lernen, mit dem die Leistung verbessert wird. Adaboost reagiert empfindlich auf verrauschte Daten und Ausreißer.
Datenextraktionsmethoden
Einige erweiterte Data Mining-Methoden zur Behandlung komplexer Datentypen werden nachfolgend erläutert.
Die Daten in der heutigen Welt sind unterschiedlich und reichen von einfachen bis zu komplexen Daten. Um komplexe Datentypen wie Zeitreihen, mehrdimensionale, räumliche und multimediale Daten abzubauen, sind fortschrittliche Algorithmen und Techniken erforderlich.
Einige von ihnen werden unten beschrieben:
- KLICKEN: Es war die erste Clustering-Methode, bei der die Cluster in einem mehrdimensionalen Unterraum gefunden wurden.
- P3C: Es ist eine bekannte Clustering-Methode für moderate bis hohe mehrdimensionale Daten.
- SEE: Es ist eine auf k-Mitteln basierende Methode, die darauf abzielt, Daten mittlerer bis hoher Dimensionalität zu gruppieren. Der Algorithmus partitioniert die Daten in k disjunkte Mengen von Elementen, indem er die möglichen Ausreißer entfernt.
- LOCKENWICKLER: Es ist ein Korrelationsclustering-Algorithmus, der sowohl lineare als auch nichtlineare Korrelationen erkennt.
Top Data Mining-Tools
Data Mining Tools sind Software zum Minen von Daten. Die Tools führen Algorithmen im Backend aus. Diese Tools sind auf dem Markt als Open Source, Freie Software und Lizenzversion erhältlich.
Einige der Datenextraktionswerkzeuge umfassen:
# 1) RapidMiner
RapidMiner ist eine Open-Source-Softwareplattform für Analyseteams, die Datenvorbereitung, maschinelles Lernen und Bereitstellung prädiktiver Modelle vereint. Dieses Tool wird zum Durchführen von Data Mining-Analysen und zum Erstellen von Datenmodellen verwendet. Es verfügt über große Mengen für Klassifizierungs-, Clustering-, Assoziationsregel-Mining- und Regressionsalgorithmen.
# 2) Orange
Es ist ein Open-Source-Tool, das ein Paket zur Datenvisualisierung und -analyse enthält. Orange kann in jede funktionierende Python-Umgebung importiert werden. Es eignet sich gut für neue Forscher und kleine Projekte.
# 3) SPRACHE
KEEL (Knowledge Extraction basierend auf evolutionärem Lernen) ist eine Open Source ( GPLv3 ) Java-Software-Tool, das für eine Vielzahl unterschiedlicher Aufgaben zur Erkennung von Wissensdaten verwendet werden kann.
# 4) SPSS
IBM SPSS Modeler ist eine Data Mining- und Textanalyse-Softwareanwendung von IBM. Es wird verwendet, um Vorhersagemodelle zu erstellen und andere analytische Aufgaben auszuführen.
# 5) KNIME
Es ist ein kostenloses Open-Source-Tool, das ein Paket zur Datenbereinigung und -analyse sowie spezielle Algorithmen in den Bereichen Stimmungsanalyse und Analyse sozialer Netzwerke enthält. KNIME kann Daten aus verschiedenen Quellen in dieselbe Analyse integrieren. Es hat eine Schnittstelle mit Java, Python und R-Programmierung.
Wichtige Frage: Wie unterscheidet sich die Klassifizierung von der Vorhersage?
Die Klassifizierung ist eine Gruppierung von Daten. Ein Beispiel für die Klassifizierung ist die Gruppierung nach Altersgruppe, Gesundheitszustand usw. Während die Vorhersage anhand der klassifizierten Daten ein Ergebnis ableitet.
Ein Beispiel of Predictive Analysis prognostiziert die Interessen basierend auf der Altersgruppe und der Behandlung einer Krankheit. Die Vorhersage wird auch als Schätzung für kontinuierliche Werte bezeichnet.
Wichtiger Begriff: Predictive Data Mining
Predictive Data Mining wird durchgeführt, um bestimmte Datentrends mithilfe von Business Intelligence und anderen Daten vorherzusagen oder vorherzusagen. Es hilft Unternehmen dabei, bessere Analysen durchzuführen und bessere Entscheidungen zu treffen. Predictive Analytics wird häufig mit Predictive Data Mining kombiniert.
Das Predictive Data Mining ermittelt die relevanten Daten für die Analyse. Predictive Analytics verwendet Daten, um das Ergebnis vorherzusagen.
Fazit
In diesem Tutorial haben wir die verschiedenen Data Mining-Techniken erläutert, mit denen Unternehmen und Unternehmen die nützlichsten und relevantesten Informationen finden können. Diese Informationen werden verwendet, um Modelle zu erstellen, die das Verhalten der Kunden vorhersagen, damit die Unternehmen darauf reagieren können.
Wenn man alle oben genannten Informationen über die Data Mining-Techniken liest, kann man deren Glaubwürdigkeit und Durchführbarkeit noch besser bestimmen. Datenextraktionstechniken umfassen das Arbeiten mit Daten, das Neuformatieren von Daten und die Umstrukturierung von Daten. Das Format der benötigten Informationen basiert auf der Technik und der durchzuführenden Analyse.
Schließlich helfen alle Techniken, Methoden und Data Mining-Systeme bei der Entdeckung neuer kreativer Innovationen.
PREV Tutorial | NÄCHSTES Tutorial
Literatur-Empfehlungen
- Data Mining: Prozesse, Techniken und wichtige Probleme bei der Datenanalyse
- 10 besten Datenmodellierungswerkzeuge zum Verwalten komplexer Designs
- Top 15 der besten kostenlosen Data Mining-Tools: Die umfassendste Liste
- 10+ beste Datenerfassungstools mit Datenerfassungsstrategien
- Top 10 Datenbank-Design-Tools zum Erstellen komplexer Datenmodelle
- 10+ beste Data Governance-Tools zur Erfüllung Ihrer Datenanforderungen im Jahr 2021
- Data Mining gegen maschinelles Lernen gegen künstliche Intelligenz gegen tiefes Lernen
- Top 14 der besten Tools zur Verwaltung von Testdaten im Jahr 2021