WEKA Explorer: Visualisierung, Clustering, Assoziationsregel-Mining

weka explorer visualization

Versuchen Sie Unser Instrument, Um Probleme Zu Beseitigen

Wählen Sie Das Betriebssystem Aus Wählen Sie Ein Projektionsprogramm (Optional)

Beschreiben Sie Ihr Problem

In diesem Lernprogramm wird erläutert, wie Sie mit dem WEKA Explorer Datenvisualisierung, K-Means-Cluster-Analyse und Assoziationsregel-Mining durchführen:

In dem Vorheriges Tutorial Wir haben etwas über den WEKA-Datensatz, den Klassifikator und den J48-Algorithmus für den Entscheidungsbaum gelernt.

Wie wir bereits gesehen haben, ist WEKA ein Open-Source-Data-Mining-Tool, mit dem viele Forscher und Studenten viele maschinelle Lernaufgaben ausführen. Die Benutzer können auch ihre Methoden für maschinelles Lernen erstellen und Experimente mit Beispieldatensätzen durchführen, die im WEKA-Verzeichnis bereitgestellt werden.

Die Datenvisualisierung in WEKA kann mithilfe von Beispieldatensätzen oder benutzerdefinierten Datensätzen im Format .arff, .csv durchgeführt werden.

=> Lesen Sie die komplette Schulungsreihe zum maschinellen Lernen durch

WEKA Explorer

Association Rule Mining wird unter Verwendung des Apriori-Algorithmus durchgeführt. Es ist der einzige von WEKA bereitgestellte Algorithmus, der häufiges Pattern Mining durchführt.

In WEKA sind viele Algorithmen zur Durchführung von Clusteranalysen vorhanden, z. B. FartherestFirst, FilteredCluster und HierachicalCluster usw. Von diesen verwenden wir SimpleKmeans, die einfachste Methode zum Clustering.

Was du lernen wirst:

Assoziationsregel-Mining mit WEKA Explorer
K-bedeutet Algorithmus mit WEKA Explorer
Implementieren Sie die Datenvisualisierung mit WEKA
- Datenvisualisierung
- Datenvisualisierung mit WEKA Explorer
Fazit
- Literatur-Empfehlungen

Assoziationsregel-Mining mit WEKA Explorer

Lassen Sie uns sehen, wie Sie Association Rule Mining mit WEKA Explorer implementieren.

Association Rule Mining

Es wurde 1994 von Srikant und Aggarwal entwickelt und entworfen. Es hilft uns, Muster in den Daten zu finden. Es ist ein Data Mining-Prozess, der Features findet, die zusammen auftreten, oder Features, die korreliert sind.

Fragen und Antworten zum Java-Programmierinterview für erfahrene

Zu den Anwendungen der Zuordnungsregeln gehört die Warenkorbanalyse, um die in einem einzelnen Warenkorb gekauften Artikel zu analysieren. Cross Marketing, um mit anderen Unternehmen zusammenzuarbeiten, die unseren Geschäftsproduktwert steigern, wie z. B. dem Fahrzeughändler und der Oil Company.

Zuordnungsregeln werden ermittelt, nachdem häufige Elementmengen in einem großen Datensatz gefunden wurden. Diese Datensätze werden mithilfe von Mining-Algorithmen wie Apriori und FP Growth ermittelt. Häufige Itemset-Mining-Minendaten mithilfe von Unterstützungs- und Vertrauensmaßnahmen.

Unterstützung und Vertrauen

Unterstützung misst die Wahrscheinlichkeit, dass zwei Artikel in einer einzigen Transaktion zusammen gekauft werden, z. B. Brot und Butter. Vertrauen ist ein Maß, das die Wahrscheinlichkeit angibt, dass zwei Artikel nacheinander, jedoch nicht zusammen gekauft werden, z. B. Antivirensoftware für Laptops und Computer.

Es wird davon ausgegangen, dass die Mindestschwellenunterstützung und die Mindestschwellenwert-Konfidenzwerte die Transaktionen beschneiden und die am häufigsten auftretende Elementmenge ermitteln.

Implementierung mit WEKA Explorer

WEKA enthält eine Implementierung der Apriori-Algorithmus zum Lernen von Assoziationsregeln. Apriori arbeitet nur mit binären Attributen, kategorialen Daten (Nenndaten). Wenn der Datensatz numerische Werte enthält, konvertieren Sie diese zuerst in Nennwerte.

Apriori findet alle Regeln mit minimaler Unterstützungs- und Vertrauensschwelle heraus.

Folgen Sie den unteren Schritten:

# 1) Bereiten Sie einen Excel-Dateidatensatz vor und nennen Sie ihn „ apriori.csv '.

Excel-Datei

#zwei) Öffnen Sie den WEKA Explorer und wählen Sie auf der Registerkarte 'Vorverarbeitung' die Datei 'apriori.csv'.

Wählen Sie die Datei

#3) Die Datei wird jetzt in den WEKA Explorer geladen.

Datei geladen

# 4) Entfernen Sie das Feld Transaktion, indem Sie das Kontrollkästchen aktivieren und auf Entfernen klicken (siehe Abbildung unten). Speichern Sie nun die Datei als 'aprioritest.arff'.

Transaktion entfernen

aprioritest speichern

# 5) Wechseln Sie zur Registerkarte Zuordnen. Die Apriori-Regeln können von hier aus abgebaut werden.

# 6) Klicken Sie auf Auswählen, um die Unterstützungs- und Vertrauensparameter festzulegen. Die verschiedenen Parameter, die hier eingestellt werden können, sind:

'' lowerBoundMinSupport ' und ' UpperBoundMinSupport Dies ist das Intervall für die Unterstützungsstufe, in dem unser Algorithmus funktioniert.
Delta ist das Inkrement in der Unterstützung. In diesem Fall ist 0,05 das Inkrement der Unterstützung von 0,1 auf 1.
metricType kann 'Vertrauen', 'Aufzug', 'Hebel' und 'Überzeugung' sein. Dies sagt uns, wie wir die Assoziationsregeln einstufen. Im Allgemeinen wird Vertrauen gewählt.
numRules gibt die Anzahl der Assoziationsregeln an, die abgebaut werden sollen. Standardmäßig ist es auf 10 eingestellt.
Signifikanzniveau zeigt, welche Bedeutung das Konfidenzniveau hat.

Unterstützungs- und Vertrauensparameter

# 7) Das Textfeld neben der Schaltfläche 'Auswählen' zeigt ' Apriori-N-10-T-0-C-0,9-D 0,05-U1,0-M0,1-S-1,0-c-1 ”, In dem die zusammengefassten Regeln für den Algorithmus auf der Registerkarte Einstellungen dargestellt sind.

Assoziieren

# 8) Klicken Sie auf die Schaltfläche Start. Die Zuordnungsregeln werden im rechten Bereich generiert. Dieses Panel besteht aus 2 Abschnitten. Zunächst wird der Algorithmus ausgewählt, dessen Datensatz zum Ausführen ausgewählt wurde. Der zweite Teil zeigt die Apriori-Informationen.

Apriori Informationen

Lassen Sie uns die Laufinformationen im rechten Bereich verstehen:

Schema verwendet uns Apriori.
Instanzen und Attribute: Es hat 6 Instanzen und 4 Attribute.
Die minimale Unterstützung und das minimale Vertrauen betragen 0,4 bzw. 0,9. Von 6 Instanzen werden 2 Instanzen mit minimaler Unterstützung gefunden.
Die Anzahl der für die Mining-Assoziationsregel durchgeführten Zyklen beträgt 12.
Die generierten großen Elementmengen sind 3: L (1), L (2), L (3), aber diese werden nicht eingestuft, da ihre Größen 7, 11 bzw. 5 sind.
Gefundene Regeln sind geordnet. Die Interpretation dieser Regeln ist wie folgt:
- Butter T 4 => Bier F 4: bedeutet, dass von 6, 4 Instanzen zeigen, dass für Butter wahr, Bier falsch ist. Dies ergibt eine starke Assoziation. Das Konfidenzniveau beträgt 0,1.

Ausgabe

Die Zuordnungsregeln können mit dem WEKA Explorer mit Apriori-Algorithmus ermittelt werden. Dieser Algorithmus kann auf alle im WEKA-Verzeichnis verfügbaren Datasets sowie auf andere vom Benutzer erstellte Datasets angewendet werden. Die Unterstützung und das Vertrauen sowie andere Parameter können über das Einstellungsfenster des Algorithmus eingestellt werden.

K-bedeutet Algorithmus mit WEKA Explorer

Lassen Sie uns sehen, wie der K-means-Algorithmus für das Clustering mit dem WEKA Explorer implementiert wird.

Was ist Clusteranalyse?

Clustering-Algorithmen sind unbeaufsichtigte Lernalgorithmen, mit denen Datengruppen mit ähnlichen Merkmalen erstellt werden. Es aggregiert Objekte mit Ähnlichkeiten in Gruppen und Untergruppen und führt so zur Partitionierung von Datasets. Bei der Clusteranalyse werden Datensätze in Teilmengen aufgeteilt. Diese Teilmengen werden als Cluster bezeichnet, und die Gruppe von Clustern wird als Clustering bezeichnet.

Die Clusteranalyse wird in vielen Anwendungen wie Bilderkennung, Mustererkennung, Websuche und Sicherheit verwendet, in Business Intelligence wie der Gruppierung von Kunden mit ähnlichen Vorlieben.

Was ist K-bedeutet Clustering

K bedeutet, dass Clustering der einfachste Clustering-Algorithmus ist. Im K-Clustering-Algorithmus wird der Datensatz in K-Cluster aufgeteilt. Eine Zielfunktion wird verwendet, um die Qualität von Partitionen zu ermitteln, sodass sich ähnliche Objekte in einem Cluster und unterschiedliche Objekte in anderen Gruppen befinden.

Bei dieser Methode wird festgestellt, dass der Schwerpunkt eines Clusters einen Cluster darstellt. Der Schwerpunkt wird als Mittelpunkt des Clusters genommen, der als Mittelwert der Punkte innerhalb des Clusters berechnet wird. Die Qualität der Clusterbildung wird nun durch Messen des euklidischen Abstands zwischen Punkt und Zentrum ermittelt. Dieser Abstand sollte maximal sein.

Wie funktioniert der K-Mean-Clustering-Algorithmus?

Schritt 1: Wählen Sie einen Wert von K, wobei K die Anzahl der Cluster ist.

Schritt 2: Iterieren Sie jeden Punkt und weisen Sie den Cluster zu, der das nächstgelegene Zentrum hat. Wenn jedes Element iteriert wird, berechnen Sie den Schwerpunkt aller Cluster.

Schritt 3: Iterieren Sie jedes Element aus dem Datensatz und berechnen Sie den euklidischen Abstand zwischen dem Punkt und dem Schwerpunkt jedes Clusters. Wenn im Cluster ein Punkt vorhanden ist, der ihm nicht am nächsten liegt, weisen Sie diesen Punkt dem nächstgelegenen Cluster zu. Nachdem Sie dies für alle Punkte im Datensatz durchgeführt haben, berechnen Sie erneut den Schwerpunkt jedes Clusters.

Schritt 4: Führen Sie Schritt 3 aus, bis zwischen den beiden aufeinander folgenden Iterationen keine neue Zuordnung stattgefunden hat.

K-bedeutet Clustering-Implementierung mit WEKA

Die Schritte zur Implementierung mit Weka sind wie folgt:

# 1) Öffnen Sie den WEKA Explorer und klicken Sie auf der Registerkarte Vorverarbeitung auf Datei öffnen. Wählen Sie den Datensatz 'vote.arff'.

stimmen.arff

#zwei) Gehen Sie zur Registerkarte 'Cluster' und klicken Sie auf die Schaltfläche 'Auswählen'. Wählen Sie die Clustering-Methode als 'SimpleKMeans'.

SimpleKmeans

# 3) Wählen Sie Einstellungen und stellen Sie dann die folgenden Felder ein:

Distanzfunktion als Euklidian
Die Anzahl der Cluster beträgt 6. Mit einer größeren Anzahl von Clustern verringert sich die Summe der quadratischen Fehler.
Samen als 10. von

Klicken Sie auf OK und starten Sie den Algorithmus.

Kmeans Einstellungen

# 4) Klicken Sie im linken Bereich auf Start. Die Ergebnisse der Algorithmusanzeige werden auf dem weißen Bildschirm angezeigt. Lassen Sie uns die Laufinformationen analysieren:

Schema, Beziehung, Instanzen und Attribute beschreiben die Eigenschaften des Datasets und die verwendete Clustering-Methode. In diesem Fall verfügt der Datensatz 'vote.arff' über 435 Instanzen und 13 Attribute.
Beim Kmeans-Cluster beträgt die Anzahl der Iterationen 5.
Die Summe des quadratischen Fehlers beträgt 1098,0. Dieser Fehler verringert sich mit zunehmender Anzahl von Clustern.
Die 5 endgültigen Cluster mit Schwerpunkten werden in Form einer Tabelle dargestellt. In unserem Fall sind die Zentroide von Clustern 168,0, 47,0, 37,0, 122,0,33,0 und 28,0.
Clusterinstanzen geben die Anzahl und den Prozentsatz aller Instanzen an, die in den Cluster fallen.

Führen Sie Informationen aus

Kmeans Information

# 5) Wählen Sie 'Klassen zu Cluster-Bewertungen' und klicken Sie auf 'Start'.

Der Algorithmus weist dem Cluster die Klassenbezeichnung zu. Cluster 0 steht für Republikaner und Cluster 3 für Demokraten. Die falsch gruppierte Instanz beträgt 39,77%, was durch Ignorieren der unwichtigen Attribute reduziert werden kann.

Klassen zu Cluster-Bewertungen

# 6) Die unwichtigen Attribute ignorieren. Klicken Sie auf die Schaltfläche 'Attribute ignorieren' und wählen Sie die zu entfernenden Attribute aus.

# 7) Verwenden Sie die Registerkarte 'Visualisieren', um das Ergebnis des Clustering-Algorithmus zu visualisieren. Gehen Sie zur Registerkarte und klicken Sie auf ein Feld. Bewegen Sie den Jitter auf max.

Die X-Achse und die Y-Achse repräsentieren das Attribut.
Die blaue Farbe steht für das Klassenlabel Demokrat und die rote Farbe für das Klassenlabel Republikaner.
Jitter wird zum Anzeigen von Clustern verwendet.
Klicken Sie auf das Feld auf der rechten Seite des Fensters, um das x-Koordinatenattribut zu ändern und die Clusterbildung in Bezug auf andere Attribute anzuzeigen.

Klassen

Ausgabe

K bedeutet, dass Clustering eine einfache Methode zur Clusteranalyse ist. Die Anzahl der Cluster kann über die Registerkarte Einstellung festgelegt werden. Der Schwerpunkt jedes Clusters wird als Mittelwert aller Punkte innerhalb der Cluster berechnet. Mit zunehmender Anzahl von Clustern verringert sich die Summe der quadratischen Fehler. Die Objekte innerhalb des Clusters weisen ähnliche Eigenschaften und Eigenschaften auf. Die Cluster repräsentieren die Klassenbezeichnungen.

Implementieren Sie die Datenvisualisierung mit WEKA

Datenvisualisierung

Die Methode zur Darstellung von Daten durch Grafiken und Diagramme mit dem Ziel, Daten klar zu verstehen, ist die Datenvisualisierung.

Es gibt viele Möglichkeiten, Daten darzustellen. Einige von ihnen sind wie folgt:

# 1) Pixelorientierte Visualisierung: Hier repräsentiert die Farbe des Pixels den Dimensionswert. Die Farbe des Pixels repräsentiert die entsprechenden Werte.

PixelOriented

# 2) Geometrische Darstellung: Die mehrdimensionalen Datensätze werden in 2D-, 3D- und 4D-Streudiagrammen dargestellt.

Streudiagramm

# 3) Symbolbasierte Visualisierung: Die Daten werden mit Chernoffs Gesichtern und Strichmännchen dargestellt. Chernoffs Gesichter nutzen die Fähigkeit des menschlichen Geistes, Gesichtsmerkmale und Unterschiede zwischen ihnen zu erkennen. Die Strichmännchen verwendet 5 Strichmännchen, um mehrdimensionale Daten darzustellen.

Cheronoff

# 4) Hierarchische Datenvisualisierung: Die Datensätze werden mithilfe von Baumkarten dargestellt. Es repräsentiert hierarchische Daten als Satz verschachtelter Dreiecke.

Baumkarten

Datenvisualisierung mit WEKA Explorer

Die Datenvisualisierung mit WEKA erfolgt im Datensatz IRIS.arff.

Folgende Schritte sind erforderlich:

# 1) Wechseln Sie zur Registerkarte Vorverarbeitung, und öffnen Sie das Dataset IRIS.arff.

#zwei) Der Datensatz hat 4 Attribute und 1 Klassenbezeichnung. Die Attribute in diesem Datensatz sind:

Sepallength: Geben Sie -numeric ein
Sepalwidth: Typennumerisch
Petalength: Typ-numerisch
Blütenblattbreite: Typ-numerisch
Klasse: Typ-nominal

Visualisierung

#3) Wechseln Sie zur Visualisierung des Datasets zur Registerkarte Visualisieren. Die Registerkarte zeigt die Attributplotmatrix. Die Datensatzattribute werden auf der x- und der y-Achse markiert, während die Instanzen geplottet werden. Das Feld mit dem x-Achsenattribut und dem y-Achsenattribut kann vergrößert werden.

Registerkarte

# 4) Klicken Sie auf das Feld des Diagramms, um es zu vergrößern. Beispielsweise, x: Blütenblattlänge und y: Blütenblattbreite. Die Klassenbezeichnungen werden in verschiedenen Farben dargestellt.

Klassenetikett - Iris-Setosa: blaue Farbe
Klassenetikett - Iris-versicolor: rot
Klassenetikett-Iris-virginica-grün

Diese Farben können geändert werden. Um die Farbe zu ändern, klicken Sie unten auf die Klassenbezeichnung. Ein Farbfenster wird angezeigt.

Registerkarte

Open Source Betriebssysteme für PC

Farbfenster

# 5) Klicken Sie im Diagramm auf die durch 'x' dargestellte Instanz. Es werden die Instanzdetails angegeben. Zum Beispiel:

Instanznummer: 91
Sepalength: 5.5
Sepalwidth: 2.6
Petalength: 4.4
Blütenblattbreite: 1.2
Klasse: Iris-versicolor

Einige der Punkte im Diagramm erscheinen dunkler als andere Punkte. Diese Punkte repräsentieren zwei oder mehr Instanzen mit derselben Klassenbezeichnung und demselben Wert von Attributen, die im Diagramm dargestellt sind, wie z. B. Blütenblattbreite und Blütenblattlänge.

Die folgende Abbildung zeigt einen Punkt mit 2 Instanzinformationen.

Instanzdetails

Weka-Instanzen

# 6) Die Attribute der X- und Y-Achse können im rechten Bereich des Visualisierungsdiagramms geändert werden. Der Benutzer kann verschiedene Diagramme anzeigen.

# 7) Der Jitter wird verwendet, um dem Plot Zufälligkeit hinzuzufügen. Manchmal überlappen sich die Punkte. Bei Jitter repräsentieren die dunkleren Punkte mehrere Instanzen.

Jitter

# 8) Um eine klarere Ansicht des Datasets zu erhalten und Ausreißer zu entfernen, kann der Benutzer eine Instanz aus der Dropdown-Liste auswählen. Klicken Sie auf die Dropdown-Liste 'Instanz auswählen'. Wählen Sie 'Rechteck'. Auf diese Weise kann der Benutzer Punkte im Diagramm auswählen, indem er ein Rechteck zeichnet.

Wählen Sie Instanz

# 9) Klicken Sie auf 'Senden'. Es werden nur die ausgewählten Datensatzpunkte angezeigt und die anderen Punkte werden aus dem Diagramm ausgeschlossen.

Die folgende Abbildung zeigt die Punkte aus der ausgewählten rechteckigen Form. Das Diagramm repräsentiert Punkte mit nur 3 Klassenbeschriftungen. Der Benutzer kann auf 'Speichern' klicken, um den Datensatz zu speichern, oder auf 'Zurücksetzen', um eine andere Instanz auszuwählen. Der Datensatz wird in einer separaten .ARFF-Datei gespeichert.

Rechteckige Instanz

Ausgabe:

Die Datenvisualisierung mit WEKA wird mithilfe des Boxplots vereinfacht. Der Benutzer kann jede Granularitätsstufe anzeigen. Die Attribute werden auf der X-Achse und der Y-Achse aufgezeichnet, während die Instanzen auf der X- und Y-Achse dargestellt werden. Einige Punkte stellen mehrere Instanzen dar, die durch Punkte mit dunkler Farbe dargestellt werden.

Fazit

WEKA ist ein effizientes Data Mining-Tool, mit dem Sie viele Data Mining-Aufgaben ausführen und mit neuen Methoden über Datensätze experimentieren können. WEKA wurde vom Institut für Informatik der University of Waikato in Neuseeland entwickelt.

Die heutige Welt ist mit Daten überfüllt, angefangen beim Einkauf im Supermarkt bis hin zu Überwachungskameras bei uns zu Hause. Data Mining verwendet diese Rohdaten und konvertiert sie in Informationen, um Vorhersagen zu treffen. WEKA hilft mit Hilfe des Apriori-Algorithmus beim Mining von Assoziationsregeln im Datensatz. Apriori ist ein häufiger Pattern-Mining-Algorithmus, der die Anzahl der Vorkommen einer Elementmenge in der Transaktion zählt.

Die Clusteranalyse ist eine Technik, um Datencluster herauszufinden, die ähnliche Merkmale aufweisen. WEKA bietet viele Algorithmen zur Durchführung von Clusteranalysen, bei denen einfache Mittelwerte häufig verwendet werden.

Die Datenvisualisierung in WEKA kann für alle Datensätze im WEKA-Verzeichnis durchgeführt werden. Der Rohdatensatz kann angezeigt werden, und andere resultierende Datensätze anderer Algorithmen wie Klassifizierung, Clustering und Zuordnung können mithilfe von WEKA visualisiert werden.

=> Besuchen Sie hier für die exklusive maschinelle Lernserie

WEKA Explorer: Visualisierung, Clustering, Assoziationsregel-Mining

Assoziationsregel-Mining mit WEKA Explorer

Association Rule Mining

Unterstützung und Vertrauen

Implementierung mit WEKA Explorer

K-bedeutet Algorithmus mit WEKA Explorer

Was ist Clusteranalyse?

Was ist K-bedeutet Clustering

Wie funktioniert der K-Mean-Clustering-Algorithmus?

K-bedeutet Clustering-Implementierung mit WEKA

Implementieren Sie die Datenvisualisierung mit WEKA

Datenvisualisierung

Datenvisualisierung mit WEKA Explorer

Fazit

Literatur-Empfehlungen

Interessante Artikel

Tipp Der Redaktion

Portal: Revolution ist ein kostenloser, von Fans erstellter Mod, der immer beliebter wird

Bluehost vs GoDaddy - Welches Webhosting-Unternehmen ist besser?

Bewertung: Mega Man 11

Ich habe mir einen Nerf Blaster für einen Halo Infinite Skin gekauft und bereue nichts

Leben mit Mario Prinzessinnen und berühmten Persönlichkeiten: Meine Tochter spielt Tomodachi Life

Marvels Spider-Man-PC-Patch reduziert Abstürze und Raytracing-Probleme

Final Fantasy XV PS4 Pro Update kommt im Februar, ordentlicher Exosuit DLC verzögert sich

Eine spoilerfreie Anleitung, wie man die drei am schwersten zu findenden Xenoblade Chronicles 3-Klassen bekommt

Awesome Games Done Quick 2023 sammelte 2,6 Millionen US-Dollar für die Prevent Cancer Foundation

Senran Kagura: Peach Beach Splash-Details enthüllen die Spielmechanik und die Oberweite

Halo-Veteran Joseph Staten verlässt Microsoft

Unter dem Schlaf ist jetzt unter dem Kickstarter (Update)