weka explorer visualization
In diesem Lernprogramm wird erläutert, wie Sie mit dem WEKA Explorer Datenvisualisierung, K-Means-Cluster-Analyse und Assoziationsregel-Mining durchführen:
In dem Vorheriges Tutorial Wir haben etwas über den WEKA-Datensatz, den Klassifikator und den J48-Algorithmus für den Entscheidungsbaum gelernt.
Wie wir bereits gesehen haben, ist WEKA ein Open-Source-Data-Mining-Tool, mit dem viele Forscher und Studenten viele maschinelle Lernaufgaben ausführen. Die Benutzer können auch ihre Methoden für maschinelles Lernen erstellen und Experimente mit Beispieldatensätzen durchführen, die im WEKA-Verzeichnis bereitgestellt werden.
Die Datenvisualisierung in WEKA kann mithilfe von Beispieldatensätzen oder benutzerdefinierten Datensätzen im Format .arff, .csv durchgeführt werden.
=> Lesen Sie die komplette Schulungsreihe zum maschinellen Lernen durch
Association Rule Mining wird unter Verwendung des Apriori-Algorithmus durchgeführt. Es ist der einzige von WEKA bereitgestellte Algorithmus, der häufiges Pattern Mining durchführt.
In WEKA sind viele Algorithmen zur Durchführung von Clusteranalysen vorhanden, z. B. FartherestFirst, FilteredCluster und HierachicalCluster usw. Von diesen verwenden wir SimpleKmeans, die einfachste Methode zum Clustering.
Was du lernen wirst:
- Assoziationsregel-Mining mit WEKA Explorer
- K-bedeutet Algorithmus mit WEKA Explorer
- Implementieren Sie die Datenvisualisierung mit WEKA
- Fazit
Assoziationsregel-Mining mit WEKA Explorer
Lassen Sie uns sehen, wie Sie Association Rule Mining mit WEKA Explorer implementieren.
Association Rule Mining
Es wurde 1994 von Srikant und Aggarwal entwickelt und entworfen. Es hilft uns, Muster in den Daten zu finden. Es ist ein Data Mining-Prozess, der Features findet, die zusammen auftreten, oder Features, die korreliert sind.
Fragen und Antworten zum Java-Programmierinterview für erfahrene
Zu den Anwendungen der Zuordnungsregeln gehört die Warenkorbanalyse, um die in einem einzelnen Warenkorb gekauften Artikel zu analysieren. Cross Marketing, um mit anderen Unternehmen zusammenzuarbeiten, die unseren Geschäftsproduktwert steigern, wie z. B. dem Fahrzeughändler und der Oil Company.
Zuordnungsregeln werden ermittelt, nachdem häufige Elementmengen in einem großen Datensatz gefunden wurden. Diese Datensätze werden mithilfe von Mining-Algorithmen wie Apriori und FP Growth ermittelt. Häufige Itemset-Mining-Minendaten mithilfe von Unterstützungs- und Vertrauensmaßnahmen.
Unterstützung und Vertrauen
Unterstützung misst die Wahrscheinlichkeit, dass zwei Artikel in einer einzigen Transaktion zusammen gekauft werden, z. B. Brot und Butter. Vertrauen ist ein Maß, das die Wahrscheinlichkeit angibt, dass zwei Artikel nacheinander, jedoch nicht zusammen gekauft werden, z. B. Antivirensoftware für Laptops und Computer.
Es wird davon ausgegangen, dass die Mindestschwellenunterstützung und die Mindestschwellenwert-Konfidenzwerte die Transaktionen beschneiden und die am häufigsten auftretende Elementmenge ermitteln.
Implementierung mit WEKA Explorer
WEKA enthält eine Implementierung der Apriori-Algorithmus zum Lernen von Assoziationsregeln. Apriori arbeitet nur mit binären Attributen, kategorialen Daten (Nenndaten). Wenn der Datensatz numerische Werte enthält, konvertieren Sie diese zuerst in Nennwerte.
Apriori findet alle Regeln mit minimaler Unterstützungs- und Vertrauensschwelle heraus.
Folgen Sie den unteren Schritten:
# 1) Bereiten Sie einen Excel-Dateidatensatz vor und nennen Sie ihn „ apriori.csv '.
#zwei) Öffnen Sie den WEKA Explorer und wählen Sie auf der Registerkarte 'Vorverarbeitung' die Datei 'apriori.csv'.
#3) Die Datei wird jetzt in den WEKA Explorer geladen.
# 4) Entfernen Sie das Feld Transaktion, indem Sie das Kontrollkästchen aktivieren und auf Entfernen klicken (siehe Abbildung unten). Speichern Sie nun die Datei als 'aprioritest.arff'.
# 5) Wechseln Sie zur Registerkarte Zuordnen. Die Apriori-Regeln können von hier aus abgebaut werden.
# 6) Klicken Sie auf Auswählen, um die Unterstützungs- und Vertrauensparameter festzulegen. Die verschiedenen Parameter, die hier eingestellt werden können, sind:
- '' lowerBoundMinSupport ' und ' UpperBoundMinSupport Dies ist das Intervall für die Unterstützungsstufe, in dem unser Algorithmus funktioniert.
- Delta ist das Inkrement in der Unterstützung. In diesem Fall ist 0,05 das Inkrement der Unterstützung von 0,1 auf 1.
- metricType kann 'Vertrauen', 'Aufzug', 'Hebel' und 'Überzeugung' sein. Dies sagt uns, wie wir die Assoziationsregeln einstufen. Im Allgemeinen wird Vertrauen gewählt.
- numRules gibt die Anzahl der Assoziationsregeln an, die abgebaut werden sollen. Standardmäßig ist es auf 10 eingestellt.
- Signifikanzniveau zeigt, welche Bedeutung das Konfidenzniveau hat.
# 7) Das Textfeld neben der Schaltfläche 'Auswählen' zeigt ' Apriori-N-10-T-0-C-0,9-D 0,05-U1,0-M0,1-S-1,0-c-1 ”, In dem die zusammengefassten Regeln für den Algorithmus auf der Registerkarte Einstellungen dargestellt sind.
# 8) Klicken Sie auf die Schaltfläche Start. Die Zuordnungsregeln werden im rechten Bereich generiert. Dieses Panel besteht aus 2 Abschnitten. Zunächst wird der Algorithmus ausgewählt, dessen Datensatz zum Ausführen ausgewählt wurde. Der zweite Teil zeigt die Apriori-Informationen.
Lassen Sie uns die Laufinformationen im rechten Bereich verstehen:
- Schema verwendet uns Apriori.
- Instanzen und Attribute: Es hat 6 Instanzen und 4 Attribute.
- Die minimale Unterstützung und das minimale Vertrauen betragen 0,4 bzw. 0,9. Von 6 Instanzen werden 2 Instanzen mit minimaler Unterstützung gefunden.
- Die Anzahl der für die Mining-Assoziationsregel durchgeführten Zyklen beträgt 12.
- Die generierten großen Elementmengen sind 3: L (1), L (2), L (3), aber diese werden nicht eingestuft, da ihre Größen 7, 11 bzw. 5 sind.
- Gefundene Regeln sind geordnet. Die Interpretation dieser Regeln ist wie folgt:
- Butter T 4 => Bier F 4: bedeutet, dass von 6, 4 Instanzen zeigen, dass für Butter wahr, Bier falsch ist. Dies ergibt eine starke Assoziation. Das Konfidenzniveau beträgt 0,1.
Ausgabe
Die Zuordnungsregeln können mit dem WEKA Explorer mit Apriori-Algorithmus ermittelt werden. Dieser Algorithmus kann auf alle im WEKA-Verzeichnis verfügbaren Datasets sowie auf andere vom Benutzer erstellte Datasets angewendet werden. Die Unterstützung und das Vertrauen sowie andere Parameter können über das Einstellungsfenster des Algorithmus eingestellt werden.
K-bedeutet Algorithmus mit WEKA Explorer
Lassen Sie uns sehen, wie der K-means-Algorithmus für das Clustering mit dem WEKA Explorer implementiert wird.
Was ist Clusteranalyse?
Clustering-Algorithmen sind unbeaufsichtigte Lernalgorithmen, mit denen Datengruppen mit ähnlichen Merkmalen erstellt werden. Es aggregiert Objekte mit Ähnlichkeiten in Gruppen und Untergruppen und führt so zur Partitionierung von Datasets. Bei der Clusteranalyse werden Datensätze in Teilmengen aufgeteilt. Diese Teilmengen werden als Cluster bezeichnet, und die Gruppe von Clustern wird als Clustering bezeichnet.
Die Clusteranalyse wird in vielen Anwendungen wie Bilderkennung, Mustererkennung, Websuche und Sicherheit verwendet, in Business Intelligence wie der Gruppierung von Kunden mit ähnlichen Vorlieben.
Was ist K-bedeutet Clustering
K bedeutet, dass Clustering der einfachste Clustering-Algorithmus ist. Im K-Clustering-Algorithmus wird der Datensatz in K-Cluster aufgeteilt. Eine Zielfunktion wird verwendet, um die Qualität von Partitionen zu ermitteln, sodass sich ähnliche Objekte in einem Cluster und unterschiedliche Objekte in anderen Gruppen befinden.
Bei dieser Methode wird festgestellt, dass der Schwerpunkt eines Clusters einen Cluster darstellt. Der Schwerpunkt wird als Mittelpunkt des Clusters genommen, der als Mittelwert der Punkte innerhalb des Clusters berechnet wird. Die Qualität der Clusterbildung wird nun durch Messen des euklidischen Abstands zwischen Punkt und Zentrum ermittelt. Dieser Abstand sollte maximal sein.
Wie funktioniert der K-Mean-Clustering-Algorithmus?
Schritt 1: Wählen Sie einen Wert von K, wobei K die Anzahl der Cluster ist.
Schritt 2: Iterieren Sie jeden Punkt und weisen Sie den Cluster zu, der das nächstgelegene Zentrum hat. Wenn jedes Element iteriert wird, berechnen Sie den Schwerpunkt aller Cluster.
Schritt 3: Iterieren Sie jedes Element aus dem Datensatz und berechnen Sie den euklidischen Abstand zwischen dem Punkt und dem Schwerpunkt jedes Clusters. Wenn im Cluster ein Punkt vorhanden ist, der ihm nicht am nächsten liegt, weisen Sie diesen Punkt dem nächstgelegenen Cluster zu. Nachdem Sie dies für alle Punkte im Datensatz durchgeführt haben, berechnen Sie erneut den Schwerpunkt jedes Clusters.
Schritt 4: Führen Sie Schritt 3 aus, bis zwischen den beiden aufeinander folgenden Iterationen keine neue Zuordnung stattgefunden hat.
K-bedeutet Clustering-Implementierung mit WEKA
Die Schritte zur Implementierung mit Weka sind wie folgt:
# 1) Öffnen Sie den WEKA Explorer und klicken Sie auf der Registerkarte Vorverarbeitung auf Datei öffnen. Wählen Sie den Datensatz 'vote.arff'.
#zwei) Gehen Sie zur Registerkarte 'Cluster' und klicken Sie auf die Schaltfläche 'Auswählen'. Wählen Sie die Clustering-Methode als 'SimpleKMeans'.
# 3) Wählen Sie Einstellungen und stellen Sie dann die folgenden Felder ein:
- Distanzfunktion als Euklidian
- Die Anzahl der Cluster beträgt 6. Mit einer größeren Anzahl von Clustern verringert sich die Summe der quadratischen Fehler.
- Samen als 10. von
Klicken Sie auf OK und starten Sie den Algorithmus.
# 4) Klicken Sie im linken Bereich auf Start. Die Ergebnisse der Algorithmusanzeige werden auf dem weißen Bildschirm angezeigt. Lassen Sie uns die Laufinformationen analysieren:
- Schema, Beziehung, Instanzen und Attribute beschreiben die Eigenschaften des Datasets und die verwendete Clustering-Methode. In diesem Fall verfügt der Datensatz 'vote.arff' über 435 Instanzen und 13 Attribute.
- Beim Kmeans-Cluster beträgt die Anzahl der Iterationen 5.
- Die Summe des quadratischen Fehlers beträgt 1098,0. Dieser Fehler verringert sich mit zunehmender Anzahl von Clustern.
- Die 5 endgültigen Cluster mit Schwerpunkten werden in Form einer Tabelle dargestellt. In unserem Fall sind die Zentroide von Clustern 168,0, 47,0, 37,0, 122,0,33,0 und 28,0.
- Clusterinstanzen geben die Anzahl und den Prozentsatz aller Instanzen an, die in den Cluster fallen.
# 5) Wählen Sie 'Klassen zu Cluster-Bewertungen' und klicken Sie auf 'Start'.
Der Algorithmus weist dem Cluster die Klassenbezeichnung zu. Cluster 0 steht für Republikaner und Cluster 3 für Demokraten. Die falsch gruppierte Instanz beträgt 39,77%, was durch Ignorieren der unwichtigen Attribute reduziert werden kann.
# 6) Die unwichtigen Attribute ignorieren. Klicken Sie auf die Schaltfläche 'Attribute ignorieren' und wählen Sie die zu entfernenden Attribute aus.
# 7) Verwenden Sie die Registerkarte 'Visualisieren', um das Ergebnis des Clustering-Algorithmus zu visualisieren. Gehen Sie zur Registerkarte und klicken Sie auf ein Feld. Bewegen Sie den Jitter auf max.
- Die X-Achse und die Y-Achse repräsentieren das Attribut.
- Die blaue Farbe steht für das Klassenlabel Demokrat und die rote Farbe für das Klassenlabel Republikaner.
- Jitter wird zum Anzeigen von Clustern verwendet.
- Klicken Sie auf das Feld auf der rechten Seite des Fensters, um das x-Koordinatenattribut zu ändern und die Clusterbildung in Bezug auf andere Attribute anzuzeigen.
Ausgabe
K bedeutet, dass Clustering eine einfache Methode zur Clusteranalyse ist. Die Anzahl der Cluster kann über die Registerkarte Einstellung festgelegt werden. Der Schwerpunkt jedes Clusters wird als Mittelwert aller Punkte innerhalb der Cluster berechnet. Mit zunehmender Anzahl von Clustern verringert sich die Summe der quadratischen Fehler. Die Objekte innerhalb des Clusters weisen ähnliche Eigenschaften und Eigenschaften auf. Die Cluster repräsentieren die Klassenbezeichnungen.
Implementieren Sie die Datenvisualisierung mit WEKA
Datenvisualisierung
Die Methode zur Darstellung von Daten durch Grafiken und Diagramme mit dem Ziel, Daten klar zu verstehen, ist die Datenvisualisierung.
Es gibt viele Möglichkeiten, Daten darzustellen. Einige von ihnen sind wie folgt:
# 1) Pixelorientierte Visualisierung: Hier repräsentiert die Farbe des Pixels den Dimensionswert. Die Farbe des Pixels repräsentiert die entsprechenden Werte.
# 2) Geometrische Darstellung: Die mehrdimensionalen Datensätze werden in 2D-, 3D- und 4D-Streudiagrammen dargestellt.
# 3) Symbolbasierte Visualisierung: Die Daten werden mit Chernoffs Gesichtern und Strichmännchen dargestellt. Chernoffs Gesichter nutzen die Fähigkeit des menschlichen Geistes, Gesichtsmerkmale und Unterschiede zwischen ihnen zu erkennen. Die Strichmännchen verwendet 5 Strichmännchen, um mehrdimensionale Daten darzustellen.
# 4) Hierarchische Datenvisualisierung: Die Datensätze werden mithilfe von Baumkarten dargestellt. Es repräsentiert hierarchische Daten als Satz verschachtelter Dreiecke.
Datenvisualisierung mit WEKA Explorer
Die Datenvisualisierung mit WEKA erfolgt im Datensatz IRIS.arff.
Folgende Schritte sind erforderlich:
# 1) Wechseln Sie zur Registerkarte Vorverarbeitung, und öffnen Sie das Dataset IRIS.arff.
#zwei) Der Datensatz hat 4 Attribute und 1 Klassenbezeichnung. Die Attribute in diesem Datensatz sind:
- Sepallength: Geben Sie -numeric ein
- Sepalwidth: Typennumerisch
- Petalength: Typ-numerisch
- Blütenblattbreite: Typ-numerisch
- Klasse: Typ-nominal
#3) Wechseln Sie zur Visualisierung des Datasets zur Registerkarte Visualisieren. Die Registerkarte zeigt die Attributplotmatrix. Die Datensatzattribute werden auf der x- und der y-Achse markiert, während die Instanzen geplottet werden. Das Feld mit dem x-Achsenattribut und dem y-Achsenattribut kann vergrößert werden.
# 4) Klicken Sie auf das Feld des Diagramms, um es zu vergrößern. Beispielsweise, x: Blütenblattlänge und y: Blütenblattbreite. Die Klassenbezeichnungen werden in verschiedenen Farben dargestellt.
- Klassenetikett - Iris-Setosa: blaue Farbe
- Klassenetikett - Iris-versicolor: rot
- Klassenetikett-Iris-virginica-grün
Diese Farben können geändert werden. Um die Farbe zu ändern, klicken Sie unten auf die Klassenbezeichnung. Ein Farbfenster wird angezeigt.
Open Source Betriebssysteme für PC
# 5) Klicken Sie im Diagramm auf die durch 'x' dargestellte Instanz. Es werden die Instanzdetails angegeben. Zum Beispiel:
- Instanznummer: 91
- Sepalength: 5.5
- Sepalwidth: 2.6
- Petalength: 4.4
- Blütenblattbreite: 1.2
- Klasse: Iris-versicolor
Einige der Punkte im Diagramm erscheinen dunkler als andere Punkte. Diese Punkte repräsentieren zwei oder mehr Instanzen mit derselben Klassenbezeichnung und demselben Wert von Attributen, die im Diagramm dargestellt sind, wie z. B. Blütenblattbreite und Blütenblattlänge.
Die folgende Abbildung zeigt einen Punkt mit 2 Instanzinformationen.
# 6) Die Attribute der X- und Y-Achse können im rechten Bereich des Visualisierungsdiagramms geändert werden. Der Benutzer kann verschiedene Diagramme anzeigen.
# 7) Der Jitter wird verwendet, um dem Plot Zufälligkeit hinzuzufügen. Manchmal überlappen sich die Punkte. Bei Jitter repräsentieren die dunkleren Punkte mehrere Instanzen.
# 8) Um eine klarere Ansicht des Datasets zu erhalten und Ausreißer zu entfernen, kann der Benutzer eine Instanz aus der Dropdown-Liste auswählen. Klicken Sie auf die Dropdown-Liste 'Instanz auswählen'. Wählen Sie 'Rechteck'. Auf diese Weise kann der Benutzer Punkte im Diagramm auswählen, indem er ein Rechteck zeichnet.
# 9) Klicken Sie auf 'Senden'. Es werden nur die ausgewählten Datensatzpunkte angezeigt und die anderen Punkte werden aus dem Diagramm ausgeschlossen.
Die folgende Abbildung zeigt die Punkte aus der ausgewählten rechteckigen Form. Das Diagramm repräsentiert Punkte mit nur 3 Klassenbeschriftungen. Der Benutzer kann auf 'Speichern' klicken, um den Datensatz zu speichern, oder auf 'Zurücksetzen', um eine andere Instanz auszuwählen. Der Datensatz wird in einer separaten .ARFF-Datei gespeichert.
Ausgabe:
Die Datenvisualisierung mit WEKA wird mithilfe des Boxplots vereinfacht. Der Benutzer kann jede Granularitätsstufe anzeigen. Die Attribute werden auf der X-Achse und der Y-Achse aufgezeichnet, während die Instanzen auf der X- und Y-Achse dargestellt werden. Einige Punkte stellen mehrere Instanzen dar, die durch Punkte mit dunkler Farbe dargestellt werden.
Fazit
WEKA ist ein effizientes Data Mining-Tool, mit dem Sie viele Data Mining-Aufgaben ausführen und mit neuen Methoden über Datensätze experimentieren können. WEKA wurde vom Institut für Informatik der University of Waikato in Neuseeland entwickelt.
Die heutige Welt ist mit Daten überfüllt, angefangen beim Einkauf im Supermarkt bis hin zu Überwachungskameras bei uns zu Hause. Data Mining verwendet diese Rohdaten und konvertiert sie in Informationen, um Vorhersagen zu treffen. WEKA hilft mit Hilfe des Apriori-Algorithmus beim Mining von Assoziationsregeln im Datensatz. Apriori ist ein häufiger Pattern-Mining-Algorithmus, der die Anzahl der Vorkommen einer Elementmenge in der Transaktion zählt.
Die Clusteranalyse ist eine Technik, um Datencluster herauszufinden, die ähnliche Merkmale aufweisen. WEKA bietet viele Algorithmen zur Durchführung von Clusteranalysen, bei denen einfache Mittelwerte häufig verwendet werden.
Die Datenvisualisierung in WEKA kann für alle Datensätze im WEKA-Verzeichnis durchgeführt werden. Der Rohdatensatz kann angezeigt werden, und andere resultierende Datensätze anderer Algorithmen wie Klassifizierung, Clustering und Zuordnung können mithilfe von WEKA visualisiert werden.
=> Besuchen Sie hier für die exklusive maschinelle Lernserie
Literatur-Empfehlungen
- Weka Tutorial - Herunterladen, Installieren und Verwenden des Weka-Tools
- WEKA-Datensatz, Klassifikator und J48-Algorithmus für den Entscheidungsbaum
- 15 BESTE Datenvisualisierungstools und -software im Jahr 2021
- D3.js Tutorial - Datenvisualisierungs-Framework für Anfänger
- D3.js Tutorial zur Datenvisualisierung - Formen, Grafiken, Animationen
- 7 Prinzipien des Softwaretests: Fehlerclustering und Pareto-Prinzip
- Data Mining: Prozesse, Techniken und wichtige Probleme bei der Datenanalyse
- Data Mining-Techniken: Algorithmus, Methoden und Top-Data Mining-Tools