decision tree algorithm examples data mining
Dieses ausführliche Tutorial erklärt alles über den Entscheidungsbaumalgorithmus im Data Mining. Sie erfahren mehr über Beispiele, Algorithmen und Klassifizierungen von Entscheidungsbäumen:
Wir haben uns ein paar angesehen Data Mining-Beispiele in unserem vorherigen Tutorial in Kostenlose Data Mining-Schulungsreihe .
Decision Tree Mining ist eine Art Data Mining-Technik, mit der Klassifizierungsmodelle erstellt werden. Es erstellt Klassifizierungsmodelle in Form einer baumartigen Struktur, genau wie sein Name. Diese Art des Bergbaus gehört zum überwachten Lernen in der Klasse.
Beim überwachten Lernen ist das Zielergebnis bereits bekannt. Entscheidungsbäume können sowohl für kategoriale als auch für numerische Daten verwendet werden. Die kategorialen Daten repräsentieren Geschlecht, Familienstand usw., während die numerischen Daten Alter, Temperatur usw. repräsentieren.
Zufallszahl zwischen 1 und 10 c ++
Ein Beispiel für einen Entscheidungsbaum mit dem Datensatz ist unten dargestellt.
(Bild Quelle ))
Was du lernen wirst:
- Was nützt ein Entscheidungsbaum?
- Klassifikationsanalyse
- Regressionsanalyse
- Wie funktioniert ein Entscheidungsbaum?
- Entscheidungsbaum-Induktionsalgorithmus
- Entscheidungsbaum-Induktion
- WAGEN
- Entscheidungsbaum-Induktion für maschinelles Lernen: ID3
- Was ist gierige rekursive binäre Aufteilung?
- Wie wähle ich Attribute zum Erstellen eines Baums aus?
- Überanpassung in Entscheidungsbäumen
- Was ist Baumschnitt?
- Was ist prädiktive Modellierung?
- Vorteile der Klassifizierung von Entscheidungsbäumen
- Nachteile der Entscheidungsbaumklassifizierung
- Fazit
- Literatur-Empfehlungen
Was nützt ein Entscheidungsbaum?
Der Entscheidungsbaum wird zum Erstellen von Klassifizierungs- und Regressionsmodellen verwendet. Es wird verwendet, um Datenmodelle zu erstellen, die Klassenbezeichnungen oder Werte für den Entscheidungsprozess vorhersagen. Die Modelle werden aus dem dem System zugeführten Trainingsdatensatz erstellt (überwachtes Lernen).
Mithilfe eines Entscheidungsbaums können wir die Entscheidungen visualisieren, die das Verständnis erleichtern, und daher handelt es sich um eine beliebte Data Mining-Technik.
Klassifikationsanalyse
Die Datenklassifizierung ist eine Form der Analyse, mit der ein Modell erstellt wird, das wichtige Klassenvariablen beschreibt.Zum Beispiel, ein Modell zur Kategorisierung von Bankkreditanträgen als sicher oder riskant. Klassifizierungsmethoden werden beim maschinellen Lernen und bei der Mustererkennung verwendet.
Die Anwendung der Klassifizierung umfasst Betrugserkennung, medizinische Diagnose, Zielmarketing usw. Die Ausgabe des Klassifizierungsproblems wird als 'Modus' aller beobachteten Werte des Endknotens verwendet.
Es folgt ein zweistufiger Prozess, um ein Klassifizierungsmodell zu erstellen.
- Im ersten Schritt, d. H. Lernen: Ein Klassifizierungsmodell, das auf Trainingsdaten basiert, wird erstellt.
- Im zweiten Schritt, d. H. Der Klassifizierung, wird die Genauigkeit des Modells überprüft und dann wird das Modell verwendet, um neue Daten zu klassifizieren. Die hier dargestellten Klassenbezeichnungen haben die Form diskreter Werte wie „Ja“ oder „Nein“, „Sicher“ oder „Riskant“.
Der allgemeine Ansatz für Gebäudeklassifizierungsmodelle ist unten angegeben:
(Bild Quelle ))
Regressionsanalyse
Die Regressionsanalyse wird zur Vorhersage numerischer Attribute verwendet.
Numerische Attribute werden auch als kontinuierliche Werte bezeichnet. Ein Modell zur Vorhersage der kontinuierlichen Werte anstelle von Klassenbezeichnungen wird als Regressionsmodell bezeichnet. Die Ausgabe der Regressionsanalyse ist der „Mittelwert“ aller beobachteten Werte des Knotens.
Wie funktioniert ein Entscheidungsbaum?
Ein Entscheidungsbaum ist ein überwachter Lernalgorithmus, der sowohl für diskrete als auch für kontinuierliche Variablen funktioniert. Das Dataset wird auf der Grundlage des höchstwertigen Attributs im Dataset in Teilmengen aufgeteilt. Wie der Entscheidungsbaum dieses Attribut identifiziert und wie diese Aufteilung erfolgt, wird von den Algorithmen festgelegt.
Der signifikanteste Prädiktor wird als Wurzelknoten bezeichnet, die Aufteilung erfolgt zur Bildung von Unterknoten, die als Entscheidungsknoten bezeichnet werden, und die Knoten, die nicht weiter aufteilen, sind End- oder Blattknoten.
Im Entscheidungsbaum ist der Datensatz in homogene und nicht überlappende Bereiche unterteilt. Es folgt einem Top-Down-Ansatz, da der obere Bereich alle Beobachtungen an einem einzigen Ort darstellt, der sich in zwei oder mehr Zweige aufteilt, die sich weiter aufteilen. Dieser Ansatz wird auch als a bezeichnet gieriger Ansatz da nur der aktuelle Knoten zwischen den bearbeiteten Knoten berücksichtigt wird, ohne sich auf die zukünftigen Knoten zu konzentrieren.
Die Entscheidungsbaumalgorithmen werden so lange ausgeführt, bis ein Stoppkriterium wie die Mindestanzahl von Beobachtungen usw. erreicht ist.
Sobald ein Entscheidungsbaum erstellt wurde, können viele Knoten Ausreißer oder verrauschte Daten darstellen. Die Baumbereinigungsmethode wird angewendet, um unerwünschte Daten zu entfernen. Dies verbessert wiederum die Genauigkeit des Klassifizierungsmodells.
Um die Genauigkeit des Modells zu ermitteln, wird ein Testsatz verwendet, der aus Testtupeln und Klassenbeschriftungen besteht. Die Prozentsätze der Testsatz-Tupel werden vom Modell korrekt klassifiziert, um die Genauigkeit des Modells zu ermitteln. Wenn sich herausstellt, dass das Modell genau ist, wird es verwendet, um die Datentupel zu klassifizieren, für die die Klassenbezeichnungen nicht bekannt sind.
Einige der Entscheidungsbaumalgorithmen umfassen den Hunt-Algorithmus, ID3, CD4.5 und CART.
Beispiel für die Erstellung eines Entscheidungsbaums
(Beispiel aus Data Mining-Konzepten: Han und Kimber)
# 1) Lernschritt: Die Trainingsdaten werden in das System eingespeist, um von einem Klassifizierungsalgorithmus analysiert zu werden. In diesem Beispiel ist die Klassenbezeichnung das Attribut, d. H. 'Kreditentscheidung'. Das aus diesen Trainingsdaten erstellte Modell wird in Form von Entscheidungsregeln dargestellt.
# 2) Klassifizierung: Der Testdatensatz wird dem Modell zugeführt, um die Genauigkeit der Klassifizierungsregel zu überprüfen. Wenn das Modell akzeptable Ergebnisse liefert, wird es auf einen neuen Datensatz mit unbekannten Klassenvariablen angewendet.
Entscheidungsbaum-Induktionsalgorithmus
Entscheidungsbaum-Induktion
Die Entscheidungsbauminduktion ist die Methode zum Lernen der Entscheidungsbäume aus dem Trainingssatz. Das Trainingsset besteht aus Attributen und Klassenbezeichnungen. Zu den Anwendungen der Entscheidungsbauminduktion gehören Astronomie, Finanzanalyse, medizinische Diagnose, Herstellung und Produktion.
Ein Entscheidungsbaum ist eine flussdiagrammartige baumartige Struktur, die aus Trainingssatz-Tupeln besteht. Der Datensatz ist in kleinere Teilmengen unterteilt und liegt in Form von Knoten eines Baums vor. Die Baumstruktur hat einen Wurzelknoten, interne Knoten oder Entscheidungsknoten, einen Blattknoten und Zweige.
Der Wurzelknoten ist der oberste Knoten. Es stellt das beste Attribut dar, das für die Klassifizierung ausgewählt wurde. Interne Knoten der Entscheidungsknoten stellen einen Test eines Attributs des Datensatzblattknotens oder Endknotens dar, der die Klassifizierung oder Entscheidungsbezeichnung darstellt. Die Zweige zeigen das Ergebnis des durchgeführten Tests.
Einige Entscheidungsbäume haben nur binäre Knoten Dies bedeutet genau zwei Zweige eines Knotens, während einige Entscheidungsbäume nicht binär sind.
Das Bild unten zeigt den Entscheidungsbaum für den Titanic-Datensatz, um vorherzusagen, ob der Passagier überleben wird oder nicht.
(Bild Quelle ))
WAGEN
Das CART-Modell, d. H. Klassifizierungs- und Regressionsmodelle, ist ein Entscheidungsbaumalgorithmus zum Erstellen von Modellen. Das Entscheidungsbaummodell, bei dem die Zielwerte diskreter Natur sind, wird als Klassifizierungsmodelle bezeichnet.
Ein diskreter Wert ist eine endliche oder zählbar unendliche Menge von Werten. Zum Beispiel, Alter, Größe usw. Die Modelle, bei denen die Zielwerte durch kontinuierliche Werte dargestellt werden, sind normalerweise Zahlen, die als Regressionsmodelle bezeichnet werden. Kontinuierliche Variablen sind Gleitkommavariablen. Diese beiden Modelle zusammen heißen CART.
CART verwendet den Gini-Index als Klassifizierungsmatrix.
Entscheidungsbaum-Induktion für maschinelles Lernen: ID3
In den späten 1970er und frühen 1980er Jahren war J. Ross Quinlan ein Forscher, der einen Entscheidungsbaumalgorithmus für maschinelles Lernen entwickelte. Dieser Algorithmus ist bekannt als ID3, Iterativer Dichotomiser . Dieser Algorithmus war eine Erweiterung der von E.B Hunt, J und Marin beschriebenen Konzeptlernsysteme.
ID3 wurde später als C4.5 bekannt. ID3 und C4.5 verfolgen einen gierigen Top-Down-Ansatz zum Erstellen von Entscheidungsbäumen. Der Algorithmus beginnt mit einem Trainingsdatensatz mit Klassenbeschriftungen, die während der Erstellung des Baums in kleinere Teilmengen aufgeteilt werden.
# 1) Anfangs gibt es drei Parameter, d.h. Attributliste, Attributauswahlmethode und Datenpartition . Die Attributliste beschreibt die Attribute der Trainingssatz-Tupel.
#zwei) Die Attributauswahlmethode beschreibt die Methode zur Auswahl des besten Attributs für die Unterscheidung zwischen Tupeln. Die für die Attributauswahl verwendeten Methoden können entweder Information Gain oder Gini Index sein.
#3) Die Struktur des Baums (binär oder nicht binär) wird durch die Attributauswahlmethode festgelegt.
# 4) Beim Erstellen eines Entscheidungsbaums beginnt dieser als einzelner Knoten, der die Tupel darstellt.
# 5) Wenn die Wurzelknotentupel unterschiedliche Klassenbezeichnungen darstellen, wird eine Attributauswahlmethode aufgerufen, um die Tupel zu teilen oder zu partitionieren. Der Schritt führt zur Bildung von Zweigen und Entscheidungsknoten.
# 6) Die Aufteilungsmethode bestimmt, welches Attribut ausgewählt werden soll, um die Datentupel zu partitionieren. Es bestimmt auch die Zweige, die vom Knoten gemäß dem Testergebnis wachsen sollen. Das Hauptmotiv der Aufteilungskriterien besteht darin, dass die Partition in jedem Zweig des Entscheidungsbaums dieselbe Klassenbezeichnung darstellen sollte.
Ein Beispiel für das Aufteilen von Attributen ist unten dargestellt:
ein. Die obige Portionierung ist diskret.
b. Die obige Portionierung gilt für kontinuierliche Werte.
# 7) Die obigen Partitionierungsschritte werden rekursiv ausgeführt, um einen Entscheidungsbaum für die Tupel des Trainingsdatensatzes zu bilden.
# 8) Die Portionierung wird nur gestoppt, wenn entweder alle Partitionen erstellt wurden oder wenn die verbleibenden Tupel nicht weiter partitioniert werden können.
# 9) Die Komplexität des Algorithmus wird beschrieben durch n * | D | * log | D | Dabei ist n die Anzahl der Attribute im Trainingsdatensatz D und | D | ist die Anzahl der Tupel.
Was ist gierige rekursive binäre Aufteilung?
Bei der binären Aufteilungsmethode werden die Tupel aufgeteilt und jede Aufteilungskostenfunktion berechnet. Die niedrigste Kostenaufteilung wird ausgewählt. Die Aufteilungsmethode ist binär und besteht aus 2 Zweigen. Es ist rekursiver Natur, da dieselbe Methode (Berechnung der Kosten) zum Aufteilen der anderen Tupel des Datensatzes verwendet wird.
Dieser Algorithmus wird als gierig bezeichnet, da er sich nur auf den aktuellen Knoten konzentriert. Es konzentriert sich auf die Senkung der Kosten, während die anderen Knoten ignoriert werden.
Wie wähle ich Attribute zum Erstellen eines Baums aus?
Attributauswahlmaßnahmen werden auch als Aufteilungsregeln bezeichnet, um zu entscheiden, wie die Tupel aufgeteilt werden sollen. Die Aufteilungskriterien werden verwendet, um den Datensatz am besten zu partitionieren. Diese Maßnahmen liefern eine Rangfolge für die Attribute zum Partitionieren der Trainingstupel.
Die beliebtesten Methoden zur Auswahl des Attributs sind Informationsgewinn, Gini-Index.
# 1) Informationsgewinn
Diese Methode ist die Hauptmethode, mit der Entscheidungsbäume erstellt werden. Es reduziert die Informationen, die zum Klassifizieren der Tupel erforderlich sind. Es reduziert die Anzahl der Tests, die zur Klassifizierung des angegebenen Tupels erforderlich sind. Das Attribut mit dem höchsten Informationsgewinn wird ausgewählt.
Die ursprünglichen Informationen, die für die Klassifizierung eines Tupels in Datensatz D benötigt werden, sind gegeben durch:
Wobei p die Wahrscheinlichkeit ist, dass das Tupel zur Klasse C gehört. Die Informationen werden in Bits codiert, daher wird ein Protokoll zur Basis 2 verwendet. E (s) stellt die durchschnittliche Informationsmenge dar, die erforderlich ist, um die Klassenbezeichnung des Datensatzes D herauszufinden. Dieser Informationsgewinn wird auch genannt Entropie .
Die Informationen, die für eine genaue Klassifizierung nach der Portionierung erforderlich sind, ergeben sich aus der Formel:
Wobei P (c) das Gewicht der Trennwand ist. Diese Informationen stellen die Informationen dar, die erforderlich sind, um den Datensatz D beim Portionieren nach X zu klassifizieren.
Der Informationsgewinn ist die Differenz zwischen der ursprünglichen und der erwarteten Information, die zur Klassifizierung der Tupel von Datensatz D erforderlich ist.
Gewinn ist die Reduzierung von Informationen, die erforderlich ist, wenn der Wert von X bekannt ist. Das Attribut mit dem höchsten Informationsgewinn wird als „am besten“ ausgewählt.
# 2) Gewinnverhältnis
Der Informationsgewinn kann manchmal dazu führen, dass die Portionierung für die Klassifizierung unbrauchbar wird. Das Gewinnverhältnis teilt den Trainingsdatensatz jedoch in Partitionen auf und berücksichtigt die Anzahl der Tupel des Ergebnisses in Bezug auf die Gesamtzahl der Tupel. Das Attribut mit dem maximalen Verstärkungsverhältnis wird als Aufteilungsattribut verwendet.
# 3) Gini Index
Der Gini-Index wird nur für binäre Variablen berechnet. Es misst die Verunreinigung in Trainingstupeln von Datensatz D, as
P ist die Wahrscheinlichkeit, dass das Tupel zur Klasse C gehört. Der Gini-Index, der für den binären Split-Datensatz D nach Attribut A berechnet wird, ist gegeben durch:
Unix-Shell-Scripting-Befehle mit Beispielen
Wobei n die n-te Partition des Datensatzes D ist.
Die Verringerung der Verunreinigung ergibt sich aus der Differenz des Gini-Index des ursprünglichen Datensatzes D und des Gini-Index nach Partitionierung nach Attribut A.
Die maximale Verringerung der Verunreinigung oder der maximale Gini-Index wird als bestes Attribut für die Aufteilung ausgewählt.
Überanpassung in Entscheidungsbäumen
Eine Überanpassung tritt auf, wenn ein Entscheidungsbaum versucht, durch Erhöhen der Testtiefe so perfekt wie möglich zu sein, und dadurch den Fehler verringert. Dies führt zu sehr komplexen Bäumen und führt zu einer Überanpassung.
Überanpassung reduziert den prädiktiven Charakter des Entscheidungsbaums. Die Ansätze zur Vermeidung einer Überanpassung der Bäume umfassen das Vor- und Nachschneiden.
Was ist Baumschnitt?
Das Beschneiden ist die Methode zum Entfernen der nicht verwendeten Zweige aus dem Entscheidungsbaum. Einige Zweige des Entscheidungsbaums können Ausreißer oder verrauschte Daten darstellen.
Das Beschneiden von Bäumen ist die Methode, um unerwünschte Äste des Baumes zu reduzieren. Dies reduziert die Komplexität des Baums und hilft bei der effektiven prädiktiven Analyse. Es reduziert die Überanpassung, da es die unwichtigen Äste von den Bäumen entfernt.
Es gibt zwei Möglichkeiten, den Baum zu beschneiden:
# 1) Vorbeschneiden : Bei diesem Ansatz wird die Erstellung des Entscheidungsbaums vorzeitig gestoppt. Dies bedeutet, dass beschlossen wird, die Zweige nicht weiter zu partitionieren. Der zuletzt konstruierte Knoten wird zum Blattknoten, und dieser Blattknoten kann die häufigste Klasse unter den Tupeln enthalten.
Die Attributauswahlmaße werden verwendet, um die Gewichtung der Aufteilung herauszufinden. Schwellenwerte werden vorgeschrieben, um zu entscheiden, welche Teilungen als nützlich angesehen werden. Wenn die Aufteilung des Knotens zu einer Aufteilung führt, indem der Schwellenwert unterschritten wird, wird der Prozess angehalten.
# 2) Nachbeschneiden : Diese Methode entfernt die Ausreißerzweige von einem ausgewachsenen Baum. Die unerwünschten Zweige werden entfernt und durch einen Blattknoten ersetzt, der die häufigste Klassenbezeichnung angibt. Diese Technik erfordert mehr Berechnung als das Vorbeschneiden, ist jedoch zuverlässiger.
Die beschnittenen Bäume sind im Vergleich zu nicht beschnittenen Bäumen präziser und kompakter, haben jedoch den Nachteil der Replikation und Wiederholung.
Wiederholung tritt auf, wenn dasselbe Attribut immer wieder entlang eines Baumzweigs getestet wird. Reproduzieren tritt auf, wenn die doppelten Teilbäume im Baum vorhanden sind. Diese Probleme können durch multivariate Teilungen gelöst werden.
Das Bild unten zeigt einen unbeschnittenen und beschnittenen Baum.
Beispiel eines Entscheidungsbaumalgorithmus
Beispiel Quelle
Erstellen eines Entscheidungsbaums
Nehmen wir ein Beispiel des Wetterdatensatzes der letzten 10 Tage mit den Attributen Ausblick, Temperatur, Wind und Luftfeuchtigkeit. Die Ergebnisvariable wird Cricket spielen oder nicht. Wir werden den ID3-Algorithmus verwenden, um den Entscheidungsbaum zu erstellen.
Tag | Ausblick | Temperatur | Feuchtigkeit | Wind | Cricket spielen |
---|---|---|---|---|---|
7 | Bedeckt | Cool | Normal | Stark | Ja |
1 | Sonnig | Heiß | Hoch | Schwach | Unterlassen Sie |
zwei | Sonnig | Heiß | Hoch | Stark | Unterlassen Sie |
3 | Bedeckt | Heiß | Hoch | Schwach | Ja |
4 | Regen | Leicht | Hoch | Schwach | Ja |
5 | Regen | Cool | Normal | Schwach | Ja |
6 | Regen | Cool | Normal | Stark | Unterlassen Sie |
8 | Sonnig | Leicht | Hoch | Schwach | Unterlassen Sie |
9 | Sonnig | Cool | Normal | Schwach | Ja |
10 | Regen | Leicht | Normal | Schwach | Ja |
elf | Sonnig | Leicht | Normal | Stark | Ja |
12 | Bedeckt | Leicht | Hoch | Stark | Ja |
13 | Bedeckt | Heiß | Normal | Schwach | Ja |
14 | Regen | Leicht | Hoch | Stark | Unterlassen Sie |
Schritt 1: Der erste Schritt besteht darin, einen Wurzelknoten zu erstellen.
Schritt 2: Wenn alle Ergebnisse Ja sind, wird der Blattknoten 'Ja' zurückgegeben, andernfalls wird der Blattknoten 'Nein' zurückgegeben.
Schritt 3: Finden Sie die Entropie aller Beobachtungen und Entropie mit dem Attribut 'x' heraus, das E (S) und E (S, x) ist.
Schritt 4: Finden Sie den Informationsgewinn heraus und wählen Sie das Attribut mit dem hohen Informationsgewinn aus.
Schritt 5: Wiederholen Sie die obigen Schritte, bis alle Attribute abgedeckt sind.
Berechnung der Entropie:
ja Nein
9 5
Wenn die Entropie Null ist, bedeutet dies, dass alle Mitglieder derselben Klasse angehören, und wenn die Entropie eins ist, bedeutet dies, dass die Hälfte der Tupel einer Klasse und eines von ihnen einer anderen Klasse angehört. 0,94 bedeutet faire Verteilung.
Suchen Sie das Attribut Informationsgewinn, das den maximalen Informationsgewinn ergibt.
Zum Beispiel 'Wind' nimmt zwei Werte an: Stark und Schwach, daher x = {Stark, Schwach}.
Finden Sie H (x), P (x) für x = schwach und x = stark heraus. H (S) ist bereits oben berechnet.
Schwach = 8
Stark = 8
Bei „schwachem“ Wind sagen 6 von ihnen „Ja“, um Cricket zu spielen, und 2 von ihnen sagen „Nein“. Entropie wird also sein:
Bei „starkem“ Wind sagten 3 „Nein“, um Cricket zu spielen, und 3 „Ja“.
Dies zeigt perfekte Zufälligkeit, da die Hälfte der Gegenstände zu einer Klasse und die andere Hälfte zu einer anderen gehört.
Was ist der Unterschied zwischen Qualitätssicherung und Qualitätskontrolle?
Berechnen Sie den Informationsgewinn,
Ebenso ist der Informationsgewinn für andere Attribute:
Das Attribut Outlook hat die höchster Informationsgewinn von 0,246, daher wird es als Wurzel gewählt.
Bedeckt hat 3 Werte: Sonnig, Bedeckt und Regen. Bedeckt mit Cricket ist immer 'Ja'. Es endet also mit einem Blattknoten, 'Ja'. Für die anderen Werte 'Sunny' und 'Rain'.
Die Tabelle für Outlook als 'Sonnig' lautet:
Temperatur | Feuchtigkeit | Wind | Golf |
---|---|---|---|
Heiß | Hoch | Schwach | Unterlassen Sie |
Heiß | Hoch | Stark | Unterlassen Sie |
Leicht | Hoch | Schwach | Unterlassen Sie |
Cool | Normal | Schwach | Ja |
Leicht | Normal | Stark | Ja |
Entropie für 'Outlook' 'Sunny' ist:
Der Informationsgewinn für Attribute in Bezug auf Sunny ist:
Der Informationsgewinn für die Luftfeuchtigkeit ist am höchsten, daher wird er als nächster Knoten ausgewählt. In ähnlicher Weise wird die Entropie für Regen berechnet. Wind bietet den höchsten Informationsgewinn .
Der Entscheidungsbaum würde wie folgt aussehen:
Was ist prädiktive Modellierung?
Die Klassifizierungsmodelle können verwendet werden, um die Ergebnisse eines unbekannten Satzes von Attributen vorherzusagen.
Wenn ein Datensatz mit unbekannten Klassenbezeichnungen in das Modell eingespeist wird, wird ihm automatisch die Klassenbezeichnung zugewiesen. Diese Methode zur Anwendung der Wahrscheinlichkeit zur Vorhersage von Ergebnissen wird als Vorhersagemodellierung bezeichnet.
Vorteile der Klassifizierung von Entscheidungsbäumen
Nachfolgend sind die verschiedenen Vorzüge der Entscheidungsbaumklassifizierung aufgeführt:
- Die Klassifizierung des Entscheidungsbaums erfordert kein Domänenwissen und ist daher für den Wissenserkennungsprozess geeignet.
- Die Darstellung von Daten in Form des Baumes ist für den Menschen leicht verständlich und intuitiv.
- Es kann mehrdimensionale Daten verarbeiten.
- Es ist ein schneller Prozess mit großer Genauigkeit.
Nachteile der Entscheidungsbaumklassifizierung
Nachstehend sind die verschiedenen Nachteile der Entscheidungsbaumklassifizierung aufgeführt:
- Manchmal werden Entscheidungsbäume sehr komplex und diese werden als überpasste Bäume bezeichnet.
- Der Entscheidungsbaumalgorithmus ist möglicherweise keine optimale Lösung.
- Die Entscheidungsbäume können eine voreingenommene Lösung zurückgeben, wenn eine Klassenbezeichnung sie dominiert.
Fazit
Entscheidungsbäume sind Data Mining-Techniken zur Klassifizierung und Regressionsanalyse.
Diese Technik erstreckt sich nun über viele Bereiche wie medizinische Diagnose, Zielmarketing usw. Diese Bäume werden mithilfe eines Algorithmus wie ID3, CART erstellt. Diese Algorithmen finden verschiedene Möglichkeiten, um die Daten in Partitionen aufzuteilen.
Es ist die bekannteste überwachte Lerntechnik, die beim maschinellen Lernen und bei der Musteranalyse verwendet wird. Die Entscheidungsbäume sagen die Werte der Zielvariablen voraus, indem sie Modelle erstellen, indem sie aus dem dem System bereitgestellten Trainingssatz lernen.
Wir hoffen, dass Sie in diesem informativen Tutorial alles über Decision Tree Mining gelernt haben!
PREV Tutorial | NÄCHSTES Tutorial
Literatur-Empfehlungen
- Data Mining-Beispiele: Häufigste Anwendungen von Data Mining 2021
- Data Mining-Techniken: Algorithmus, Methoden und Top-Data Mining-Tools
- Data Mining: Prozesse, Techniken und wichtige Probleme bei der Datenanalyse
- B-Baum- und B + -Baum-Datenstruktur in C ++
- Datenstruktur des Binärbaums in C ++
- Data Mining-Prozess: Modelle, Prozessschritte und Herausforderungen
- AVL-Baum- und Heap-Datenstruktur in C ++
- Data Mining gegen maschinelles Lernen gegen künstliche Intelligenz gegen tiefes Lernen