Data Mining Algorithmen

Die folgenden Seminare beinhalten jeweils einen klassischen Data Mining Algorithmus. An Hand eines Datenbestands erstellen diese Trainings- und Testdaten. Beim Data Mining geht es vor allem um Klassifikation, Vorhersage oder Clusterbildung. Man unterscheidet zwischen supervised und unsupervised Learning. Ersteres nutzt eine Zielvariable zur Steuerung des Algorithmus; mit Hilfe der Trainingsdaten wird nun ein Data Mining-Algorithmus ausgeführt und trainiert. Das Ergebnis ist ein Modell, das mit Hilfe der Testdaten geprüft werden kann. Alle angebotenen Data Mining Algorithmus-Seminare zeigen den vollständigen Prozess von der Datenbereitstellung, der Datenaufbereitung, der Zerlegung in Trainings- und Testdaten bis hin zur Anwendung des jeweiligen Data Mining Algorithmus‘. Dabei wird die Sprache R zur Umsetzung verwendet. Als Ergebnis erhalten alle Teilnehmer ein R-Skript, welches sie später bei der Arbeit verwenden können.

k-nächste Nachbarn

zB: k-nächste Nachbarn

Die Cluster sind zunächst vorgegeben. Eine neue Beobachtung überprüft nun die Abstände zu den nächsten Nachbarn. Sobald diese bekannt sind, wird ausgezählt. Das Objekt wird jenem Cluster mit den meisten Treffern zugeordnet.

 

na´ve Bayes Klassifikation

Hier geht es um Wahrscheinlichkeiten: Für jedes Objekt wird die Wahrscheinlichkeit ermittelt, mit der es einer bestimmen Klasse zugeordnet wird. Die Berechnung der Wahrscheinlichkeit erfolgt mit Hilfe des Satzes von Bayes (Thomas Bayes, englischer Theologe und Mathematiker aus dem 18. Jahrhundert). Um diese Rechnung zu vereinfachen, wird eine Unabhängigkeit der Attribute eingeführt – darum wird der Begriff naïve in diesem Zusammenhang verwendet.

 

Entscheidungsbäume

Entscheidungsbäume werden wegen ihrer Einfachheit und Verständlichkeit sehr gerne eingesetzt. Ich nutze sie ebenfalls gerne zur Modellfindung. Letztendlich besteht ein Baum (tree) aus Knoten (nodes) und Verbindungen (branch). An jedem Knoten wird eine Entscheidung gefällt (z. B. Umsatz < 200 ) und je nach Ausgang wird ein neuer Knoten betrachtet. Irgendwann kommt man zum Ende der Verzweigungen und landet auf einem Blatt (leave). Dieses Blatt enthält nun die konkrete Entscheidung (kauft/kauft nicht).

 

lineare Regression

Regressionsmodelle können in der Regel sehr komplex ausfallen. Möchte man konkrete Aussagen über Parameter erhalten, werden bevorzugt klassische Techniken angewendet. Bei Klassifikationen sind moderne Data Mining Algorithmen den klassischen Methoden überlegen. Das Problem besteht in der Modellfindung, um Überanpassungen zu vermeiden. Dies ist ein zentrales Thema dieses Seminars.

 

Regressionsbäume

Regressionsbäume sind ebenfalls Entscheidungsbäume. Während Entscheidungsbäume zur Klassifikation (Käufer/Nichtkäufer) dienen, erlauben Regressionsbäume eine noch feinere Aussage. So kann z. B. das Ergebnis eines Regressionsbaums die Angabe der Bestellwahrscheinlichkeit oder ein Score sein. Mit Hilfe dieser Angaben können nun feiner abgestimmte Entscheidungen getroffen werden (z. B. Selektion von Kunden).

 

Modellbäume

Modelbäume sind Entscheidungsbäume zur Auswahl eines Modells. An jedem Blattende befindet sich ein Regressionsmodell. Je nach Ausprägung der Attribute wird ein Regressionsmodell ausgewählt und die Vorhersage getroffen. Abhängig von der Fragestellung kann ein Modellbaum einige wenige Modelle (<10) aber auch viele Modelle (>100) enthalten.

 

neuronale Netze

Das ist ein Reizthema! Heute werden neuronale Netze beim autonomen Fahren und bei Übersetzungen mit Erfolg eingesetzt. Man muss sich jedoch darüber im Klaren sein, dass hinter diesen Anwendungen harte Fakten stehen und z. B. beim autonomen Fahren ständig Sensoren die unmittelbare Umgebung scannen. Dies gilt nicht für sozialwissenschaftliche Fragestellungen - manchmal funktioniert‘s und manchmal nicht. Neuronale Netzte stellen sich für den Anwender als Blackbox dar. In diesem Seminar wird das Geheimnis des neuronalen Netzes gelüftet. So wird ein Backpropagation Netz erstellt und die Funktionsweise im Detail erläutert. Wenn man weiß, wie es geht, verliert das neuronale Netz zumindest einen Teil seiner Mystik.

 

Warenkorbanalyse, Assoziierungsregeln

Die Warenkorbanalyse liefert Assoziierungsregeln, welche den meisten Anwendern bekannt sind, auch wenn ihnen nicht bewusst ist, wie sie funktionieren. Bekannt ist das Beispiel von Amazon: Kunden, die Produkt A gekauft haben, können sich auch für Produkt XY interessieren. In einem Warenkorb befinden sich häufig Produkt A und B gemeinsam. Hier lernen die Teilnehmer, wie sie bestimmte Produktkombinationen finden und dann möglicherweise gemeinsam präsentieren. Auf Webseiten können dann bei bestimmten Produkten auch weitere Produkte empfohlen werden, die gerne zusammen gekauft werden.

 

k-Mittelwert Cluster

Bei diesem Verfahren wird zunächst die gewünschte Anzahl an Klassen und optional eine Kostenfunktion vorgegeben. Ausgangspunkt sind hier k zufällig gewählte Mittelwerte. Davon ausgehend wird jedes Objekt nun demjenigen Cluster zugeordnet, das die Summe der Abweichungsquadrate zum jeweiligen Mittelwert minimiert. Aus der erhaltenen Lösung wird erneut der Mittelpunkt des Clusters (Centroid) ermittelt und der Prozess so lange wiederholt, bis das Abbruchkriterium erreicht wurde. Auf Grund der zuvor gewählten Startwerte müssen nicht unbedingt die besten Lösungen gefunden werden. Auch hier erleichtern moderne PCs das Auffinden guter Lösungen. Das Ergebnis kann zur differenzierten Werbezwecken oder für andere Aufgaben genutzt werden.

 

random forest

Der Ausgangspunkt bei der Modellerstellung ist der Begriff Bootstrapping. Dabei werden aus den Trainingsdaten Stichproben der Größe n mit Zurücklegen gezogen. Aus einer Stichprobe mit m- Attributen wird eine Teilmenge zufällig (random) gewählt. Auf Basis dieser Teilmenge wird dann der Entscheidungsbaum gebildet. Für die Zuordnung eines neuen Elements wird für jede abgebildete Attribut-Kombination der entsprechende Entscheidungsbaum ausgewertet und jene Klasse gewählt, welche die meisten Stimmen erhalten hat. Verwendet man anstelle von Entscheidungsbäumen Regressionsbäume, ergibt sich der Vorhersagewert durch Gewichtung.

 

allgemeine Infos

Alle unsere Seminare und Workshops können sowohl als externe Veranstaltungen als auch Inhouse gebucht werden.
--> Infos zu den Seminaren

Die aktuellen Termine für externe Seminare und Workshops finden Sie hier:
--> die nächsten Termine

Falls Sie Fragen zu weiteren Terminen oder Wünsche bzgl. Inhouse Seminaren haben, senden Sie uns bitte eine Nachricht.
--> Informationen zu weiteren Terminen oder zu Inhouse-Seminaren auf Anfrage