Beginn einer Reise in die Welt von R

Beginn einer Reise in die Welt von R

Ich starte mit diesem Beitrag meine R-Initiative im Web. Wohin die Reise geht, kann ich nicht vorhersagen. Ich lade jeden, der sich für R interessiert ein, an dieser Reise teilzunehmen – auch ohne Vorkenntnisse. Zunächst möchte ich zu den Begriffen Statistik, Informatik, Data Mining, maschinelles Lernen, Big Data und Data Science Stellung nehmen.

Statistik

Die Statistik ist das Teilgebiet der Mathematik, welches sich mit dem Zufall beschäftigt. Werfen wir z. B. eine Münze n-mal und beobachten dabei m-mal das Ereignis, dass die Münze Kopf zeigt, dann können wir die Wahrscheinlichkeit für dieses Ereignis mit p = m/n schätzen. Wir würden erwarten, dass p sich dem Wert ½ annähert, sofern n groß genug gewählt wurde.

Wie oft muss man das Experiment ausführen, um sicher eine korrekte Antwort zu erhalten? Das ist nicht vorhersehbar. Wenn Kopf und Zahl die gleiche Wahrscheinlichkeit haben, einzutreten, dann kennen wir die Antwort: p = ½. Dazu benötigt man nicht zwingend ein Experiment. Doch nicht jede Aufgabe lässt sich so einfach lösen.

Trotzdem enthält diese experimentelle Vorgangsweise bereits die Ansätze des maschinellen Lernens.

Als man über solche Ansätze diskutierte, gab es noch keine Computer. Dafür gab es aber kluge Köpfe. Einer davon war der Russe Andrei Kolmogorov. Zu Beginn des 20 Jahrhunderts legte er mit nur vier einfachen Axiomen den Grundstein für die Wahrscheinlichkeitsrechnung und damit für die heutige Statistik. Ein Axiom wird nicht hinterfragt. Es handelt sich dabei um Aussagen, die dem Hausverstand nicht widersprechen.

Statistik ist damit eine Wissenschaft, deren Fundament auf klaren Regeln aufbaut.

Früher wurden solche Experimente tatsächlich von Hand ausgeführt. Heute würde ein moderner Computer in Bruchteilen einer Sekunde diese Experimente millionenfach ausführen und das Ergebnis zur Anzeige bringen. Trotzdem wäre das Ergebnis immer mit einer Unsicherheit behaftet. Die Frage ist, ob eine mögliche Abweichung für die praktische Entscheidungen vernachlässigbar ist.

Informatik

Damit komme ich zur Informatik. Diese hat in den letzten zehn Jahren enorme Fortschritte gemacht. Die Computer wurden immer schneller und der Speicherplatz immer größer und günstiger. Damit war der Weg frei für die Anwendung heuristischer Methoden, um statistische Fragestellungen und Probleme zu lösen.

Heuristik kommt aus dem altgriechischen heurísko (ich finde) bzw. heurískein (Auffinden und Entdecken). Als Heuristik bezeichnet man (nach Wikipedia) also die Kunst, aus unvollständigen Informationen dennoch zu wahrscheinlichen Aussagen oder praktikablen Lösungen zu kommen.

Heuristiken führen immer zu einem Ergebnis. Man kann sich jedoch nicht sicher sein, ob die gefundene Lösung auch die optimale Lösung darstellt. In vielen Fällen werden optimale Lösungen gefunden. Für heuristische Verfahren bedarf es großer Datenmengen.

Ein Spezialgebiet der Informatik ist das maschinelle Lernen. Hier kommen Data Mining Algorithmen wie z. B.

  • Naïve Bayes
  • Entscheidungsbäume
  • Regressionsmodelle
  • Support Vektor Maschinen,
  • Neuronale Netze
  • Warenkorbanalysen
  • Clusterverfahren etc.

zum Einsatz. Dabei werden die zu analysierenden Datenvolumen immer größer, die möglichen Strukturen immer vielfältiger und dies in einem nicht endenden Datenstrom - besser bekannt unter dem Begriff Big Data.

Data Science

Data Science ist ein Sammelbegriff für Statistik, Data Mining, maschinelles Lernen und Big Data etc. Eine Person, die sich mit diesem Themenbereich beschäftigt, bezeichnet man als Data Scientist.

Ein Data Scientist muss also vielfältige Erfahrungen mit sich bringen. Er sollte über statistisches Knowhow verfügen, jedoch auch Erfahrung im IT-Bereich mitbringen. Gerade der Umgang mit Datenbanken, BI-System, der Cloud und natürlich Big Data etc. gehört zum Werkzeugkasten eines Data Scientist. Hinzu kommt, dass sich diese Themenlandschaft kontinuierlich im Wandel befindet. Ein Data Scientist muss immer aufgeschlossen für Neues sein und sich dem Wandel stetig anpassen.

Neben den technischen Fähigkeiten zur Datenhaltung und Datennutzung benötigt der Data Scientist auch entsprechende Analysewerkzeuge. Hier kommen die Sprachen R und Python zum Zug. Bei beiden Sprachen handelt es sich um Open Source Software.

Ich werde mich in diesem Blog hauptsächlich mit R beschäftigen, jedoch auch Ausflüge in andere Themenbereiche unternehmen!

Als ich Statistik studierte, kamen die ersten PCs auf den Markt und waren für die meisten unerschwinglich. Die Informatik beschäftigte sich mit Edgar F. Codd’s Regeln für eine relationale Datenbank. Alles war noch überschaubar.

Worin unterscheidet sich nun die klassische Statistik von der Statistik der Informatik

Heute hat sich die Statistik, dank der Fortschritte in der Informatik, grundlegend verändert.

Was sind die Unterschiede zwischen Statistik und Informatik? Eine Frage, die mich im Rahmen meines Berufslebens immer wieder beschäftigt hat. Ich habe diese Thematik mit verschiedenen Fachleuten, auch aus dem universitären Bereich, diskutiert, um mir so eine Meinung bilden zu können. Es gibt Gemeinsamkeiten. Data Mining Algorithmen, maschinelles Lernen findet man bereits beim Microsoft SQL Server 2000. Auf Grund der Rechenleistung der graphischen Benutzeroberfläche, der Komplexität der Syntax haben sich diese System aber nie durchgesetzt und keine Verbreitung gefunden.

Heute haben wir schnelle Rechner, phantastische Benutzeroberflächen, das Internet und die Cloud. Die Komplexität hinter den Anwendungen – die Algorithmen – bleiben dem Benutzer verborgen. Man spricht heute von der Demokratisierung der Datenanalyse - eine Aussage die man dringend hinterfragen sollte.

Sind Informatiker die neuen Statistiker?
Konkurrieren sich die beiden Fachrichtungen Statistik und Informatik?

Heute sehe ich die Situation wesentlich entspannter. Beide Bereiche haben ihre Berechtigung; es hängt alles von der Art der Fragestellung und der Sichtweise ab. Manche Fragestellungen bevorzugen die Statistik und andere die Informatik. Einen eindeutigen ‚Gewinner‘ gibt es hier nicht.

Ein Beispiel aus der Praxis.

Für einen Versender wird ein Scoringmodell erstellt. Ziel ist es, jene Kunden zu selektieren, die auf einen Katalog mit hoher Wahrscheinlichkeit bestellen werden. Für den Selektionsmanager geht es also um eine kauft / kauft nicht Entscheidung. Eine Antwort auf diese Frage gibt folgendes chinesisches Sprichwort:

Egal, ob die Katze weiß oder schwarz ist, Hauptsache ist, sie fängt Mäuse.

Mit Hilfe des maschinellen Lernens und unter Einsatz eines Data Mining Algorithmus‘ wird die Entscheidung getroffen, ob ein Kunden kaufen wird oder nicht. Die Erklärung für den Kauf spielt keine Rolle - solange der Algorithmus optimale Ergebnisse liefert. Ein Pluspunkt für die Informatik.

Das Management möchte jedoch zu Planungszwecken mehr über das Kundenverhalten erfahren. Auch wenn die Statistik – durch einfachere Modellannahmen – geringfügig schlechtere Ergebnisse im Vergleich zum maschinellen Lernen liefert, kann sie entscheidend zur Klärung des Kundenverhaltens beitragen. Statistik unterstützt das Management bei der Frage, warum etwas so ist, wie es ist. Ein Pluspunkt für die Statistik


Besuchen Sie mich auch auf meiner Hompage www.usedata.com. Im nächsten Beitrag werde ich – aus der Vogelperspektive – diese Unterschiede anhand eines Kreditscoring-Modells verdeutlichen.

Mit statistischen Grüßen

Helmut Grillenberger
26. Februar 2018

Kredit Scoring, Teil 1

Kredit Scoring ist das zentrale Thema der folgenden beiden Beiträge. Ziel ist es den Unterschied zwischen klassischer Statistik und dem maschinellen lernen sichtbar zu machen. Im Teil 1 wird eine Lösung mit Hilfe der logistischen Regression (klassische Statistik) auf Basis einer Stichprobe erstellt.

Beitrag lesen

Diese Website benutzt Cookies, um Ihnen das beste Erlebnis zu ermöglichen. Weiterführende Informationen erhalten Sie in unserer Datenschutzerklärung.