Lehrveranstaltung Wirtschaftsstatistik
... des Bachelorstudiengangs Controlling, Rechnungswesen und Finanzmanagement an der FH-Steyr.
Das Motto der Lehrveranstaltung: Statistik neu gedacht
Hat die Statistik ausgedient? Ist sie noch zeitgemäß? Sind empirische Verfahren statistischen Methoden überlegen? Kann man die statistische Theorie künftig ausblenden? Ist die künstliche Intelligenz die Lösung aller Probleme? Fragen über Fragen. Die Antwort lautet schlicht NEIN.
In dieser Lehrveranstaltung möchte ich eine zeitgemäße Sichtweise zur Statistik geben. Der Bogen spannt sich von den wichtigsten statistischen Methoden und Verfahren bis hin zum Einsatz moderner KI-Techniken. Alle behandelten Themen werden anschaulich visualisiert und durch Animationen verstärkt. So entstehen im Kopf Bilder, die Ihr neu gewonnenes Wissen auf Dauer festigen. Schwerpunktthema ist die Wirtschaftsstatistik. Die Umsetzung der zahlreichen Beispiele erfolgt mithilfe der Open Source Analysesprache R. Statistik muss nicht graue Theorie sein. Statistik kann spannend und auch unterhaltsam sein. Mit diesem soliden Grundwissen erhalten Sie die nötige Kompetenz, um bei künftigen Herausforderungen im Analysebereich gestaltend mitwirken zu können.
Erleben Sie das Abenteuer Datenanalyse an der FH-Steyr
Installation von R und RStudio
Die Open Source Analysesprache R ist wesentlicher Teil dieses Statistik-Lehrgangs. Mithilfe dieser Software werden die statistischen Themen nachvollzogen. In der Praxis ist sie eine Alternative zu Excel, SPSS bzw. SAS. Die gemeinsame Installation von R, RStudio, Tidyverse u. a. Paketen sichert ein funktionierendes System für alle Teilnehmer des Lehrgangs.Einführung in RStudio
RStudio ist die Entwicklungsumgebung für alle Analysen mit R. Die Einführung in die Bedienung und Nutzung von RStudio sorgt für ein grundlegendes Wissen im Umgang mit R. Abschließend wird RMarkdown vorgestellt, mit dessen Hilfe die Übungsaufgaben später abgewickelt werden können.Excel-Tabellen einlesen
Statistik benötigt Daten. Im Unterschied zur KI genügen auch kleinere Datensätze in Form von Stichproben. Zu Beginn werden Excel-Tabellen nach R importiert. R kann nahezu jedes Format lesen. Gleichzeitig erfolgt eine Einführung in das grundsätzliche Arbeiten mit dem dplyr-Paket. So lassen sich künftig Daten rasch und unkompliziert aufbereiten.Klassifizierung von Merkmalen
In den Datenbeständen tauchen unterschiedliche Merkmale auf. Diese gilt es zunächst zu klassifizieren. Es werden Begriffe wie manifeste vs. latente Merkmale erklärt und die Skalenniveaus Nominalskala, Ordinalskala, Intervallskala und Verhältnisskala besprochen. Das Klassifizieren der Merkmale bildet die Grundlage für deren spätere Nutzung.Deskriptive Statistik
Merkmale werden beschrieben durch Lageparameter wie Mittelwert, Median, getrimmtes Mittel und Modalwert. Neben den Lageparametern spielt die Beschreibung der Streuung von Daten eine wichtige Rolle. Zu den bekanntesten Streuungsparametern gehören Varianz, Standardabweichung und der Interquartilabstand IQR. Mittels Boxplot können diese Kennzahlen visualisiert werden.Aussagekräftige Grafiken erstellen
Für die explorative Analyse sind grafische Darstellungen von großem Nutzen. Besonderheiten im Datenbestand werden sofort sichtbar, wie z. B. Ausreißer. Für die Erstellung von Grafiken stellt R mehrere Systeme zur Verfügung. Eines dieser Systeme ist ggplot, welches auf einer strengen Logik - The Grammar of Graphics - aufbaut. Damit lassen sich auch komplexe Grafiken einfach erstellen.Explorative Datenanalyse
Mit dem bisher erlangten Wissen kann man nun mit der explorativen Datenanalyse beginnen. Zunächst klassifiziert man die Merkmale und quantifiziert diese durch statistische Kennzahlen. Zusätzlich werden die Merkmale durch Grafiken visualisiert. Man kann auch zwei Merkmale zusammenfassen, um so optisch Zusammenhänge sichtbar zu machen. Die dabei gewonnenen Erkenntnisse bilden den Ausgangspunkt für nachfolgende Analysen.Datenaufbereitung
Garbage In Garbage Out. Diese bekannte Aussage ist noch immer einer der häufigsten Ursachen für fehlerhafte Interpretationen von Analysen oder für deren Unbrauchbarkeit. Daher ist es wichtig, zu wissen, wie man Daten effizient und optimal für die Analyse aufbereitet. Hierfür ist das dplyr- und tidyr-Paket ein ideales Hilfsmittel. Damit kann nahezu jeden Datenbestand gelesen werden. Je überschaubarer ein Datenbestand ist, umso gründlicher kann auch die Datenbereinigung und Datenaufbereitung durchgeführt werden.Stichprobe versus Population
Man möchte Aussagen über die Merkmale einer Grundgesamtheit oder Population treffen. Dies ist jedoch aufwendig und kostenintensiv. Daher beschränkt man sich auf Zufallsstichproben. Dies führt zu den Begriffen Parametern bei Populationen und Statistiken bei Stichproben. R verfügt über zahlreiche Methoden, um gängige Populationen zu simulieren und Techniken zur effizienten Erzeugung von Zufallsstichproben. Einige dieser Methoden und Techniken werden hier vorgestellt.Verteilungen richtig lesen
Zunächst betrachten wir eine Population normalverteilter Größen und betrachten dazu die grafische Darstellung der Verteilung. Sie kann sehr unterschiedliche Formen der Darstellung annehmen, was durch die Kennzahlen Schiefe und Kurtosis beschrieben wird. Noch wichtiger aber ist die Information, welche durch diese grafische Darstellung der Verteilung vermittelt wird.Normalverteilung
Die Fläche unterhalb der Verteilungskurve beschreibt Wahrscheinlichkeiten. Wie kann man nun solche Wahrscheinlichkeiten quantifizieren? Wie berechnet man konkrete Wahrscheinlichkeiten für ein beliebiges Intervall und wie kann man diese in der Praxis nutzen? Ausgangspunkt für die Beantwortung solcher Fragen ist die Standardnormalverteilung oder auch Hauptnormalverteilung. Überraschende Aussagen sind die Folge.Verteilungen unter R
R kennt zahleiche Verteilungen und stellt für jede dieser Verteilungen vier Hilfsfunktionen bereit. Eine dieser Funktionen erlaubt das Erstellen von Merkmalen, welche dieser Verteilung genügen. So kann man etwa das Kaufverhalten mithilfe einer Monte Carlo-Simulation simulieren. QQPlot dient zur grafischen Überprüfung, ob ein Merkmal einer vorgegebenen Verteilung genügt.Konfidenzintervall verstehen
Jeder kennt den Wortlaut "die Partei XY erreicht X Prozent mit einer Schwankungsbreite von +/- Y Prozent" am Wahlsonntag. Wie kommt man zu solchen Aussagen? Dahinter stecken Begriffe wie Grundgesamtheit, Zufallsstichprobe und Konfidenzintervall. Während ein Punktschätzer einen konkreten einzelnen Wert liefert, der sowohl den wahren Wert über- als auch unterschätzen kann, liefert das Konfidenzintervall ein Schätzintervall mit vorgegebener Wahrscheinlichkeit.Wahrscheinlichkeitsrechnung und Kombinatorik
Die Wahrscheinlichkeitsrechnung basiert auf den Axiomen von Kolmogorov. Sie sind das Fundament der Statistik. Mithilfe der Axiome kann ein Regelwerk zum Umgang mit Wahrscheinlichkeiten gebildet werden. Um nun die Wahrscheinlichkeiten realer Beispiele zu ermitteln, benötigt man noch Wissen aus dem Bereich Kombinatorik.Berechnung einfacher Wahrscheinlichkeiten
Mit dem Grundwissen zur Wahrscheinlichkeitsrechnung, gepaart mit Techniken aus der Kombinatorik, können nun interessante Aufgaben gelöst werden. So kann man die exakten Wahrscheinlichkeiten beim Pokerspiel ermitteln und die Gewinnchancen beim Zonk-Spiel erhöhen.Unabhängigkeit, Abhängigkeit und Korrelation
Der Begriff Unabhängigkeit spielt eine zentrale Rolle in der Statistik. So sind die Ergebnisse beim Würfeln voneinander unabhängig und dies spielt bei der Berechnung von Wahrscheinlichkeiten eine wichtige Rolle. Abhängigkeit bedeutet, dass ein zufälliges Ergebnis das Folgeergebnis beeinflusst. Auskunft über die lineare Abhängigkeit liefert die Korrelation. Und manche Korrelationen sind leider nur Scheinkorrelationen.Kontingenztabellen erstellen und interpretieren
Wenn man das Auftreten der Kombinationen von Ausprägungen zweier Merkmale notiert, erhält man eine Kontingenztabelle bzw. Kreuztabelle. Sie treten sehr häufig auf. Verfügt jedes dieser Merkmale über nur zwei Ausprägungen, dann spricht man von einer Vierfeldertafel.Prüfung auf Unabhängigkeit - der χ2-Test
Mithilfe von Kontingenztabellen und unter Anwendung des χ2-Tests kann man die beiden Merkmale auf Unabhängigkeit prüfen. Man kann relativ einfach jene Zellbelegung bestimmten, welche bei unabhängigen Merkmalen zu erwarten ist. Sind die Abweichungen innerhalb der Zellen groß, dann dürfte eine Abhängigkeit vorliegen. Genaue Auskunft dazu gibt der χ2-Test.Konfidenzintervall, Stichprobe, Population
Wir kehren zurück zum Konfidenzintervall und betrachten den Sachverhalt genauer. Warum funktioniert ein Konfidenzintervall? Wir können nach Belieben die Genauigkeit des Intervalls und gleichzeitig die Wahrscheinlichkeit festlegen, dass das vorgegebene Intervall den wahren Mittelwert der Population enthält. Dies ist kein Zufall, sondern die praktische Anwendung statistischer Theorien.Hypothesen, Signifikanz, α-Fehler, β-Fehler …
Wir kommen zum Testen. Im Zeitalter des E-Commerce besser bekannt unter dem Begriff A/B-Tests. Dabei werden Hypothesen aufgestellt und mittels Tests auf ihre Signifikanz geprüft. Beim Betrachten von Hypothesen tauchen zahlreiche neue Begriffe auf. Am besten versteht man diese Begriffe, wenn man den Test in einer Vierfeldertafel abbildet. Man spricht dann von einer Konfusion Matrix.t-Test für zwei unabhängige Stichproben
Wir betrachten den t-Test zum Vergleich zweier Mittelwerte unabhängiger Stichproben. Was sind die Voraussetzungen, um einen t-Test anwenden zu können? Beim t-Test geht es um die Erkennung von Effekten - das sind die Differenzen der Mittelwerte. Wie groß muss ein Effekt sein, dass dieser auch im Test nachgewiesen werden kann? Wie führt man einen solchen Test mithilfe von R aus?t-Test für zwei abhängige Stichproben
Eine abhängige Stichprobe liegt vor, wenn man den Test an ein und derselben Person ausführt. Wenn Sie z. B. die Abnutzung einer neuen Sohle für einen Laufschuhs testen wollen. Jede Person hat ihren eigenen Laufstil. Daher wäre es besser, wenn die Laufschuhe des Probanden mit zwei unterschiedlichen Sohlen ausgestattet sind und so die Streuung zwischen den Probanden vermindert wird.Permutationstest
Wenn Sie sich im Unklaren sind, welcher Test zum Einsatz kommen soll, können Sie auch auf ein computerintensives Verfahren zurückgreifen - den Permutationstest. Unter der Annahme, dass sich die Kontroll- und Testgruppe nicht unterscheiden, kann man das wahrscheinliche Signifikanzniveau heuristisch bestimmen.Einfache Varianzanalyse
Während der t-Test sich auf den Vergleich von zwei Gruppen beschränkt, kann man mithilfe der Varianzanalyse den Einfluss mehrerer unabhängigen Variablen auf eine abhängige Variable prüfen. So kann man z. B. die Auswirkungen unterschiedlicher Werbeaktionen auf den Umsatz oder das Zahlungsverhalten prüfen.Einfache lineare Regression
Die einfache lineare Regression gehört zum Standardwerkzeug eines jeden Statistikers. Sie haben eine Punktewolke, durch welche Sie eine Gerade legen wollen, sodass der Fehler minimiert wird. Diese Aufgabe lässt sich mathematisch exakt lösen. Die ermittelte Gerade kann man z. B. für Prognosen nutzen. Da die Regressionsgerade meist auf Basis einer Stichprobe basiert, können Sie für die ermittelten Statistiken und Koeffizienten Konfidenzintervalle bilden.Das RFM-Modell
Sie wollen ein einfaches Scoringmodell zur Ermittlung der Bestellwahrscheinlichkeit erstellen. Dazu bedient man sich in der Wirtschaft des RFM-Modells - auch heute noch. RFM steht für die wichtigsten Parameter: Recency - Frequency - Monetary. Recency steht für das letzte Kaufdatum des Kunden, frequency für die Bestellhäufigkeit und monetary für den kumulierten Umsatz der letzten Aktivperiode.Logistische Regression
Die Erstellung des RFM-Modells mithilfe der multiplen Regression hat jedoch noch eine Schwachstelle: der Score reicht von minus unendlich bis plus unendlich. Eine bessere verwertbare Aussage würden wir durch die direkte Prognose der Wahrscheinlichkeit erreichen. Genau das liefert die logistische Regression.Random Forest
Kaggle ist eine öffentliche Wettbewerbsplattform, in der Firmen nach Lösungen für ihre Probleme suchen. Die besten Lösungen werden prämiert. Jeder kann mitmachen. Zu Beginn dominierten Modelle, die mit Hilfe der logistischen Regression gelöst wurden, dann folgten Entscheidungsbäume wir Random Forest und XGBoost, zuletzt dominierten KI-Modelle. Random Forest ist ein sehr transparentes Modell mit hohem Erklärungswert.Künstliche Intelligenz - wie neuronale Netze ticken
Sie haben viel über Statistik gehört und auch ein Verständnis zu dieser Thematik entwickelt. Ist Statistik überhaupt noch notwendig, wenn künstliche Intelligenz alles lösen kann? Es scheint zumindest so. Ich erkläre Ihnen, wie neuronale Netze tatsächlich ticken und warum statistische Methoden weiterhin Bedeutung haben.Trainieren neuronaler Netze
Um ein neuronales Netz bzw. ein tiefes neuronales Netz (Deep Learning) zu trainieren, müssen bestimmte Regeln beachtet werden. Ziel ist es, die Gewichte im Netz so zu optimieren, dass die Vorhersagen zutreffend sind. Im Training ist dies nach Belieben möglich. Wie schaut es aber mit der Verallgemeinerung der Ergebnisse aus? Wie gut funktioniert das Netz im Alltag? Dabei spielen die Begriffe underfitting und overfitting eine zentrale Rolle.