Björn Piepenburg
Björn Piepenburg
Jun 14, 2021 3 min read

Bayes’sche Statistik als Erweiterung von Verfahren des maschinellen Lernens

thumbnail for this post

Thomas Bayes wurde Anfang des 18. Jahrhunderts als Sohn eines Pfarrers in London geboren und wurde nach seinem Studium der Theologie ebenfalls Pfarrer. Seine weiteren Interessen galten der Logik und der Statistik, in denen er in seiner Freizeit auch forschte. Sein wesentlicher wissenschaftlicher Beitrag ist das sogenannte Bayes’sche Theorem, welches erst drei Jahre nach seinem Tod veröffentlicht wurde

\[ P(A_k|E)=\frac{P(A_k)\cdot P(E|A_k)}{\sum_{i=1}^k P(A_i)\cdot P(E|A_i)} \]

Als Beispiel für die Anwendung nehmen wir einen medizinischen Schnelltest, welcher bei 95% der erkrankten Personen ein positives Testergebnis liefert ($P(positiv|krank)=0,95$). Bei 2% der gesunden Menschen führt der Test fälschlicherweise ebenfalls zu einem positiven Ergebnis ($P(positiv|gesund)=0,02$). An der Krankheit haben sich 2% aller Menschen infiziert ($P(krank)=0,02$ und entsprechend $P(gesund)=0,98$) und alle Menschen konnten getestet werden. Frage: Wenn eine Person positiv getestet wurde, wie hoch ist dann die Wahrscheinlichkeit, dass sie die Krankheit tatsächlich hat?

\[ P(krank|positiv)=\frac{P(krank)\cdot P(positiv|krank)}{P(krank)\cdot P(positv|krank)+P(gesund)\cdot P(positiv|gesund)}=49% \]

Aufbauend auf dem Bayes’schen Theorem hat sich die Bayes’sche Statistik entwickelt, welche im Rahmen der induktiven Statistik und des maschinellen Lernens zur Schätzung von Parametern und zum Testen von Hypothesen verwendet wird. Dazu werden die Parameter initial mit angenommenen Verteilungen belegt (sogenannten a-priori-Verteilungen). Iterativ werden die Verteilungen durch Statistiken von Stichproben oder durch Ergebnisse von Experimenten an die Problemstellung angepasst (aus den a-priori-Verteilungen werden post-priori-Verteilungen).

Ein Beispiel, welches in der Literatur häufig herangezogen wird, ist die experimentelle Bestimmung von Gewinnwahrscheinlichkeit bei einarmigen Banditen. Nehmen wir beispielsweise drei Banditen mit unterschiedlichen (unbekannten) Gewinnwahrscheinlichkeiten (als Ergebnis eines Spiels gibt es nur Gewinn oder nicht Gewinn mit konstanter Gewinnhöhe). Da wir kein Vorwissen haben, nehmen wir für die Gewinnwahrscheinlichkeiten jeweils eine Beta-Verteilung mit den Parametern $a=1$ und $b=1$ (entspricht einer Gleichverteilung) an. Zur Bestimmung der post-priori-Verteilungen wählen wir iterativ (in Abhängigkeit der bereits gesammelten Erfahrungen) einen Banditen aus und passen dessen Gewinnwahrscheinlichkeitskurve entsprechend des Ergebnisses des Spiels an. Man kann das Vorgehen abbrechen, wenn sich die Wahrscheinlichkeitskurven der drei Banditen nicht mehr signifikant verändern.

In den folgenden Abbildungen sind die Ergebnisse für den beschriebenen Versuch nach 5, 10, 20, 50, 100 und 200 Spiele dargestellt. Die tatsächliche Gewinnwahrscheinlichkeit des blauen Banditen ist 0,2, die des grünen Banditen 0,5 und die des roten Banditen 0,75. Man erkennt die Entwicklungen von den a-priori-Wahrscheinlichkeiten (alle Gewinnwahrscheinlichkeiten gleich wahrscheinlich) zu den post-priori-Wahrscheinlichkeiten.

post-priori-Verteilungen nach 5, 10, 20, 50, 100 und 200 Spiele

Neben den geschätzten Gewinnwahrscheinlichkeiten erkennt man in den Abbildungen die Streuung in den Ergebnissen. Diese lassen sich als Sicherheit bzw. Unsicherheit für die Annahme einer Gewinnwahrscheinlichkeit interpretieren. Um diesen Mehrwert an Informationen für unterschiedliche Anwendungen nutzen zu können, werden Algorithmen des maschinellen Lernens und der künstlichen Intelligenz um Ansätze der Bayes’schen Statistik erweitert.

Zur Verdeutlichung: Stellen Sie sich vor, Sie haben eine Problemstellung, welche auf Basis von Daten gelöst werden soll. Erfahrungsgemäß unterliegen empirische Daten einer gewissen Streuung, sind fehlerbehaftet, teilweise unvollständig und, zusammenfassend, nicht eindeutig. Sie trainieren mit diesen Daten Ihr Modell und bekommen als Ergebnis einen Wert, welcher augenscheinlich das richtige Ergebnis zu Ihrer Problemstellung darstellt. Wie kann das aber sein, wenn die Datenbasis nicht eindeutig ist? Der Lösungsalgorithmus muss also so angepasst werden, dass alle Datenprobleme im Ergebnis Berücksichtigung finden. Um dies zu erreichen, entwickelt man aktuell angepasste Lösungsverfahren für relevante Algorithmen des maschinellen Lernens, welche die Streuung in den Daten in jedem Berechnungsschritt berücksichtigen und als Ergebnis eine Verteilung ausgeben. Ein Beispiel stellen künstliche neuronale Netze dar, bei denen nicht nur die Ausgaben durch post-priori-Verteilungen ersetzt werden, sondern auch die Netzgewichte. Neben den Lösungsverfahren müssen auch Schnittstellen zur Weiterverarbeitung der Ergebnisse in Form von Verteilungen angepasst werden. Wir haben die Bayes'sche Statistik beispielsweise genutzt, um in einem durch den mFund geförderten Forschungsprojektes Angebotspreise auf Basis einer stellenweise schwach besetzten Datenbasis zu bestimmen.