Jazyk:

LINEARE REGRESSION

Weißt du, wie die Wettervorhersage funktioniert?

Die Vorhersage berechnen heute Supercomputer mit Hilfe komplexer mathematischer Modelle. Vereinfacht basiert die Vorhersage darauf, dass Meteorologen beobachtet haben, dass in der Vergangenheit, wenn sie in der Atmosphäre bestimmte Werte gemessen haben (es geschah dies), solches und solches Wetter eintrat (es geschah jenes). Und sie gehen davon aus, dass wenn sie erneut dieselben Werte messen, sich das Wetter wie damals entwickeln wird (es geschieht erneut jenes). Mehr oder weniger funktioniert das tatsächlich so. Es kommen aber weitere und weitere Variablen ins Spiel, weshalb die Vorhersage nicht immer ganz genau sein muss.

 

Doch obwohl wir die Wetterfrösche häufig kritisieren, sagen sie das Wetter meist viel genauer vorher, als wir es ohne sie schätzen würden.

Eine einfache Form der Prognose ist die sog. lineare Regression. Mit ihrer Hilfe können wir vorhersagen,

dass wenn zum Beispiel eine Person in unserem Spiel

im Modus MEDIUM die Anzahl von Bällen x wirft (Bedingung DIES), dann wird sie mit großer Wahrscheinlichkeit y Planeten treffen (Folge JENES).

 

Da es sich um eine lineare Regression handelt (line = Gerade), können wir diese Beziehung mit der Gleichung der linearen Funktion y=ax+b darstellen und als Gerade in das Koordinatensystem x, y eintragen.

Würden wir beispielsweise die Formulierung y = x/2 + 2 nutzen, dann würden wir vorhersagen, dass eine Person, wenn sie 6 Bälle wirft (x = 6), mit großer Wahrscheinlichkeit 5 Planeten trifft (y = 6/2 + 2 = 5).

Aber wie finden wir nun die richtige Gerade, die uns die genaueste Prognose liefert?

 

Wir machen dasselbe, wie die Meteorologen. Wir betrachten vorherige Situationen, d. h., wie genau echte Menschen geworfen haben, tragen dies in den Graphen ein und passen dem die Gerade an, mit deren Hilfe wir die Zukunft vorhersagen können.

Na gut, wir tragen Punkte ein, aber wie wissen wir, welche Gerade besser ist? Die erste, die zweite, die dritte oder irgendeine andere?

Hier können wir uns nicht mehr so leicht helfen und die Computertechnik muss antreten. Der Computer misst durch das Ausprobieren verschiedener Möglichkeiten den Abstand der Punkte von der Geraden auf der y-Achse. Er addiert alle diese Abstände und vergleicht das Ergebnis mit der Summe der Abstände für die nächste Gerade.

Und so immer weiter, bis er die Gerade findet, die am wenigsten von den Punkten entfernt ist. Und nach dieser Geraden können auch wir die Zukunft vorhersagen.

Wenn wir den Abstand eines Punktes auf der y-Achse von der Geraden berechnen, dann kommen für die Punkte, die unter der Geraden liegen, negative Zahlen heraus. Wir müssen die Abstände von der Geraden jedoch addieren, brauchen also positive Zahlen. Was muss ich bei der Berechnung vor dem Addieren mit diesen Differenzen machen?

 

WITZ:

Das ist ein nichtlineares Muster mit Ausreißern, aber aus irgendeinem Grunde bin ich mit den Daten sehr zufrieden.