Jazyk:

REGRESJA LINIOWA

Czy wiesz, jak powstaje prognoza pogody?

Prognozę obliczają dziś superkomputery za pomocą skomplikowanych modeli matematycznych. Mówiąc w uproszczeniu, prognoza oparta jest na tym, że meteorolodzy zauważyli, że jeżeli w przeszłości uzyskali w wyniku pomiarów  w atmosferze pewne wartości (stało się to), to pogoda przyszła taka czy owaka (stało się tamto). I zakładają, że jeśli ponownie uzyskają takie same wartości, to pogoda będzie się kształtowała jak wtedy (ponownie stanie się tamto). Mniej więcej tak powstaje prognoza pogody. Do gry wchodzą jednak kolejne i kolejne zmienne i dlatego prognoza nie zawsze musi być w pełni dokładna.

 

Choć często krytykujemy pogodynki, to w większości zapowiadają one pogodę o wiele dokładniej, niż gdybyśmy ją prognozowali bez nich.

 

Prostą formą prognozowania jest tzw. regresja liniowa. Dzięki niej potrafimy przewidzieć,

że jeżeli człowiek w naszej grze rzuci na przykład

w trybie MEDIUM liczbę piłeczek x (warunek TO), to z dużym prawdopodobieństwu trafi nimi y planetek (skutek TAMTO).

 

Ponieważ jest to regresja liniowa (line = prosta), stosunek ten potrafimy zapisać równaniem funkcji liniowej y=ax+b i narysować jako prostą na osi współrzędnych x,y.

 

Jeżeli użylibyśmy przykładowo zapisu y = x/2 + 2, to byśmy prognozowali, że jeżeli człowiek rzuci 6 piłeczek (x = 6), to z dużym prawdopodobieństwem trafi w 5 planetek (y = 6/2 + 2 = 5).

 

A jak znaleźć właśnie tę właściwą prostą, która da nam najdokładniejszą prognozę?

 

Zrobimy to, co meteorolodzy. Popatrzymy na poprzednie sytuacje, tzn. jak dokładnie rzucali realni ludzie, narysujemy to na wykresie i dostosujemy do tego prostą, za pomocą której potrafimy prognozować przyszłość.

No dobrze, narysujemy punkty, ale skąd wiemy, która prosta jest lepsza? Czy pierwsza, druga, trzecia lub jakaś inna?

 

Tu już tak łatwo nie jest i trzeba skorzystać z techniki obliczeniowej. Komputer, sprawdzając różne możliwości, mierzy odległości punktów od prostej na osi y. Wszystkie te odległości zsumuje i wynik porówna z sumą odległości dla kolejnej prostej.

 

I tak będzie to powtarzał, dopóki nie znajdzie tej prostej, która jest najmniej oddalona od punktów. Na jej podstawie potrafimy prognozować przyszłość także my.

 

Jeżeli będziemy liczyć odległość punktu na osi y od prostej, to dla punktów, które są pod nią, wyjdą nam liczby ujemne. My jednak potrzebujemy sumować odległości od prostej, a więc potrzebujemy liczb dodatnich. Co muszę z tymi różnicami przy obliczeniach przed sumowaniem zrobić?

 

ŻART:

To wzór nieliniowy z odległymi wartościami, ale z jakiegoś powodu jestem bardzo zadowolony z danych.