Do końca rozgrywek II ligi zostało (najprawdopodobniej) 10 kolejek — pomijając baraże. Do tej pory wszystkie mecze 24 kolejek już się odbyły, dzięki czemu łatwo policzyć, że zostało do rozegrania 90 spotkań. Każde spotkanie może zakończyć się na trzy sposoby: 1 — zwycięstwo gospodarzy, 0 — remis albo 2 — zwycięstwo gości. To wszystko daje dokładnie 3^90 możliwości rozstrzygnięć, a więc 8727963568087712425891397479476727340041449, czyli w pewnym przybliżeniu 8,7 septyliona możliwości.
Niezwykle ciężkie byłoby przewidzenie ostatecznych rezultatów (przy tak wielkiej przestrzeni rozwiązań), ale istnieje możliwość pewnych statystycznych oszacowań. Najlepiej byłoby szacować wyniki konkretnych spotkań, stosując do tego rozkład Poissona wyznaczony na podstawie wcześniejszych sezonów lub zastosować algorytmy uczenia maszynowego do predykcji poszczególnych wyników i w ten sposób budować kolejne kolejki. Niestety pierwsze z podejść wymaga zbyt wielu obliczeń na tak odległą przyszłość, drugie (znowu przez zbyt odległą przyszłość) powoduje pewną samospełniającą się przepowiednię (przewidywanie kolejnych kolejek powoduje budowanie tabeli zgodnie z predykcją algorytmu, pomimo że jego sprawdzalność nie będzie na poziomie 100% — przy 10 kolejkach różnic może być już tak dużo, że tabela przed ostatnią kolejką może wyglądać zupełnie inaczej).
Na obecnym etapie można jednak pobawić się w pewne szacowanie prawdopodobieństwa na podstawie losowych symulacji. Losowość można jednak „poprawiać” na kilka sposobów; przede wszystkim, zamiast pozostawiać prawdopodobieństwo 1/3 dla każdego z rezultatów (1, 0 i 2) można bazować na historycznych spotkaniach i w ten sposób zwiększać prawdopodobieństwo konkretnych zdarzeń kosztem pozostałych. W poniższych rozważaniach analizie poddanych zostało 12 ostatnich sezonów I ligi (bez obecnego) oraz 4 sezony II ligi plus obecny stan aktualnego sezonu (wcześniejsze sezony za bardzo różniły się od obecnych). W rezultacie prawdopodobieństwo wystąpienia:
1 wynosi 0,42;
0 wynosi 0,28;
2 wynosi 0,30.
Przy takim rozkładzie prawdopodobieństwa wykonane zostały symulacje losowych wyników spotkań — w sumie 90 spotkań pozostałych do końca sezony. Statystycznie przy wystarczająco dużej liczbie symulacji klarują się pewne szacowane miejsca końcowe dla każdej z drużyn bez konieczności sprawdzania wszystkich możliwych kombinacji (tutaj ponad 8,7 septylionów). Przeważnie wystarczy pewien promil symulacji i tak też jest w tym przypadku. Na potrzeby poniższych wyników wykonanych zostało 100 000 symulacji ostatnich 10 kolejek sezonu II ligi.
Na rysunku 1 przedstawiona jest klasyfikacja końcowa (po 34 kolejce, bez baraży) z opisanym prawdopodobieństwem zajęcia miejsca premiowanego bezpośrednim awansem. W nawiasie przedstawiona jest mediana (czyli wartość środkowa, w pewnym sensie „najczęstsza”) pozycja danej drużyny na koniec sezonu. Natomiast na rysunku 2 przedstawiona jest podobna klasyfikacja, ale z oszacowaniem prawdopodobieństwa zajęcia co najmniej miejsca premiowanego barażami. Dla uproszczenia rozważań — przy równej liczbie punktów obowiązuje aktualna kolejność w tabeli, statystycznie jednak można to uznać jako szum.
.
Rysunek 1. Szansa na awans w 100 000 symulacji (w nawiasie mediana miejsca)
,
Rysunek 2. Szansa na co najmniej baraże w 100 000 symulacji (w nawiasie mediana miejsca)
Wedle przeprowadzonych symulacji można stwierdzić, że obecnie mamy 48,31% szans na bezpośredni awans oraz 48,53% szans na baraż (szansa na bezpośredni awans lub baraż, to 96,84%). Oznacza to, że cały czas jest większe prawdopodobieństwo zagrania przez GieKSę w barażach niż bezpośredni awans). Z innych analiz można też dodać, że trzy pierwsze drużny w symulacjach nie mają szans na spadek z ligi, Resovia ma szansę na spadek, ale mniejszą niż 0,01%.
Na ten moment mediana punktów potrzebnych do bezpośredniego awansu, to 59 (średnia 59,27, minimum 51, a maksimum 70). Natomiast mediana punktów, która jest niezbędna, aby przynajmniej zagrać w barażach, wynosi 51 (średnia 51,40, minimum 45, a maksimum 59). W porównaniu z poprzednimi sezonami nie jest to zbyt dużo, ponieważ w ubiegłym sezonie do awansu wystarczyło 58 punktów (a i 57 dałoby taki awans), a sezon wcześniej 62 (a i 58 dawałoby bezpośredni awans).
W razie szerszego zainteresowania podobnymi analizami bliżej końca sezony można pokusić się o zastosowanie rozkładu Poissona lub jeszcze bliżej końca uczenia maszynowego. Jeśli już o uczeniu mowa…
Uczenie maszynowe
Drobny bonus do powyższych analiz, który pozostaje zabawą i nie powinien skutkować używaniem poniższych prognoz do gry w zakładach. Na podstawie analiz wyników we wspomnianych powyżej sezonach, aktualnym układzie tabeli i zastosowaniu algorytmu zespołu klasyfikatorów heterogenicznych (bazujących na drzewach decyzyjnych (CART), lasach losowych, maszynie wektorów nośnych oraz boostingu) predykcja najbliższej kolejki jest następująca:
Pogoń Siedlce – Bytovia Bytów => 1
Resovia – Górnik Łęczna => 1
Elana Toruń – Garbarnia Kraków => 1
Górnik Polkowice – Lech II Poznań => 1
Skuteczność algorytmu w ubiegłej kolejce wyniosła 60% dla wskazanych spotkań (pięciu), co przy wniesieniu zakładu w wysokości 10 zł (8,80 zł netto) na każde spotkanie dałoby 50 zł wkładu i wygraną w wysokości 60,72 zł. Zysk algorytmu za ostatnią kolejkę wyniósłby więc 10,72 zł (21,44%). To stosunkowo dużo biorąc pod uwagę specyfikę obecnego sezony, ta specyfika wpływa jedna na to, że najbliższe przewidywania mogą okazać się zdecydowanie błędne (nawet wszystkie).
Zdarzenia mniej pewne, przy których poszczególne klasyfikatory typują różne rezultaty, to:
Gryf Wejherowo – Błękitni Stargard => 2 (60%), 1 (40%)
Znicz Pruszków – Olimpia Elbląg => 1 (80%), 0 (20%)
Stal Stalowa Wola – Skra Częstochowa => 1 (80%), 0 (20%)
GKS Katowice – Stal Rzeszów => 1 (80%), 0 (20%)
Widzew Łódź – Legionovia Legionowo => 1 (80%), 0 (20%)
bzn
11 czerwca 2020 at 23:26
Fantastyczny artykuł, jeden z najlepszych jakie tu czytałem. Oby więcej takich!