Etter å ha truffet godt med sjakkmodellene mine er det på tide å ekspandere til andre områder, og da er jo fotball et naturlig valg. Og i anledning sesongstart lanseres nå Tippeligamodellen for første gang. Her kommer en forklaring på hva den er og hva den skal gjøre:
Hva er Tippeligamodellen?
Tippeligamodellen er en dynamisk modell som baserer seg på ELO-ratingsystemet man bruker i sjakk, som regner ut hva sannsynligheten for hjemmeseier, uavgjort og borteseier er i hver kamp og som bruker dette til å beregne hvert lags sannsynlighet for å for eksempel vinne Tippeligaen eller rykke ned.
Men det finnes jo ikke ELO-rating for fotball.
Joda, FIFA bruker det til å rangere kvinnelandslagene og det finnes en del uoffisielle rangeringer på nettet. ELO er basert på matematiske beregninger, og jeg har derfor valgt å lage en egen versjon som kun baserer seg på tidligere sesonger.
Hvordan?
Jeg startet fra 2009-sesongen da Tippeligaen ble utvidet til 16 lag. Ved start fikk hvert lag 2000 poeng, og så har resultatene siden den tid justert poengene.
Hva med nedrykk/opprykk?
Modellen er et lukket system, noe som betyr at poengene til de som rykker ned blir overført til de som rykker opp. Rent formelt så regnes det ut gjennomsnittet av poengene til de som rykket ned, og så fordeles de poengene etter sluttplasseringen i 1. divisjon slik at det er 10 poeng forskjell på lagene. Det vil si at Sandefjord får 10 poeng mer enn Tromsø og 20 poeng mer enn Mjøndalen for denne sesongen.
Greit nok. Hva er fordelingen av poeng nå?
Den er som følger:
Betyr det at du tror at dette blir sluttabellen?
Både ja og nei. Dette er nok den mest sannsynlige sluttabellen med unntak av at FK Haugesund sniker seg forbi Lillestrøm siden LSK blir trukket 1 poeng før start. Det er dog ikke selve tabellen modellen regner ut, men heller hvert lags sannsynlighet for å havne i en viss posisjon.
Hva betyr det?
Det betyr at ratingen brukes til å beregne sannsynligheten for hvert utfall i hver kamp, og så simuleres hele sesongen 10 000 ganger for å gi en oversikt over forskjellige sannsynligheter. For eksempel beregnes sannsynligheten for å vinne serien slik:
Oi, Molde og Rosenborg er jo mye høyere enn alle andre, men hva med Start, Tromsø og Mjøndalen? Har de ingen muligheter?
Molde og Rosenborg har mye større rating enn alle andre ja, og det gjenspeiles her. Og det er dette som er en av styrkene til modellen. Der de fleste andre også har disse to lagene som favoritt så forteller modellen noe om hvor stor favoritt de er. Når det gjelder de tre lagene som ikke er i grafen så betyr det bare at de ikke endte opp som vinner i noen av de 10 000 simuleringene som ble gjort. Det betyr ikke at de ikke har noen mulighet, bare at den muligheten er veldig liten.
Hva med overganger, påvirker ikke det ratingen?
Ikke med en gang. Først må det bevises at laget blir bedre eller dårligere ved en overgang. Ratingen til Brann ble ikke automatisk bedre da de signerte Marcus Pedersen i fjor sommer, selv om mange eksperter mente at det var riktig grep for å overleve i Tippeligaen. Det er dog bygget inn i modellen at mye skjer mellom sesongene og derfor påvirker resultatene i de første kampene ratingen litt mer enn de gjør senere.
Greit nok. Hvordan beregnes sannsynlighetene for hver kamp?
De beregnes etter en kombinasjon av hvem som spiller hjemme og ratingforskjellen på lagene. Jo større forskjell, jo større er sannsynligheten til det ene eller andre laget.
Hva med uavgjort?
Uavgjortresultater er en utfordring. Man skulle kanskje tro at jo jevnere to lag er, jo større er sannsynligheten for uavgjort. Det har det derimot ikke vært historisk, og den settes basert på om det er hjemmelaget eller bortelaget som har høyest rating med en liten justering for om hjemmelaget har en rating som er minst 200 poeng høyere enn bortelaget.
Så modellen har rett og slett tippet alle kampene i Tippeligaen? Er ikke det utrolig vanskelig?
Ordet du leter etter er “umulig”. Det er vanskelig nok å tippe en tippekupong med 12 kamper, der er det litt over 530 000 (3^12) mulige kombinasjoner av utfall. I en tippeligasesong er det 240 kamper, noe som gir 3,23*10^114 mulige kombinasjoner.
Det ble plutselig matematikk, hva betyr det egentlig?
Det betyr at det er et veldig stort tall. Dersom vi skriver det fullt ut ser det slik ut:
3 230 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000
Det var et stort tall.
Ja, det var derfor vi bruker vitenskapelig notasjon. For å prøve å sammenligne det med andre ting. Dersom hver person på jorden fikk hvert sitt oljefond, så ville det tallet blitt ca 5*10^22, og man antar det finnes ca. 4*10^81 atomer i universet. Så å tippe alt rett er nok umulig.
Hvorfor gjøre det dersom det er umulig?
Det er her sannsynlighet kommer inn i bildet. Ved å bruke modellen til å beregne hvor sannsynlig hvert utfall er, kan vi lage en antakelse på utfallet for hele sesongen. Modellen oppdateres også etter hver runde, slik at man kan se effekten underveis. Det er også en del annen moro som kan gjøres som vil vises frem mot seriestart.
Dette høres jo fancy ut, men fungerer det?
Det er jo det viktigste spørsmålet av alle. Jeg lagte prinsippene for modellen på sesongene fra 2009 til 2013 og testet det på sesongen 2014. Så sammenlignet jeg treffsikkerheten i forhold til sjimpansemetoden (tilfeldig utfall) og ren statistikk. Sjimpansemetoden går ut på at alle utfall har lik sannsynlighet, altså 1/3 for hjemmeseier, 1/3 for uavgjort og 1/3 for borteseier. Statistikk baserer seg på at det i perioden var 49,7% hjemmeseier, 25,6% uavgjort og 24,8% borteseier. For sesongen 2014 var modellen 13,5 milliarder ganger bedre enn tilfeldig og 289 000 ganger bedre enn statistikk. Så ja, den fungerer ganske bra.
Et siste spørsmål i denne runden. Kan vi få et eksempel til?
Selvfølgelig. Man kan for eksempel analysere hvert enkelt lag og se hva som er sannsynlighetsfordelingen for hvilken plass man havner på. Her er FK Haugesund:
Det er altså mest sannsynlig at de ender på 6. plass, det er omtrent 6% sannsynlig at de tar medalje, 3,5% sannsynlig at de havner på kvalifisering og 2% at de rykker direkte ned. I tillegg ser man jo at det er mest sannsynlig med en plassering mellom 5. og 9. plass, noe som stemmer godt med hva andre beregner også.
I dagene frem mot seriestart kommer det litt flere analyser og eksempler fra modellen. I tillegg tar jeg sikte på å oppdatere den etter hver runde, slik at man kan følge utviklingen fra runde til runde.
Pingback: Analyse av Tippeligaen 2015 | Analytic Minds
Pingback: Sesongstart i Tippeligaen | Analytic Minds
Pingback: Før første runde i Tippeligaen | Analytic Minds
Pingback: Før andre runde i Tippeligaen | Analytic Minds
Pingback: Før tredje runde i Tippeligaen | Analytic Minds
Pingback: Tippeligamodellen 2015 - livespill.nu
Pingback: Før fjerde runde i Tippeligaen | Analytic Minds
Pingback: Før femte runde i Tippeligaen | Analytic Minds
Pingback: Evaluering av Tippeligamodellen etter 5 runder | Analytic Minds
Pingback: Oppsummering av Tippeligaen etter 5 runder | Analytic Minds
Pingback: Før syvende runde i Tippeligaen | Analytic Minds
Pingback: Før åttende runde i Tippeligaen | Analytic Minds
Pingback: Tippeligaen før 16. mai runden | Analytic Minds
Pingback: Før tiende runde i Tippeligaen | Analytic Minds
Pingback: Før tolvte runde i Tippeligaen | Analytic Minds
Pingback: Har Rosenborg allerede vunnet Tippeligaen? | Analytic Minds
Pingback: Hvem tar medaljene i Tippeligaen? | Analytic Minds
Pingback: Før 27. runde i Tippeligaen | Analytic Minds
Pingback: To runder igjen i Tippeligaen | Analytic Minds
Pingback: Tippeligamodellen 2016 | Analytic Minds
Pingback: Eliteseriemodellen 2017 | Analytic Minds
Pingback: Toppseriemodellen 2017 | Analytic Minds