Hva er sannsynligheten for at Magnus Carlsen forblir verdensmester? Dette er et spørsmål mange mener mye om, både før start av matchen men også nå underveis i partiene. Mesteparten av disse meningene er derimot nettopp det, meninger. Synsing. Det kan godt være kvalifisert synsing, men det ligger lite matematisk arbeid bak det, og sannsynlighetsberegninger er i utgangspunktet matematiske. Og som en som bruker sannsynlighetsregning i det daglige, så konstruerte jeg en modell før starten på første parti (engelsk).
Grunnlaget for modellen var som følger:
- Magnus Carlsen hadde 2863 i rating og Viswanathan Anand hadde 2792 i rating.
- Når to spillere med slik rating møtes vinner den sterkeste spilleren 35,2% av partiene, den svakeste 15,2% og det ender i remis 49,6% av tiden.
- Dersom det blir tie-break har de spilt jevnt så langt og jeg antar at de har lik sannsynlighet for å vinne.
Altså er dette en modell som er basert kun på ratingene til spillerne, og som ikke tar hensyn til om de spiller med hvit eller svart (som før matchen ikke spiller noen rolle siden de har like mange hvit-partier hver).
Med dette som bakgrunn simulerte jeg hvert parti 10 000 ganger for å se utfallet av matchen. Ikke bare hvem som stakk av med seieren, men som en fordeling av når matchen ville være vunnet. Det gav denne fordelingen:
Så ifølge denne modellen var det 78,8% sannsynlig at Magnus Carlsen ville forsvare tittelen sin i løpet av de ordinære 12 partiene, 9,7% sannsynlig at det ville bli tie-break, og 11,5% sannsynlig at Vishy Anand ville vinne i de ordinære partiene. Totalt sett gav modellen derfor Magnus Carlsen en 83,7% sjanse til å forsvare tittelen sin.
Jeg ble derfor overasket da jeg så at Norsk Regnesentral antok at det i utgangspunktet var 50/50 sannsynlig at Magnus Carlsen ville vinne i en artikkel publisert i VG. Er det virkelig slik at i en VM-match så betyr ikke ratingene noe som helst? At en VM-match er spesielt er jo en ting, og Garry Kasparov er jo en som burde vite hvor spesielt det er. Og modellen deres justerer for farge, noe som er bra når en oppdaterer modellen etter hvert parti. Det jeg derimot hadde et problem med er at modellen slik den er laget alltid favoriserer den spilleren som er lavest ratet. Hvorfor skal Magnus Carlsen plutselig spille 70 ratingpoeng dårligere enn det han har gjort til vanlig? Eller han 35 poeng dårligere og Anand 35 poeng bedre? Hvorfor ikke andre veien, Carlsen burde jo ha et psykologisk overtak på Anand (før matchen).
Heldigvis så finnes det måter å sjekke dette på. Dersom det virkelig er slik at ratingen ikke spiller noen rolle, så burde spilleren med lavest rating vinne VM-matchen like ofte som den med høyere rating. Så det jeg så gjorde var å analysere de 15 VM-matchene som har vært siden 1985 ved å notere hvem som spilte, hver spillers rating, hvem som vant (eller om det ble tie-break) i tillegg til å notere hvor mange partier endte med seier til hvit/sort eller remis. Og resultatet var at den sterkeste spilleren vant 8 av 15 matcher, den svakeste 4*, og 3 har endt med tie-break.
* I matchen mellom Karmnik og Topalov i 2006 har jeg ignorert det 5. partiet som Topalov vant på walk-over og scoret matchen som en seier til lavere-rangerte Kramnik og ikke tie-break.
Som man ser av dette, spiller ratingen en rolle. Og i år er rating-forskjellen spesielt stor, så jeg filtrerte matchene på de årene der rating-forskjellen var minst 50 poeng for å se hvilket utslag det ville gi. Og av de 8 matchene har den sterkeste vunnet 5, 1 har endt i tie-break og 2 med seier til den svakeste (*Kramnik over Topalov er her også). Et lavt antall matcher, men likevel nyttig informasjon.
Hva så med fargene? Av de 254 partiene som var spilt (inkludert årets første parti) så vant hvit 59, sort 27 og det endte med remis 168 ganger (23,2%, 10,6% og 66,2%).
Basert på dette, virker det som at både min originale modell og Norsk Regnesentral sin modell har forbedringspotensiale. Så det jeg valgte å gjøre var å justere min rating-modell med de historiske parti-dataene basert på farge. Jeg vektet modellen 50/50, slik at de nye sannsynlighetene per parti er som følger:
Anand hvit | Carlsen hvit | |
Carlsen vinner |
22,9 % | 29,4 % |
Remis | 57,7 % | 57,7 % |
Anand vinner |
19,4 % | 12,9 % |
I forhold til den originale modellen så er denne vektet mer mot remis og Anand, men har fremdeles Carlsen som favoritt med 70,5% vinnersjanser og denne fordelingen:
Det ga følgende forskjeller mellom de to modellene:
Rating modell | Justert modell | |
Carlsen seier | 78,8% | 63,3% |
Anand seier |
11,5% | 22,4% |
Tie-break | 9,7% | 14,3% |
Så hvilken modell er bedre? Det er vanskelig å si i grunn. Men den justerte modellen gir ganske lik sannsynlighet som utfallet har vært i VM-matcher der to spillere med rating over 50 har møttes. Uansett så blir begge to oppdatert underveis, og nye sannsynligheter publisert etter hvert parti.
Nå før 4. parti skal starte i dag så er sannsynlighetsfordelingen som følger:
No som gir disse totalsannsynlighetene:
Rating modell | Justert modell | |
Carlsen seier | 73,0% | 59,2% |
Anand seier |
13,6% | 21,8% |
Tie-break | 13,4% | 19,0% |
Carlsen har altså en total vinstsannsynlighet på 79,7% eller 68,7% avhengig av hvilken modell man foretrekker. Altså er vi nesten likt som det var før VM startet, med den største forskjellen at det er mer sannsynlig at det blir tie-break. Og dette er vel egentlig logisk. Det står uavgjort etter tre partier (slik det gjorde i fjor), og Carlsen har ett mer hvitparti enn Anand. Det er derimot ikke matematikken som bestemmer dette, det er det heldigvis spillerne som gjør. Nå er det heldigvis snart klart for det fjerde partiet.
Pingback: Win Probabilities After Game 5 | Analytic Minds
Pingback: Win Probabilities After Game 6 | Analytic Minds
Pingback: Win Probabilities After Game 7 | Analytic Minds
Pingback: Win Probabilities After Game 8 | Analytic Minds