Resum
Les ganes de veure beisbol durant la ‘offseason’ de la MLB m’han portat a crear un índex que ajuda a escollir quin partit mirar sense saber res més que els equips i el dia. Utilitzant R, vaig desenvolupar un algorisme que es fixa en els canvis en la probabilitat de guanyar jugada a jugada, per poder descobrir els partits més interessants. El 2024 vaig migrar el sistema de R a Python, i també vaig canviar de font de dades, de Retrosheet a Savant.
El codi també té en compte el bon ‘pitching’, les situacions de ‘no-hitter’, la rivalitat i les bones jugades defensives a l’outfield, per obtenir una combinació de diferents tipus de partits interessants. BWRI és una classificació normalitzada de 0 a 100, de manera que 100 és el partit més emocionant detectat per l’algoritme i 0 el pitjor, però no es tracta d’un índex de percentils.
El web inclou les temporades de 2016 en endavant. Pots consultar els BWRIs en mode de llista si vols, però el meu suggeriment és utilitzar el mode aleatori, filtrant per a partits amb una puntuació > 0.60, el que ve a ser una selecció similar a escollir el millor partit de cada setmana. BWRI no té en compte el context de la temporada, però pots filtrar que es mostrin només els partits de la postemporada.
A fons
Les offseasons són massa llargues. No m’agrada gaire seguir el mercat de ‘trades’ i l’agència lliure, així que en general passo els dies mirant partits de la temporada passada, amb ganes de descobrir ‘relievers’ o simplement divertint-me amb partits emocionants. No és ni la meitat de divertit si es coneix per endavant el resultat del partit, però això no és difícil, ja que hi ha més de 2,400 partits en una temporada regular normal de la MLB. A vegades veig partits aleatoris, però després vaig trobar baseballrewatch.com, i això em va salvar durant el confinament de la Covid. Desafortunadament, el lloc web fa temps que no s’actualitza.
Va ser llavors quan vaig pensar si seria possible fer un índex per avaluar si val la pena veure un partit passat, simplement usant les estadístiques play by play del partit. Utilitzant les dades de Retrosheet i els coneixements de Albert, Marchi i Baumer, vaig poder preparar fàcilment l’eina bàsica per calcular l’índex: la probabilitat de guanyar afegida (WPA) jugada a jugada, és a dir, com la probabilitat de guanyar un partit canvia després de cada jugada. Avui en dia el càlcul probabilístic el trec directament de les dades de Statcast, no el cuino.
El WPA és l’eina principal feta servir per crear el que he anomenat Baseball Worth Rewatch Index (BWRI), tot i que hi ha altres coses que he tingut en compte.
WPA Total
El primer que vaig pensar va ser: si sumo els valors canvis de probabilitat absoluts de cada jugada en un partit, les xifres més altes han d’assenyalar partits emocionants. Partits que van passar de les mans d’un equip a les d’un altre diverses vegades. Drama, situacions de ‘leverage’ i entreteniment, especialment en les últimes entrades, quan un canvi en el marcador genera un valor més alt de WPA. Així doncs, el primer factor de BWRI és el WPA Total.
Pitching
No tot són carreres i acció, els partits amb bon ‘pitching’ són realment divertits, el BWRI l’avalua de dues formes senzilles. En primer lloc, quants Ks per entrada hi ha en un joc i com d’a prop està un partit de ser un no-hitter. Des dels partits que arriben a la setena sense hits fins als no-hitters, tots obtenen punts extra. S
Bones jugades defensives
Mitjançant els càlculs de ‘catch probability’ de Statcast afegeixo punts a un partit si en aquest hi han hagut jugades defensives de 4, 5 o 6 estrelles.
Rivalitat
Finalment, afegeixo alguns punts extra per a partits amb rivalitat, per a aquest propòsit utilitzo dades de knowrivalry.com.
Altres característiques
Una cosa amb la qual em vaig trobar és que els partits amb extrainnings acumulaven fàcilment més valor i ocupaven gairebé sempre els primers llocs de la llista. Per compensar això multiplico per 0.95 els partits amb 10 innings, per 0.9 els d’11 i per 0.85 els de 12 en amunt.
Per últim, una altra cosa que vaig veure és que la distribució dels resultats era molt asimètrica. La majoria de partits quedaven a la franja d’entre 20 i 40 punts, i molt pocs superaven els 80. Per compensar una mica això vaig aplicar una potència de 0.5 a la sèrie, cosa que normalitza la distribució i acosta una mica més a 100 la nota dels partits més interessants.