Футбольные прогнозы статистической ассоциации - Statistical association football predictions

Статистический прогноз футбола это метод, используемый в ставки на спорт, чтобы предсказать исход футбол совпадения с помощью статистических инструментов. Цель статистического прогнозирования совпадений - превзойти прогнозы букмекеры^{[нужна цитата ]}^{[сомнительный – обсуждать]}, которые используют их для определения коэффициентов на исход футбольных матчей.

Наиболее широко используемый статистический подход к прогнозированию: рейтинг. Системы футбольных рейтингов присваивают звание каждой команде на основе результатов их прошлых игр, поэтому самый высокий ранг присваивается самой сильной команде. Исход матча можно предсказать, сравнив ранги соперников. Существует несколько различных футбольных рейтинговых систем, например, широко известны Мировой рейтинг ФИФА или Рейтинг Эло мирового футбола.

Прогнозы футбольных матчей, основанные на рейтинговой системе, имеют три основных недостатка:

Ранги, присвоенные командам, не различают их атакующие и защитные силы.
Звания представляют собой средние значения, которые не учитывают изменения навыков футбольных команд.
Основная цель рейтинговой системы - не предсказывать результаты футбольных матчей, а сортировать команды по их средней силе.

Другой подход к прогнозированию футбола известен как рейтинговые системы. В то время как рейтинг относится только к командному порядку, рейтинговые системы присваивают каждой команде постоянно масштабируемый показатель силы. Более того, рейтинг может быть присвоен не только команде, но и ее атакующим и защитным силам, преимуществу домашнего поля или даже навыкам каждого игрока команды (согласно Стерну ^[1]).

История

Публикации о статистических моделях для прогнозов футбола начали появляться с 90-х годов, но первая модель была предложена намного раньше Морони,^[2] опубликовавший свой первый статистический анализ результатов футбольного матча в 1956 году. Согласно его анализу, оба распределение Пуассона и отрицательное биномиальное распределение обеспечено адекватное соответствие результатам футбольных игр. Серия передач мяча между игроками во время футбольных матчей была успешно проанализирована Рипом и Бенджамином с использованием отрицательного биномиального распределения. ^[3] в 1968 г. Они усовершенствовали этот метод в 1971 г., а в 1974 г. Хилл ^[4] указали, что результаты футбольных игр в некоторой степени предсказуемы, а не просто случайны.

Первую модель, предсказывающую исход футбольных матчей между командами с разным уровнем подготовки, предложил Майкл Махер. ^[5] в 1982 году. Согласно его модели, голы, которые забивают соперники во время игры, выводятся из распределение Пуассона. Параметры модели определяются разницей между атакующими и защитными навыками с поправкой на коэффициент преимущества домашнего поля. Методы моделирования фактора преимущества домашнего поля были обобщены в статье Корнейи и Каррона. ^[6] в 1992 году. Зависимость сильных сторон команды от времени была проанализирована Knorr-Held ^[7] в 1999 г. Он использовал рекурсивная байесовская оценка для оценки футбольных команд: этот метод был более реалистичным по сравнению с прогнозом футбола, основанным на общей средней статистике.

Методы прогнозирования футбола

Все методы прогнозирования можно разделить на категории по типу турнира, временной зависимости и алгоритму регрессии. Методы прогнозирования футбола различаются между Круговой турнир и Нокаут-соревнование. Методы для Нокаут-соревнование резюмируются в статье Диего Куонена.^[8]

В таблице ниже представлены методы, относящиеся к Круговой турнир.

#	Код	Метод прогнозирования	Алгоритм регрессии	Зависимость от времени	Спектакль
1.	ПЛИТКА	Независимый от времени рейтинг наименьших квадратов	Линейная регрессия методом наименьших квадратов	Нет	Бедные
2.	TIPR	Независимая от времени регрессия Пуассона	Максимальное правдоподобие	Нет	Середина
3.	TISR	Не зависит от времени Скеллам Регресс	Максимальное правдоподобие	Нет	Середина
4.	ТДПР	Зависящая от времени регрессия Пуассона	Максимальное правдоподобие	Коэффициент демпинга времени	Высоко
5.	TDMC	Цепь Маркова, зависящая от времени	Монте-Карло	Цепь Маркова модель	Высоко

Независимый от времени рейтинг наименьших квадратов

Этот метод предназначен для присвоения каждой команде в турнире постоянно масштабируемого значения рейтинга, чтобы самая сильная команда имела наивысший рейтинг. Метод основан на предположении, что рейтинг, присвоенный командам-соперникам, пропорционален исходу каждого матча.

Предположим, что команды A, B, C и D играют в турнире, и результаты матчей следующие:

Матч #	Домашняя команда	Счет	Гостиная команда	Y
1	А	3 - 1	B	${ displaystyle y_ {1} = 3-1}$
2	C	2 - 1	D	${ displaystyle y_ {2} = 2-1}$
3	D	1 - 4	B	${ displaystyle y_ {3} = 1–4}$
4	А	3 - 1	D	${ displaystyle y_ {4} = 3-1}$
5	B	2 - 0	C	${ displaystyle y_ {5} = 2-0}$

Хотя рейтинги ${ displaystyle r_ {A}}$ , ${ displaystyle r_ {B}}$ , ${ displaystyle r_ {C}}$ и ${ displaystyle r_ {D}}$ команд A, B, C и D соответственно неизвестны, можно предположить, что исход матча № 1 пропорционален разнице между рангами команд A и B: ${ displaystyle y_ {1} = r_ {A} -r_ {B} + varepsilon _ {1}}$ . Таким образом, ${ displaystyle y_ {1}}$ соответствует разнице в баллах и ${ displaystyle varepsilon _ {1}}$ - наблюдение шума. Такое же предположение можно сделать для всех матчей турнира:

{ displaystyle { begin {matrix} y_ {1} = r_ {A} -r_ {B} + varepsilon _ {1} y_ {2} = r_ {C} -r_ {D} + varepsilon _ {2} ... y_ {5} = r_ {B} -r_ {C} + varepsilon _ {5} end {matrix}}}

Введя матрицу выбора X, приведенные выше уравнения можно переписать в компактной форме:

{ Displaystyle mathbf {y} = mathbf {Xr} + mathbf {e}}

Записи в матрице выбора могут быть 1, 0 или -1, где 1 соответствует командам хозяев, а -1 - командам гостей:

{ displaystyle { begin {matrix} mathbf {y} = left [{ begin {matrix} 2 1 - 3 2 2 end {matrix}} right], & mathbf {X} = left [{ begin {matrix} 1 & -1 & 0 & 0 0 & 0 & 1 & -1 0 & -1 & 0 & 1 1 & 0 & 0 & -1 0 & 1 & -1 & 0 end {matrix}} right] , & mathbf {r} = left [{ begin {matrix} r_ {A} r_ {B} r_ {C} r_ {D} end {matrix}} right] , & mathbf {e} = left [{ begin {matrix} varepsilon _ {1} varepsilon _ {2} varepsilon _ {3} varepsilon _ {4} varepsilon _ {5} конец {матрица}} right] конец {матрица}}}

Если матрица ${ Displaystyle mathbf {X} ^ {T} mathbf {X}}$ имеет полный ранг, алгебраическое решение системы может быть найдено через Наименьших квадратов метод:

{ displaystyle mathbf {r} = left ( mathbf {X} ^ {T} mathbf {X} right) ^ {- 1} mathbf {X} ^ {T} mathbf {y}}

Если нет, можно использовать Псевдообратная матрица Мура – Пенроуза получить:

{ Displaystyle mathbf {r} = mathbf {X} ^ {+} mathbf {y}}

Окончательные параметры рейтинга: ${ displaystyle mathbf {r} = [1,625, 0,75, -0,875, -1,5] ^ {T}.}$ В этом случае наивысший рейтинг имеет сильнейшая команда. Преимущество этого метода рейтинга по сравнению со стандартными системами рейтинга заключается в том, что числа постоянно масштабируются, определяя точную разницу между сильными сторонами команд.

Независимая от времени регрессия Пуассона

Согласно этой модели (Махер ^[5]), если ${ Displaystyle X_ {я, j}}$ и ${ displaystyle Y_ {i, j}}$ - это голы, забитые в матче, в котором команда i играет против команды j, тогда:

{ displaystyle { begin {align} X_ {i, j} & sim { text {Poisson}} ( lambda) Y_ {i, j} & sim { text {Poisson}} ( mu ) конец {выровнено}}}

${ Displaystyle X_ {я, j}}$ и ${ displaystyle Y_ {i, j}}$ независимые случайные величины со средними ${ displaystyle lambda}$ и ${ displaystyle mu}$ . Таким образом, совместная вероятность того, что команда хозяев забьет x голов, а команда гостей забьет y голов, является произведением двух независимых вероятностей:

{ displaystyle P left (X_ {i, j} = x, Y_ {i, j} = y right) = { frac { lambda ^ {x} exp (- lambda)} {x!} } { frac { mu ^ {y} exp (- mu)} {y!}}}

а обобщенная логлинейная модель для ${ displaystyle lambda}$ и ${ displaystyle mu}$ по словам Куонена ^[8] и Ли ^[9] определяется как: ${ displaystyle log left ( lambda right) = c ^ { lambda} + a_ {i} -d_ {j} + h}$ и ${ displaystyle log left ( mu right) = c ^ { mu} + a_ {j} -d_ {i}}$ , куда ${ displaystyle a_ {i}, d_ {i}, h> 0}$ относится к атакующим и защитным силам и преимуществу домашнего поля соответственно. ${ displaystyle c ^ { lambda}}$ и ${ displaystyle c ^ { mu}}$ - это поправочные коэффициенты, которые представляют собой среднее количество голов, забитых в течение сезона домашней и гостевой командами.

Предполагая, что C обозначает количество команд, участвующих в сезоне, а N обозначает количество матчей, сыгранных до настоящего момента, сильные стороны команд можно оценить, минимизируя отрицательную функцию логарифмического правдоподобия относительно ${ displaystyle lambda}$ и ${ displaystyle mu}$ :

{ displaystyle { begin {align} & L (a_ {i}, d_ {i}, h; i = 1, .. C) = - log prod limits _ {n = 1} ^ {N} {{ frac { lambda _ {n} ^ {x_ {n}} exp (- lambda _ {n})} {x_ {n}!}} { frac { mu _ {n} ^ { y_ {n}} exp (- mu _ {n})} {y_ {n}!}}} & = - sum limits _ {n = 1} ^ {N} { log left ({ frac { lambda _ {n} ^ {x_ {n}} exp (- lambda _ {n})} {x_ {n}!}} { frac { mu _ {n} ^ { y_ {n}} exp (- mu _ {n})} {y_ {n}!}} right)} & = sum limits _ {n = 1} ^ {N} { lambda _ {n}} + sum limits _ {n = 1} ^ {N} { mu _ {n}} - left ( sum limits _ {n = 1} ^ {N} {x_ {n } log left ( lambda _ {n} right)} right) - left ( sum limits _ {n = 1} ^ {N} {y_ {n} log left ( mu _ {n} right)} right) + sum limits _ {n = 1} ^ {N} { log left (x_ {n}! right)} + sum limits _ {n = 1 } ^ {N} { log left (y_ {n}! Right)} конец {выровнено}}}

При условии ${ displaystyle x_ {n}}$ и ${ displaystyle y_ {n}}$ известны атакующие и защитные силы команды ${ displaystyle left (a_ {i}, d_ {i} right)}$ и преимущество домашней земли ${ Displaystyle влево (ч вправо)}$ которые минимизируют отрицательное логарифмическое правдоподобие, можно оценить с помощью Максимизация ожиданий:

{ displaystyle { underset {a_ {i}, d_ {i}, h} { mathop { min}}} , L (a_ {i}, d_ {i}, h, i = 1, .. C)}

Улучшения для этой модели были предложены Марк Диксон (статистик) и Стюарт Коулз.^[10] Они изобрели коэффициент корреляции для низких баллов 0-0, 1-0, 0-1 и 1-1, где независимая модель Пуассона не работает. Димитрис Карлис и Иоаннис Нцуфрас ^[11] построил модель распределения Скеллама, не зависящую от времени. В отличие от модели Пуассона, которая соответствует распределению оценок, модель Скеллама учитывает разницу между счетами дома и на выезде.

Зависящая от времени цепь Маркова Монте-Карло

С одной стороны, статистические модели требуют большого количества наблюдений для точной оценки своих параметров. А когда в течение сезона доступно недостаточно наблюдений (как это обычно бывает), имеет смысл работать со средней статистикой. С другой стороны, хорошо известно, что навыки команды меняются в течение сезона, в результате чего параметры модели зависят от времени. Марк Диксон (статистик) и Коулз ^[10] попытался решить эту проблему, присвоив больший вес последним результатам матча. Рю и Сальвесен ^[12] представила новый метод оценки, зависящий от времени, с использованием модели цепей Маркова.

Они предложили модифицировать обобщенную линейную модель выше для ${ displaystyle lambda}$ и ${ displaystyle mu}$ :

{ displaystyle { begin {align} & log left ( lambda right) = c ^ { lambda} + a_ {i} -d_ {j} - gamma cdot Delta _ {i, j} & log left ( mu right) = c ^ { mu} + a_ {j} -d_ {i} + gamma cdot Delta _ {i, j} end {выровнено} }}

при условии ${ displaystyle Delta _ {i, j} = { frac { left (a_ {i} -d_ {j} right) + left (d_ {i} -a_ {j} right)} {2 }}}$ соответствует разнице сил между командами i и j. Параметр ${ displaystyle gamma> 0}$ затем представляет психологические эффекты, вызванные недооценкой силы противоборствующих команд.

Согласно модели, сила атаки ${ Displaystyle влево (а вправо)}$ команды A можно описать стандартными уравнениями броуновского движения, ${ Displaystyle В_ {а, А} влево (т вправо)}$ , На время ${ displaystyle t_ {1}> t_ {0}}$ :

{ displaystyle a_ {A} ^ {t_ {1}} = a_ {A} ^ {t_ {0}} + left (B_ {a, A} left (t_ {1} / tau right) - B_ {a, A} left (t_ {0} / tau right) right) cdot { frac { sigma _ {a, A}} { sqrt {1- gamma left (1- { gamma} / {2} ; right)}}}}

куда ${ Displaystyle тау}$ и ${ Displaystyle sigma _ {а, А} ^ {2}}$ относятся к потере скорости памяти и к предыдущей дисперсии атаки соответственно.

Эта модель основана на предположении, что:

{ displaystyle {a_ {A} ^ {t_ {1}}} | {a_ {A} ^ {t_ {0}}} ; sim N left (a_ {A} ^ {t_ {0}}, { frac {t_ {1} -t_ {0}} { tau}} sigma _ {a, A} ^ {2} right)}

Предположим, что в турнире участвуют три команды A, B и C и матчи проводятся в следующем порядке: ${ displaystyle t_ {0}}$ : А-В; ${ displaystyle t_ {0}}$ : A-C; ${ displaystyle t_ {1}}$ : B-C, совместная плотность вероятности может быть выражена как:

{ displaystyle { begin {align} & P (a_ {i}, d_ {i}, gamma, , tau; A, B, C) = P left ( lambda _ {A}, t_ { 0} right) cdot P left ( lambda _ {B}, t_ {0} right) cdot P left ( lambda _ {C}, t_ {0} right) & times P left (X_ {A, B} = x, Y_ {A, B} = y | lambda _ {A}, mu _ {B}, t_ {0} right) cdot P left (X_ {A, C} = x, Y_ {A, C} = y | lambda _ {A}, mu _ {C}, t_ {0} right) & times P left ( lambda _ {A}, t_ {1} | lambda _ {A}, t_ {0} right) cdot P left ( mu _ {C}, t_ {1} | mu _ {C}, t_ { 0} right) конец {выровнено}}}

Поскольку аналитическая оценка параметров в этом случае затруднена, Метод Монте-Карло применяется для оценки параметров модели.

Использование для других видов спорта

Модели, используемые для ассоциация футбола может использоваться для других видов спорта с таким же подсчетом голов (очков), т.е. хоккей на льду, водное поло, хоккей на траве, флорбол и др. Марек, Жупал и Шедива (2014)^[13] опираясь на исследования Maher (1982),^[5] Диксон и Коулз (1997),^[10] и другие, которые использовали модели для ассоциация футбола. Они представили четыре модели для хоккей на льду:

Модель двойного распределения Пуассона (такая же, как у Maher (1982))^[5]),
Модель двумерного распределения Пуассона, использующая обобщение двумерного распределение Пуассона что допускает отрицательные корреляция между случайные переменные (этот дистрибутив был представлен в Famoye (2010)^[14]).
Диагональные надутые версии двух предыдущих моделей (вдохновленные Диксоном и Коулзом (1997)^[10]), где вероятности ничьей 0: 0, 1: 1, 2: 2, 3: 3, 4: 4 и 5: 5 моделируются с дополнительными параметрами.

Более старая информация (результаты) не учитывается в процессе оценки во всех четырех моделях. Модели демонстрируются на высшей хоккейной лиге Чехии - Чешская Экстралига между сезонами 1999/2000 и 2011/2012 гг. Результаты успешно используются на фиктивных делать ставки против букмекеров.