КСо - коэффициент стабильности рассматриваемого игрока перед пересчетом (с учетом возможного снижения из-за неучастия);
КСi - коэффициент стабильности i-го соперника перед пересчетом (с учетом возможного снижения из-за неучастия и аномальности);
КСкон - коэффициент стабильности рассматриваемого игрока после пересчета;
Квр - коэффициент снижения КC при длительном неучастии в турнирах;
Кан - коэффициент аномальности (мера превышения отклонения результата игрока от прогнозируемого выше среднего квадратического отклонения);
N - число рейтинг-партий, по которым производится пересчет рейтинга;
Nпоб - число побед из N рейтинг-партий;
Nож - ожидаемый результат (вероятностный прогноз: математическое ожидание количества набранных очков);
S - среднее квадратическое отклонение, равное квадратному корню из произведения числа партий на вероятности выигрыша и проигрыша в партии со "средним" соперником;
SUM () - сумма величин, стоящих в скобках.
ВВЕДЕНИЕ
Данный проект был представлен автором на заседании президиума РФГ(Б), состоявшемся 27.06.2003 во время проведения V кубка LG в Москве. В результате обсуждения доклада проект был одобрен и принято решение о постепенном переходе на новую систему - по мере готовности программного обеспечения.
Недавно проект был переработан с учетом последних достижений прикладной мат. статистики и новая редакция размещена на вики-сайте Го-библиотека.
Что такое "рейтинг" и для чего нужны рейтинг-системы?
Рейтинг - это термин, происходящий из теории вероятностей и математической статистики. Дословно "рейтинг" (rating) означает "оценка". Что же "оценивает" рейтинг? Во многих сферах человеческой деятельности встречаются величины (признаки, параметры), имеющие предположительно численную природу, но конкретные значения этих величин, однако, не поддаются прямому физическому измерению. Многовековая практика выработала для таких величин так называемые методы экспертных оценок, когда группа лиц - "экспертов" дает заключение о характере распределения величины по некоторой, достаточно условной в большинстве случаев, шкале числовых значений. Примерами могут быть рейтинги популярности политиков, отдельных артистов и творческих коллективов, оценки успеваемости в образовании, оценки спортсменов при выступлении на соревнованиях в таких видах спорта как художественая и спортивная гимнастика, фигурное катание на коньках, прыжки в воду, фристайл и т.п. Примененяют рейтинги и в некоторых командных видах спорта, например футбольные рейтинги европейских стран или рейтинги ФИФА.
В таких игровых видах спорта, как теннис, шахматы, шашки и некоторых других, применение рейтингов в целях ранжировки спортсменов по силе игры стало общепринятой нормой, хотя там есть и прямые методы сопоставления - путем проведения соревнований. Но необходимость рейтингов в спорте обусловливается тем, что, во-первых, всех собрать на одно глобальное соревнование невозможно, и во-вторых - расстановка по местам дает только ранжировку на данном соревновании, не всегда объективно отражающую реальное соотношение сил среди всех спортсменов. Кроме того, сила спортсмена - очень переменчивый фактор, требующий для оперативного отслеживания его изменения дополнительных методов. В роли одного из таких методов и выступает применяемая в том или ином виде спорта рейтинг-система (РС), представляющая собой совокупность математических методов вычисления "оценки" - рейтинга отдельных спортсменов или команд по результатам выступления в различных соревнованиях.
Исторически первыми РС в спорте можно считать спортивные классификации по разрядам и званиям. Развитие спорта и рост популярности этой сферы деятельности привели к необходимости введения более точных шкал и, соответственно, методов оценки уровня мастерства. Поистине революционным шагом можно считать разработку профессором А.Эло в 50-х годах прошлого века новой системы оценки относительной силы шахматистов, которую с тех пор и называют его именем: "рейтинг-система Эло". Большинство современных РС в той или иной степени основываются на идеях, заложенных в РС Эло.
Итак, РС нужны для максимально точного отражения соотношения сил, "ранжировки", и динамичного отслеживания изменения этого соотношения, выражаемого в распределении численных значений некоторого условного параметра, когда в той или иной сфере деятельности отсутствуют прямые методы физического измерения оцениваемой величины. Другой не менее важной задачей РС является предсказание будущих результатов, т.е. математически обоснованное прогнозирование, с которой РС типа Эло успешно справляются на протяжении вот уже полувековой истории своего существования.
Каковы же основополагающие принципы построения современных РС?
Каждому участнику РС приписывается некоторая условная численная величина - "рейтинг", отражающая уровень мастерства, силу игры, авторитетность или значимость этого члена РС в данной сфере деятельности. Методами математической статистики, как правило, может быть определен доверительный интервал и доверительная вероятность, характеризующие точность РС. Популярно это означает, что оценка с помощью рейтинга имеет вероятностный характер и абсолютно точно указать оцениваемый параметр в принципе невозможно. Например, спортивные классификации имели в вероятностном смысле точность порядка 1-2 разряда (величина доверительного интервала) с доверительной вероятностью порядка 50%. То есть, про спортсмена, например шахматиста 1-го разряда, можно было сказать: "вероятность того, что данный спортсмен соответствует признанному уровню 1-го разряда (не ниже самых слабых перворазрядников и не выше самых сильных) примерно равна 50%". Эта оценка, конечно, грубая и условная. Вполне может быть, что где-то точность была и выше, а где-то и ниже. Для более строгих заключений необходимо анализировать систему присвоения разрядов и статистические данные по всем выступлениям всех спортсменов в соревнованиях.
Ограничимся далее только сферой спорта и рассмотрим, как "работают" РС. Рейтинг изменяется в зависимости от выступления на соревнованиях. Если результат превосходит прогнозируемую величину - рейтинг повышается, в противном случае - понижается. Поправки вычисляются по формулам, обосновываемым с помощью методов матстатистики. Как правило, РС увязываются с существующими традиционными классификациями типа разрядов и званий - в условия выполнения квалификационных требований включаются условия и по рейтингу. Для го обычно стремятся РС увязать с традиционной системой кю-данов, для чего при расчете поправок к рейтингу учитываются и выступления в форовых турнирах, а даны и кю сопоставляются с определенными значениями рейтига.
Вот, кратко, суть РС, в том числе и РС Эло, без которой сегодня уже трудно представить себе шахматный мир, а также многие другие сферы деятельности. Несколько слов о некоторых практических РС и их особенностях. В теннисе применяют РС другого типа. Ранжировка определяется по результатам турниров, причем влияние их на рейтинг зависит от значимости, главным критерием которой является призовой фонд. Точность и достоверность в этой РС достаточно обосновано определить вряд ли возможно. Шахматная РС выявила в процессе использования ряд отрицательных моментов, главным из которых является снижение рейтинга ведущих шахматистов при включении в РС новых быстро прогрессирующих шахматистов. Для борьбы с этим были разработаны специальные условия входа в РС для молодых мастеров. Были некоторые проблемы и при согласовании национальных рейтингов с рейтингом ФИДЕ, пока не перешли к единой мировой РС. В других видах игр (шашки, го) РС в основном повторяют шахматную, с некоторыми модификациями. Опыт применения РС типа Эло имеют AGA (Американская го-ассоциация), ряд европейских национальных го-федераций, а также Европейская го-федерация (ЕГФ). В целом дисбаланс по национальным РС достигает почти 2 дана (а в области нижних кю, скорее всего, еще больше), что подтверждается статистическими данными, опубликованными на сайте ЕГФ.
Сегодня, в связи с бурным прогрессом информационных технологий, становятся популярными различные состязания через интернет. Существует порядка двух десятков игровых го-серверов. На всех из них применяются РС, как правило согласованные с традиционным форовым принципом. Исключением является, пожалуй, только китайский сервер CTN (другое название - Harmony Go Server), на котором практически не играются форовые партии. В результате, хотя РС и выстраивает всех по ранжиру, ни о никаком соответствии данов и кю этого сервера и других РС говорить не приходится, так как известны (и не один) игроки, имеющие подтвержденный 1-3 дан на серверах KGS, NNGS, WING, IGS, LGS и быстро опускающиеся до 4-8 кю на сервере CTN. Не все серверы используют РС типа Эло. Часть серверов применяют РС итерационного типа (KGS, возможно NNGS), в которых текущий рейтинг зависит от почти всей предыстории, т.е. после каждой новой партии проводятся итерации по рейтингу с целью обеспечить максимальное совпадение результата по всем учитываемым партиям с вероятностным прогнозом (без учета возможного изменения силы игры за охватываемый период). В целом наблюдается большой разброс в оценке одних и тех же игроков в различных РС. Неизбежное сползание рейтингов (о механизме этого явления будет сказано отдельно) вынуждает администрацию серверов время от времени производить разовые корректировки рейтингов в сторону увеличения (скорей всего на базе экспертных оценок).
Общие выводы из приведенного обзора таковы. Большинство РС базируется сегодня на принципах, заложенных А.Эло в шахматной РС. Главные проблемы: привязка к традиционным классификациям, эффект сползания рейтингов, несогласованность различных РС в одной и той же сфере, недостаточная обоснованность параметров РС или полное отсутствие таковой в математическом плане.
Так что мы, российские игроки го, ожидаем получить от РС?
Во-первых, РС должна достаточно точно отображать расстановку сил во всей шкале уровней игры (при соответствующей доверительной вероятности, желательно поближе к 100%). Прикидки на основе теоретико-вероятностного анализа и методов матстатистики позволяют надеяться получить точность порядка плюс-минус 25 очков рейтинга в группе данов с достоверностью для стабильных игроков не менее 90%. В группе кю-игроков точность плавно должна снижаться к самому низу примерно в 2-3 раза. Это очень приличная точность и мне неизвестна пока РС (из применяемых сейчас), которая имела бы такие хорошие показатели.
Во-вторых, РС должна быть устойчивой к различным возмущениям типа быстрого роста или случайных колебаний уровня игры у отдельных нестабильных игроков, ошибок начального присвоения и т.п. РС должна быть защищена от таких нежелательных явлений, как сползание рейтинга отдельных групп стабильных игроков или всей системы в целом. С другой стороны, рейтинг должен достаточно оперативно (за 1-2 турнира) поспевать за динамикой изменения силы игры у быстропрогрессирующих игроков.
В-третьих, РС должна быть согласована с традиционной системой кю-данов так, чтобы уровень игры, определяемый присвоенными и подтвержденными официально разрядами (данами) и званиями, соответствовал принятому для этого уровня рейтингу в пределах декларируемой точности. Ну и желательно, чтобы РС была максимально согласована с другими РС, принятыми в международной практике го.
Все формулы и параметры РС должны обосновываться математическими методами и постоянно уточняться по результатам статистического анализа учитываемых рейтинговых партий, включая форовые.
Такая почти идеальная РС пока не создана, но мы будем стремиться максимально приблизиться к ней.
Какова ситуация в российской и других аналогичных РС?
Чтобы принять решение, нужно сначала оглядеться и оценить обстановку. Какова же ситуация с РС сегодня? Проведенный анализ явлений, наблюдаемых в российской, да и в других РС, позволяет утверждать, что точность в среднем в группе данов не превышает плюс-минус 40 очков с достоверностью не выше 80%. Можно дискутировать по поводу этой оценки - 40 или не 40 очков, 80% или нет - суть от этого не изменится: сегодня РС не отвечает тем задачам, которые она должна выполнять. Это касается не только точности РС, а также устойчивости и динамичности. Устойчивость напрямую связана с точностью. Нет точности - и невозможно проконтролировать устойчивость, а общее сползание рейтингов отдельных групп игроков видно почти невооруженным глазом. Динамичность отсутствует: неоднократно замечено, что быстро растущие игроки слишком долго добираются до адекватного уровня рейтинга, если не "повезло" вовремя получить аномальный результат. Подобные явления характерны не только для РС России, но и вообще для РС, не имеющих специальных механизмов стабилизации, коррекции аномального роста, привязки к каким-то "анкерным " отметкам, с недостаточно обоснованными параметрами и формулами.
На первый взгляд РС ЕГФ выглядит вполне соответствующей требованиям. Но это только кажущееся благополучие. Более внимательное изучение статистических данных, опубликованных на сайте ЕГФ, не оставляет иллюзий на этот счет (каждый может сам убедиться, проанализировав эти статистические данные и обратив внимание на дисперсию, отдельные "выбросы" в таблицах частот побед при различных разностях в уровнях партнеров, посмотрев внимательно на таблицу сдвигов национальных рейтигов и т.д.). Украинские специалисты по рейтингу очень высокого мнения о своей РС. Однако они во многом ориентируются на РС ЕГФ и применяют недостаточно обоснованные эмпирические методы коррекции, утверждая в то же время, что их РС уж точно лучше российской, хотя в свое время украинская РС произошла именно из российской. Есть еще РС игровых серверов в интернете, но на них останавливаться не будем, так как известно, что там в основном еще большая нестабильность и недостоверность.
Причин, порождающих отрицательные явления в РС, несколько. Во-первых, это несоответствие принятых формул и параметров, заложенных в РС, тем закономерностям, которые реально наблюдаются в процессе постоянных контактов игроков го друг с другом в турнирах и которые могут быть выявлены на основе современных математических методов, в том числе и методов обработки экспериментальных (статистических) данных. Имеются ввиду и правила входа в РС, и правила пересчета рейтинга, и учет аномальных результатов (который в ЕГФ вообще отсутствует), и вид зависимости функции вероятности от разницы рейтингов (и вообще рейтинга партнеров), и компенсация форы в форовых турнирах и т.д. Во-вторых, в большинстве РС вообще отсутствует понятие достоверности рейтинга или какого-то аналога, а, значит, и необходимый учет влияния этого фактора при пересчете рейтингов. Даже в российской РС этот фактор учитывается только в очень урезанном виде (удвоение коэффициента динамичности для "нестабильных" игроков, коррекция "начального" рейтинга при аномальном результате). Без правильного учета этого фактора вообще теряет смысл выражение: "точность рейтинга", поскольку равномерная, одинаковая точность для всех невозможна ни в одной РС в принципе - сила игры изменяется, причем у каждого игрока по-своему. В-третьих, общий рейтинг в более широких объединениях игроков формировался и формируется на основе использования локальных РС (в европейской РС при включении новых игроков национальный рейтинг зачастую выбирается в качестве начального значения). Эти локальные РС обычно не имеют механизмов взаимокоррекции и взаимопривязки, либо эти механизмы недостаточно эффективны. В результате в объединенную РС вносятся дополнительные существенные ошибки.
Рассмотрим некоторые примеры ошибок и механизмы влияния их на РС. Сползание рейтинга, в основном средней группы данов, в российской РС обусловлено механизмом "отсоса" рейтинга растущими игроками, причем скорость роста не так важна. Поскольку каждый игрок неизбежно проходит через стадию роста, то суммарный отсос рейтинга в РС достигает гигантских размеров. Конечно, это явление проявляется не тотчас, а спустя месяцы и годы после введения РС - пока механизм отсоса не раскачается и не наберет ход. Скорость отсоса определяется плотностью растущих игроков и средней скоростью их роста. Наибольшая плотность растущих игроков, вероятно, приходится на интервал от 20 до 1 кю, а максимальную скорость роста трудно оценить, но она тоже, по-видимому, достигается в группе кю, может ближе к верхним разрядам. До введения единого расчета по всей шкале кю и данов был искусственный барьер, препятствующий проникновению "волны отсоса" в верхнюю часть рейтинг-листа. После устранения этого барьера волна отсоса прошла через среднюю часть данов, мало пока затронув верхние даны. Так, в последние два-три года средняя скорость падения рейтинга среди "стабильных" 2-4 данов составляла около 20 очков в год. Суть механизма отсоса заключается в том, что рейтинг растущего игрока в среднем отстает, хотя бы чуть чуть, от уровня игры. Значит и вероятности побед растущего игрока оказываются заниженными, а потери в рейтинге остальных - завышенными. Суммарный вклад в отсос конкретного игрока определяется разницей между уровнем стабилизации и входным уровнем (достаточно точно оценивается разницей текущего и начального рейтингов за весь период обсчета игрока), если не было никаких специальных поправок типа аномального результата и т.п. Эта ошибка локально, на отдельной партии, имеет второй порядок малости по сравнению с грубыми разовыми ошибками типа неправильного начального присвоения, но зато она носит массовый характер и большую длительность по времени, чем и берет. Особенно заметен отсос на игровых серверах, так как там частота игр на порядки выше, чем в очных соревнованиях. В результате администрация серверов вынуждена время от времени делать массовые поправки в сторону увеличения рейтинга.
Другой причиной частичного сползания рейтинга средней группы данов является существенная зависимость вероятности победы от рейтинга. Как показывает анализ статистики ЕГФ, эта нелинейная зависимость наиболее сильно начинает проявляться в верхней части рейтинг-листа - в группе 5-7 данов. Суть в том, что здесь с ростом уровня игры резко возрастает вероятность победы над младшими по рейтингу, в то время как в РС эта вероятность предполагается для всех групп игроков одинаковой. Например, Александр Динерштейн, встречаясь с игроком 5 дана и имея разницу с ним в 200 очков рейтинга (в то время, когда у него самого рейтинг был около 2700), реально имел вероятность победы очень близкую к единице, а РС закладывала 80%, т.е. при каждой такой победе Динерштейн получал лишние 2 очка, а соперник, естественно, терял столько же. Неудивительно, что за два-три года рейтинг Динерштейна "задрался" до почти заоблачных небес, а группа соседних данов должна была понизить свой рейтинг, но они видимо в еще больших масштабах (их просто много, а Динерштейн один) компенсировали потери по той же схеме - опять же за счет средних данов. В ЕГФ уже учли частично этот эффект в РС, введенной с ноября 1998 года, и результат налицо: там Динерштейн имеет рейтинг на 116 очков ниже. Кстати, подобный эффект наблюдается и в других областях - в шахматах, например, чемпион мира часто отрывался по рейтингу от близких к нему по уровню гроссмейстеров во многом благодаря описанному эффекту, хотя ничейная специфика и сглаживала это частично. Если есть рост стабильности в игре при росте уровня (а именно стабильность, т.е. более низкие амплитуда и дисперсия ошибок в игре, является главной причиной повышения процента побед) - лидер будет отрываться в рейтинге по нелинейному закону в любой РС, не учитывающей это явление.
Здесь следует подчеркнуть, что речь не идет о каком-либо сдвиге российской РС по отношению, например, к украинской РС или РС ЕГФ. Деформация шкалы в виде сползания рейтинга каких-то групп игроков по отношению другим - явление внутреннее, характерное не только для российской РС, но вообще для большинства применяемых сегодня РС - как типа Эло, так и итерационных, подобно РС сервера KGS. Более того, анализ статистических данных ЕГФ показывает, что в среднем у российской РС практически отсутствует сдвиг по сравнению с РС ЕГФ. Можно предположить, что в европейской РС также происходит сползание (очень вероятно, но надо статистику по ряду лет проверять). Тогда сдвиг может и не наблюдаться, или его величина может оказаться существенно меньше других несоответствий, вызванных, скажем, деформацией шкалы рейтинга в какой-либо зоне (см. выше пример с Динерштейном) или другими ошибками РС.
Не стоит недооценивать влияния ошибок при задании вероятностей для определения прогнозируемого результата. Хотя в целом эти ошибки не отражаются на правильности ранжировки, но они деформируют всю шкалу рейтинга, затрудняя согласование различных РС и их привязку к единой точке отсчета. Кроме того, нарушается однородность единицы измерения рейтинга. Каков же механизм влияния этих ошибок? Ясно, что главный вклад в такую ошибку вносит неправильное определение наклона кривой вероятностей в точке 0 - т.е. где разница рейтингов равна нулю и соответствующая вероятность равна 0.5 для любой РС, какие бы мы функции ни задавали в алгоритмах пересчета рейтинга. Если мы ошибаемся в наклоне касательной к этой кривой (производной соответствующей функции вероятностей по аргументу "разница рейтингов" в точке 0), то ошибки в пересчете рейтинга будут увеличиваться при увеличении разницы рейтингов, что увеличит амплитуду колебаний рейтинга по всей шкале. С другой стороны, завышенный наклон, например, означает, что вероятность победы более сильного тоже завышается и тем больше, чем больше разница рейтингов. В итоге это вызывает деформацию всей шкалы, как бы сжимая ее - система, как некоторая шкала численных значений, стремится занять такое положение, при котором частота побед совпадает с предписанной формулами РС. При занижении наклона - картина прямо противоположная и шкала растягивается, что и было подтверждено выше при анализе примера с рейтингом А.Динерштейна. Наибольшее влияние на РС эта ошибка оказывает как раз на краях шкалы и, следовательно, существенно влияет на правильную привязку РС к единой точке отсчета, о чем речь впереди. Все было бы значительно проще, если бы игрались в достаточном количестве партии на форе - мощный стабилизирующий фактор, так как такие партии при соответствии форы и разницы рейтингов постоянно приводили бы шкалу к соотношению 1 разряд - 100 очков рейтинга. Ошибка в пол-камня, регулярно встречающаяся в практике, и та не имела бы существенного влияния, так как является симметричной и гасится на большой статистике (опять же кроме краев, где симметрия уже невозможна, так как там либо в основном получаешь фору - в начале шкалы, либо даешь - на самом верху). Пока же надо констатировать, что в России практически не играются рейтинг-партии с гандикапом, а в Европе их доля составляет всего около 1/8 от общего числа учитываемых в рейтинге партий. Резюме: деформации российского рейтинга возникли в результате комплексного влияния сразу нескольких факторов.
В целом из анализа статистики ЕГФ получены следующие выводы. Статистические данные ЕГФ позволяют выявить глобальные закономерности и определить основные параметры, которые нужно закладывать в РС. У А.Ципли (A.Cieply, автор европейской РС) были допущены методические ошибки, исказившие реальную картину и поэтому он и те, кто ему помогал обрабатывать статистику, почти ничего не увидели и выбрали неправильные значения для параметров РС ЕГФ. Можно подтвердить только вывод А.Ципли: "Го-Бог" есть, т.е. существует оптимальная стратегия и можно представить себе некоего идеального игрока, вооруженного этой стратегией, который не совершает ошибок и является непобедимым (общая теорема теории антагонистических игр двух лиц с полной информацией). Оказывается можно вычислить, какова должна быть его сила по европейской шкале: 10 дан (3000 очков рейтинга) с точностью до сотых долей процента (у А.Ципли было найдено значение в 3300 очков, которое неверно из-за допущенных методических ошибок). Полученный результат обосновывается строго научными методами обработки экспериментальных данных. Формулы вероятностей, базирующиеся на нормальной форме распределения вероятностей или ее экспоненциальной аппроксимации, унаследованные от Эло всеми РС, для Го неверны, прежде всего из-за обнаруженной ограниченности рейтинга (3000 очков). То есть дисперсия силы игры так быстро падает при приближении к "Го-Богу", что вероятность выигрыша более сильного игрока при любой конечной разнице рейтингов (пусть даже бесконечно малой) очень быстро становится равной 1. Это главный качественный результат анализа. Подтвердились проценты (66% побед более сильного при разнице в 1 дан), предложенные для РС в 1990 году и используемые в российской РС и по сей день: в статистике ЕГФ для данов при усреднении, в пределах погрешности в 1%, получается практически то же самое число. Это и не удивительно, так как рекомендованные в 1990 году проценты были определены при анализе статистики советских турниров второй половины 80-х, правда значительно более скромной по объему - всего тогда было учтено около 400 партий между партнерами с данами.
1. Общая концепция РС
Каждый игрок, входящий в рейтинг-систему (РС), получает рейтинг-коэффициент (РК), соответствующий уровню игры (мастерства). Текущая оценка (рейтинг) уровня игры имеет определенную точность (доверительный интервал) и достоверность. При заданном доверительном интервале достоверность рейтинга отдельных игроков характеризуется коэффициентом стабильности КC, который равен 1, если достоверность соответствует выбранному в РС уровню (т.е. доверительная вероятность не менее заданного уровня, например 90%).
При регулярном участии в турнирах, учитываемых как рейтинговые, и при незначительных колебаниях рейтинга (низкая дисперсия) достоверность рейтинга игрока приближается к 100% (т.е. становится больше, например, чем 90%) и КC остается равным 1. Достоверность падает при длительном неучастии в турнирах или большой дисперсии результатов игрока (нестабильная игра). Влияние игрока на рейтинг других игроков находится в прямой зависимости от достоверности его рейтинга (чем ниже достоверность, тем меньше влияние на рейтинг других).
При резком увеличении рейтинга и достаточной достоверности прогноза дальнейшего его роста производится специальная корректировка рейтинга для обеспечения динамичного отслеживания реального изменения силы игры и уменьшения отрицательного влияния несоответствия рейтинга растущего игрока его уровню игры (корректировка аномального роста).
Рейтинг-система согласовывается с традиционной квалификационной системой кю-данов, для чего в ней предусматривается учет партий на форе, в том числе и при несоответствии форы и разницы рейтингов партнеров, а шкала РС имеет однородную структуру - разнице в один дан традиционной системы соответствует 100 очков разницы рейтингов.
Для привязки всей системы, обеспечения меньшего смещения общего рейтинга, вся совокупность игроков разбивается на несколько групп по уровням игры и регулярно делаются поправки, рассчитываемые по изменению рейтинга наиболее стабильных игроков (анкеров) из верхней части каждой из выделенных групп. Все параметры РС контролируются и уточняются на основе мониторинга РС с использованием современных методов статистической обработки экспериментальных данных.
2. Вхождение в РС
Каждому игроку, входящему в рейтинг-систему, должен быть присвоен рейтинг-коэффициент (РК) с коэффициентом стабильности (КC) выше нуля. Не входящие в РС игроки выступают в турнирах с условным рейтингом, назначаемым проводящей организацией с учетом пожеланий игрока и др. факторов. Такие игроки не влияют на рейтинг игроков из РС.
Если игрок, выступающий в турнире с условным рейтингом, не возражает против включения его в РС, то по результатам турнира ему может быть присвоен РК и вычислен начальный коэффициент стабильности КC. Для этого необходимо, чтобы данный игрок одержал в турнире хотя бы одну победу над игроком из РС. Тогда его начальный, или "входной" в РС, рейтинг РК вычисляется следующим образом (методика "максимального правдоподобия").
Находим средний РК соперников (только из РС) - РКср. Если квалифицируемый игрок имеет абсолютный результат (100% побед), то вычисляем вероятность выигрыша Р в партии с усредненным игроком с рейтингом РКср из условия, что 100%-й результат в теоретико-вероятностной схеме Бернулли при N партиях имеет вероятность 50%. Это условие есть Р^N = 0.5 (Р в N-ой степени), откуда находим Р как корень N-ой степени из 0.5. В противном случае определяем Р как отношение набранных очков к числу партий (снова только с игроками из РС). По найденному значению Р вычисляем смещение рейтинга квалифицируемого игрока от РКср.
Например, при N = 1 (ровно одна партия и одна победа) берем в качестве начального РК рейтинг соперника, у которого выиграл данный игрок. При N = 5 и счете 4:1 получим в условиях применяемой сегодня в России рейтинг-системы примерно такой результат (80% побед, Р = 0.8):
РК = РКср + 200,
при счете 5:0 получим примерно (Р = 0.87 -- корень пятой степени из 0.5):
РК = РКср + 230.
Начальный КC присваивается с учетом числа сыгранных партий с игроками из РС и их среднего КCср:
при N>4 задаем КC = 0.5 КСср (достоверность не более 50%);
при меньшем числе -- 0.1 N КСср, но не менее 0.1;
3. Базисная схема пересчета рейтинга
Для пересчета рейтинга используется обобщенная формула Эло:
РК = РКнач + SUM ( Ki · (Ri - Pi)).
Здесь Ri -- результат i-той партии (1 или 0), Рi -- вероятность победы в той же партии, Кi -- коэффициент динамичности для данной партии. Базисный коэффициент динамичности K зависит от рейтинга игрока и от его коэффициента стабильности KС, и эти зависимости описываются ниже в разделе, посвященном выбору параметров РС. Для уменьшения влияния на рейтинг игрока тех партнеров, у которых KC<1, Кi получается из K умножением на KСi (KС, т.е. коэффициент стабильности, i-го соперника).
Теоретико-вероятностный анализ на основе современных методов математической статистики, применяемых для проверки гипотез, показал, что конкретный вид функции вероятности р(DРК), используемой при вычислении Рi, не имеет существенного значения - важен наклон производной в точке 0, т.е. где р(0) = 0.5. Более того, тщательный анализ статистических данных Европейской Федерации Го позволил сделать заключение о том, что по параметру DРК эта функция линейна (аналогичный результат получен для шахматных рейтингов [7]):
p(DPK) = 0.5 + Кр · DРК/100 ,
где коэффициент наклона Кр в свою очередь зависит от среднего рейтинга партнеров (эта зависимость приводится ниже в разделе: "Выбор параметров РС").
4. Достоверность, коэффициент стабильности и понятие аномального результата
Достоверность рейтинга игрока в РС определяется стабильностью его выступлений, т.е. тем, насколько его результаты близки к прогнозируемым. Параметром, учитывающим достоверность рейтинга, является коэффициент стабильности KС, котрорый равен 1, если выполняются условия РС по достоверности в указанном выше смысле и игрок регулярно участвует в турнирах.
Таким образом, изменение KС зависит от двух факторов: срока последнего участия в турнирах и дисперсии результатов. Соответственно, пересчет KС состоит из двух этапов.
Перед пересчетом рейтинга в турнире уточняются входные значения KС всех игроков умножением на коэффициент Kвр, рассчитываемый в зависимости от времени t неучастия в турнирах:
t (мес.):
8
9
10
11
12
13
14
15
16
Квр
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
При меньшем времени Квр = 1. Можно рассматривать и другие формулы для Квр (например, интерполяцию с 6 мес. до 3-х лет: Квр = 1 - (t - 6)/30). Здесь главное -- принцип расчета.
При пересчете рейтинга используется КC, получаемый умножением входного КC на коэффициент 1 - Кан, учитывающий аномальность выступления игрока в турнире, а коэффициент аномальности Кан определяется следующим образом.
Результат выступления любого игрока в турнире можно рассматривать как реализацию схемы Бернулли, т.е. серию исходов 1 или 0 с вероятностями Р и 1 - Р, где Р -- вероятность выигрыша в партии с усредненным игроком с рейтингом РКср (см. выше в разделе Вхождение в рейтинг-систему). Дисперсия в этой схеме равна D = N·Р·(1 - Р), а среднее квадратическое отклонение S = D^0.5 -- корень квадратный из дисперсии. Например, для N = 6 (типично для России) и Р = 0.5 (примерно равный состав игроков) имеем S = 1.225. Для N = 10 аналогично получаем S = 1.581.
При конкретном расчете Р может быть любым, но всегда можно определить S. Будем считать результат нормальным (Кан = 0), если |Nпоб - Nож| < S , и в этом случае используем при пересчете рейтинга уже полученное значение КC (с учетом временного коэффициента). В противном случае Кан>0:
при 2S > |Nпоб - Nож| >S: Кан = |Nпоб - Nож| /S - 1;
при |Nпоб - Nож|>2S: Кан = 1;
если среднее значение КCср для партнеров окажется меньше единицы, то полученное
по данным формулам значение Кан умножается на КCср.
Окончательное значение КC вычисляется после всех пересчетов: входной КC (если он оказался перед началом турнира меньше 1) увеличивается с учетом числа сыгранных партий (по 0.1 за каждую партию, но так, чтобы КC не стал больше 1). Затем полученное значение уточняется -- умножается на 1 - Кан и округляется до десятых долей, причем КС должен быть не менее 0.1. Это значение и сохраняется до следующего выступления игрока в турнирах.
Для игроков с положительным приростом рейтинга по базисной схеме пересчета, после проверки аномальности результата рейтинг может быть уточнен по схеме "корректировки аномального роста": при Кан > 0 (аномальный рост) вычисляется РКан -- значение "аномального" рейтинга по методике "максимального правдоподобия", описанной в разделе "Вхождение в РС", и конечный рейтинг определяется с помощью интерполяции между базисным значением РК и РКан:
РКкон = РК х (1 - Кан) + РКан х Кан .
5. Выбор параметров РС
Анализ статистических данных EGF (Европейской Федерации Го), учитывающих 108631 партию, позволил выявить фундаментальные закономерности, в том числе характер зависисмости функции вероятностей p(DPK) от разницы рейтингов (она оказалась линейной) и производной от этой функции (коэфициент наклона кривой -- Kр) от среднего рейтинга партнеров. Оказалось, что все кривые зависимости p(DPK) при фиксированном значении DPK как функции рейтинга имеют общую вертикальную асимптоту, соответствующую идеальному игроку, у которого выиграть невозможно ни при какой разнице рейтингов. Расчеты, проведенные с помощью современных методов статистической обработки данных, позволили определить значение рейтинга, соответствующее этой асимптоте, которое оказалось равно 10 дану (3000 очков) с точностью до сотых долей процента.
Обозначим через DG - "расстояние" партии по оси рейтинга от точки 10 дан, т.е. разницу рейтинга идеального игрока и среднего рейтинга партнеров, выраженную в данах (или можно все считать в очках рейтинга, что не принципиально, тогда в формулах кое-где появятся коэффициенты 100). Тогда коэффициент Kр имеет вид:
Kр = 1/ DG.
Такая простая форма коэффициента Kр также была получена методами математической статистики и подтверждена сопоставлением со статистическими данными. Из вида полученной функции следует, что вероятность победы более сильного (естественно, обрезаем график функции p(DPK) по значению p = 1) становится равной 1 тем быстрее, чем ближе рейтинг этого игрока к предельному значению 3000 очков (и теоретически это должно быть недостижимым значением).
Коэффициент динамичности Ki определяется базисным коэффициентом K и коэффициентами стабильности партнеров. Он отвечает в РС за динамичность, т.е. за скорость изменения рейтинга по результатам отдельного пересчета. С другой стороны, высокая динамичность (большой коэффициент) снижает возможную теоретически достижимую точность. Поэтому выбор базисного коэффициента динамичности должен быть компромиссом между этими двумя противоположными тенденциями. Чтобы этот баланс между возможной точностью и динамичностью соблюдался равномерно по всей шкале, необходимо K выбирать пропорциональным "расстоянию" игрока от предельного значения по рейтингу - 3000 очков. Коэффициент пропорциональности, при вычислении расстояния в данах, предлагается 2: тогда для 5-го дана K = 10 -- всем привычное значение. В нижнем конце шкалы тогда коэффициент K приближается к значению 60. Заметим, что в РС EGF эти коэффициенты почти в два раза выше, что оправдано необходимостью обеспечить достаточную динамичность системы. Однако в данном проекте есть дополнительный эффективный механизм повышения динамичности за счет коррекции аномального роста и использования коэффициентов стабильности, что и позволяет брать меньшие значения для K, т.е. рассчитывать на большую точность.
Предлагается коэффициент динамичности K корректировать с учетом коэффициента стабильности с поправочным коэффициетом Kо, определяемым из таблицы:
КC
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
Ко
4.0
3.5
3.0
2.5
2.0
1.8
1.6
1.4
1.2
1.0
т.е. динамичность повышается тем больше, чем ниже коэффициент стабильности игрока.
6. Анкеры и привязка РС
Для обеспечения контроля за точностью РС, привязки групп игроков к равномерной и однородной шкале кю-данов необходимо проводить мониторинг РС. Кроме того, надо согласовывать РС с другими РС (европейской например). Одним из способов мониторинга является введение так называемых "анкеров", то есть игроков, показывающих наиболее стабильные и предсказуемые результаты, имеющих коэффициент стабильности постоянно равный единице и активно играющих в турнирах. Если выделенная группа анкеров проявляет тенденцию к сдвигу рейтинга по отношению к выше расположенной группе (например, кю игроки по отношению к дан-игрокам), то это означает необходимость корректировки рейтинга всей нижней группы целиком. Аналогично контролируется возможная деформация шкалы всей группы по выделенной группе анкеров.
Принадлежность к группе анкеров устанавливается по предыдушему периоду до следующей контрольной отметки (например полгода). Получение игроком аномального результата немедленно выводит его из группы анкеров.
Самая верхняя группа РС (в мировом масштабе это профессиональные игроки Японии, Кореи и Китая) может быть привязана к единой точке отсчета (10 дан) методами математической статистики, матанализа и вычислительной математики, так как все фундаментальные функциональные закономерности заданы в явном виде.
7. Связь РС с форовым принципом
Важную роль в стабилизации РС, повышении точности рейтинга и устранении возможных деформаций играют рейтинговые турниры с гандикапом (форой), особенно при форе, максимально точно соответстующей разнице рейтингов. Поэтому РС учитывает возможность обсчета таких турниров, при этом предполагается, что фора нелинейно отражает разницу в уровне игры в данах и кю, но эта нелинейность не оказывает существенного влияния на стабилизирующую роль форовых турниров, так как на большой статистике вносимые ошибки (которые и так невелики) гасятся за счет нормальности своих распределений (подтверждается статистическими данными).
Предлагается следующая формула аппроксимации форы в n камней соответствующей компенсацией в очках (Коми):
Коми = 7 (2n + a n (n - 1) - 1).
Эта формула выведена в предположении, что каждый новый камень форы усиливается ранее выставленными с постоянным "коэффициентом усиления" 1 + a , определяемым из условия, что Коми при 9-ти камнях форы равно 140 очков. Отсюда находим:
a = 1/24,
то есть действительно нелинейность форы незначительна.
8. Методы контроля и коректировки параметров РС
Этот раздел, ввиду слишком специального характера материала, опущен в данном докладе.
9. Организационно-методические вопросы
К организационно-методическим вопросам следует отнести: определение интервала пересчета рейтига (раз в квартал, в месяц, после каждого турнира и т.п.); обеспечение своевременного учета в рейтинге прошедших турниров; согласование РС РФГ(Б) с рейтингом EGF и другими рейтинг-системами, выработка рекомендаций по рейтингу для единой спортивной классификации и т.д.
С учетом российского опыта и опыта других стран, международного опыта применения РС в Го, а также опыта применения РС типа Эло в шахматах, рекомендуется производить обсчет рейтинга после каждого турнира. Для обеспечения оперативности и простоты контроля ошибок предлагается создать на одном из го-сайтов интерактивную программу с базой данных по партиям и турнирам, доступ к которой будет возможен через интернет практически любому желающему посчитать рейтинг по РС РФГ(Б) для любого турнира. Обязанности по контролю за соблюдением дисциплины должны быть возложены на президиум РФГ(Б).
Также к данной группе вопросов следует отнести разработку методик определения точности РС, мониторинга параметров, уточнения механизмов контроля и корректировки РС, проведение других специальных исследований. Данная задача ставится перед рейтинг-комиссией при президиуме РФГ(Б), осуществляющей свою деятельность на основании утвержденного положения и выпускающей регулярные рейтинг-листы и, по мере необходимости, информационные бюллетени.
ЗАКЛЮЧЕНИЕ
В результате введения новой РС будут прежде всего устранены те причины, которые привели к отрицательным явлениям, отмеченным при анализе ситуации в российском рейтинге. Если при этом будет произведена коррекция текущего рейтинга с учетом имеющихся деформаций, то новая РС должна оказаться согласованной с европейским рейтингом, причем по крайней мере не хуже, чем применяемая в настоящее время. Благодаря выявленным фундаментальным закономерностям в распределении вероятностей не только открылась возможность использовать единую точку отсчета для всех применяемых в мире Го РС, но и создана методологическая база построения в перспективе единой РС, объединяющей как любителей, так и профессионалов во всем мире.