Рейтинг SibGo

...Итак, РС нужны для максимально точного отражения соотношения сил, "ранжировки", и динамичного отслеживания изменения этого соотношения, выражаемого в распределении численных значений некоторого условного параметра, когда в той или иной сфере деятельности отсутствуют прямые методы физического измерения оцениваемой величины. Другой не менее важной задачей РС является предсказание будущих результатов, т.е. математически обоснованное прогнозирование, с которой РС типа Эло успешно справляются на протяжении вот уже полувековой истории своего существования.
Каковы же основополагающие принципы построения современных РС?
Каждому участнику РС приписывается некоторая условная численная величина - "рейтинг", отражающая уровень мастерства, силу игры, авторитетность или значимость этого члена РС в данной сфере деятельности. Методами математической статистики, как правило, может быть определен доверительный интервал и доверительная вероятность, характеризующие точность РС. Популярно это означает, что оценка с помощью рейтинга имеет вероятностный характер и абсолютно точно указать оцениваемый параметр в принципе невозможно. Например, спортивные классификации имели в вероятностном смысле точность порядка 1-2 разряда (величина доверительного интервала) с доверительной вероятностью порядка 50%. То есть, про спортсмена, например шахматиста 1-го разряда, можно было сказать: "вероятность того, что данный спортсмен соответствует признанному уровню 1-го разряда (не ниже самых слабых перворазрядников и не выше самых сильных) примерно равна 50%". Эта оценка, конечно, грубая и условная. Вполне может быть, что где-то точность была и выше, а где-то и ниже. Для более строгих заключений необходимо анализировать систему присвоения разрядов и статистические данные по всем выступлениям всех спортсменов в соревнованиях.
Ограничимся далее только сферой спорта и рассмотрим, как "работают" РС. Рейтинг изменяется в зависимости от выступления на соревнованиях. Если результат превосходит прогнозируемую величину - рейтинг повышается, в противном случае - понижается. Поправки вычисляются по формулам, обосновываемым с помощью методов матстатистики. Как правило, РС увязываются с существующими традиционными классификациями типа разрядов и званий - в условия выполнения квалификационных требований включаются условия и по рейтингу. Для го обычно стремятся РС увязать с традиционной системой кю-данов, для чего при расчете поправок к рейтингу учитываются и выступления в форовых турнирах, а даны и кю сопоставляются с определенными значениями рейтинга.
Вот, кратко, суть РС, в том числе и РС Эло, без которой сегодня уже трудно представить себе шахматный или го-мир. Шахматная РС выявила в процессе использования ряд отрицательных моментов, главным из которых является снижение рейтинга ведущих шахматистов при включении в РС новых быстро прогрессирующих шахматистов. Для борьбы с этим были разработаны специальные условия входа в РС для молодых мастеров. Были некоторые проблемы и при согласовании национальных рейтингов с рейтингом ФИДЕ, пока не перешли к единой мировой РС. В других видах игр (шашки, го) РС в основном повторяют шахматную, с некоторыми модификациями. Опыт применения РС типа Эло имеют АГА (Американская го-ассоциация), ряд европейских национальных го-федераций, а также Европейская го-федерация (ЕГФ). В целом дисбаланс по национальным РС достигает почти 2 дана (а в области нижних кю, скорее всего, еще больше), что подтверждается статистическими данными, опубликованными на сайте ЕГФ.
Сегодня, в связи с бурным прогрессом информационных технологий, становятся популярными различные состязания через интернет. Существует порядка двух десятков игровых го-серверов. На всех из них применяются РС, как правило согласованные с традиционным форовым принципом. Исключением является, пожалуй, только китайский сервер CTN (другое название - Harmony Go Server), на котором практически не играются форовые партии. В результате, хотя РС и выстраивает всех по ранжиру, ни о каком соответствии данов и кю этого сервера и других РС говорить не приходится, так как известны (и не один) игроки, имеющие подтвержденный 1-3 дан на серверах KGS, NNGS, WING, IGS, LGS и быстро опускающиеся до 4-8 кю на сервере CTN. Не все серверы используют РС типа Эло. Часть серверов применяют РС итерационного типа (KGS, NNGS), в которых текущий рейтинг зависит от почти всей предыстории, т.е. после каждой новой партии проводятся итерации по рейтингу с целью обеспечить максимальное совпадение результата по всем учитываемым партиям с вероятностным прогнозом (без учета возможного изменения силы игры за охватываемый период). В целом наблюдается большой разброс в оценке одних и тех же игроков в различных РС. Неизбежное сползание рейтингов (о механизме этого явления будет сказано отдельно) вынуждает администрацию серверов время от времени производить разовые корректировки рейтингов в сторону увеличения (скорей всего на базе экспертных оценок).
Общие выводы из приведенного обзора таковы. Большинство РС базируется сегодня на принципах, заложенных А.Эло в шахматной РС. Главные проблемы: привязка к традиционным классификациям, эффект сползания рейтингов, несогласованность различных РС, недостаточная обоснованность параметров РС или полное отсутствие таковой в математическом плане.
Какую же РС хотелось бы иметь?
Во-первых, РС должна достаточно точно отображать расстановку сил во всей шкале уровней игры (при соответствующей доверительной вероятности, желательно поближе к 100%). Прикидки на основе теоретико-вероятностного анализа и методов матстатистики позволяют надеяться получить точность порядка плюс-минус 25 очков рейтинга в среднем в группе данов с достоверностью для стабильных игроков не менее 90%. В группе кю-игроков точность плавно должна снижаться к самому низу в несколько раз (хорошо бы не более чем в 2-3 раза по сравнению с точностью в районе 1-го дана). Это очень приличная точность и мне неизвестна пока РС (из применяемых сейчас), которая имела бы такие хорошие показатели.
Во-вторых, РС должна быть устойчивой к различным возмущениям типа быстрого роста или случайных колебаний уровня игры у отдельных нестабильных игроков, ошибок начального присвоения и т.п. РС должна быть защищена от таких нежелательных явлений, как сползание рейтинга отдельных групп стабильных игроков или всей системы в целом. С другой стороны, рейтинг должен достаточно оперативно (за 1-2 турнира) поспевать за динамикой изменения силы игры у быстро прогрессирующих игроков.
В-третьих, РС должна быть согласована с традиционной системой кю-данов так, чтобы уровень игры, определяемый присвоенными и подтвержденными официально разрядами (данами) и званиями, соответствовал принятому для этого уровня рейтингу в пределах декларируемой точности. Ну и желательно, чтобы РС была максимально согласована с другими РС, принятыми в международной практике го.
Все формулы и параметры РС должны обосновываться математическими методами и постоянно уточняться по результатам статистического анализа учитываемых рейтинговых партий, включая форовые.
Такая почти идеальная РС пока не создана, но мы будем стремиться максимально приблизиться к ней.
Какова ситуация в российской и других аналогичных РС?
Чтобы принять решение, нужно сначала оглядеться и оценить обстановку. Какова же ситуация с РС сегодня? Проведенный анализ явлений, наблюдаемых в российской, да и в других РС, позволяет утверждать, что точность в среднем в группе данов не превышает плюс-минус 40 очков с достоверностью не выше 80%. Можно дискутировать по поводу этой оценки - 40 или не 40 очков, 80% или нет - суть от этого не изменится: сегодня РС не отвечает тем задачам, которые она должна выполнять. Это касается не только точности РС, а также устойчивости и динамичности. Устойчивость напрямую связана с точностью. Нет точности - и невозможно проконтролировать устойчивость, а общее сползание рейтингов отдельных групп игроков видно почти невооруженным глазом. Динамичность отсутствует: неоднократно замечено, что быстро растущие игроки слишком долго добираются до адекватного уровня рейтинга, если не "повезло" вовремя получить аномальный результат. Подобные явления характерны не только для РС России, но и вообще для РС, не имеющих специальных механизмов стабилизации, коррекции аномального роста, привязки к каким-то "анкерным " отметкам, с недостаточно обоснованными параметрами и формулами.
На первый взгляд РС ЕГФ выглядит вполне соответствующей требованиям. Но это только кажущееся благополучие. Более внимательное изучение статистических данных, опубликованных на сайте ЕГФ, не оставляет иллюзий на этот счет (каждый может сам убедиться, проанализировав эти статистические данные и обратив внимание на дисперсию, отдельные "выбросы" в таблицах частот побед при различных разностях в уровнях партнеров, посмотрев внимательно на таблицу сдвигов национальных рейтигов и т.д.). Украинские специалисты по рейтингу очень высокого мнения о своей РС. Однако они во многом ориентируются на РС ЕГФ и применяют недостаточно обоснованные эмпирические методы коррекции, утверждая в то же время, что их РС уж точно лучше российской, хотя в свое время украинская РС произошла именно из российской. Есть еще РС игровых серверов в интернете, но на них останавливаться не будем, так как известно, что там в основном еще большая нестабильность и недостоверность.
Причин, порождающих отрицательные явления в РС, несколько. Во-первых, это несоответствие принятых формул и параметров, заложенных в РС, тем закономерностям, которые реально наблюдаются в процессе постоянных контактов игроков го друг с другом в турнирах и которые могут быть выявлены на основе современных математических методов, в том числе и методов обработки экспериментальных (статистических) данных. Имеются ввиду и правила входа в РС, и правила пересчета рейтинга, и учет аномальных результатов (который в ЕГФ вообще отсутствует), и вид зависимости функции вероятности от разницы рейтингов (и вообще рейтинга партнеров), и компенсация форы в форовых турнирах и т.д. Во-вторых, в большинстве РС вообще отсутствует понятие достоверности рейтинга или какого-то аналога, а, значит, и необходимый учет влияния этого фактора при пересчете рейтингов. Даже в российской РС этот фактор учитывается только в очень урезанном виде (удвоение коэффициента динамичности для "нестабильных" игроков, коррекция "начального" рейтинга при аномальном результате). Без правильного учета этого фактора вообще теряет смысл выражение: "точность рейтинга", поскольку равномерная, одинаковая точность для всех невозможна ни в одной РС в принципе - сила игры изменяется, причем у каждого игрока по-своему. В-третьих, общий рейтинг в более широких объединениях игроков формировался и формируется на основе использования локальных РС (в европейской РС при включении новых игроков национальный рейтинг зачастую выбирается в качестве начального значения). Эти локальные РС обычно не имеют механизмов взаимокоррекции и взаимопривязки, либо эти механизмы недостаточно эффективны. В результате в объединенную РС вносятся дополнительные существенные ошибки.
Рассмотрим некоторые примеры ошибок и механизмы влияния их на РС. Сползание рейтинга, в основном средней группы данов, в российской РС обусловлено механизмом "отсоса" рейтинга растущими игроками, причем скорость роста не так важна. Поскольку каждый игрок неизбежно проходит через стадию роста, то суммарный отсос рейтинга в РС достигает гигантских размеров. Конечно, это явление проявляется не тотчас, а спустя месяцы и годы после введения РС - пока механизм отсоса не раскачается и не наберет ход. Скорость отсоса определяется плотностью растущих игроков и средней скоростью их роста. Наибольшая плотность растущих игроков, вероятно, приходится на интервал от 20 до 1 кю, а максимальную скорость роста трудно оценить, но она тоже, по-видимому, достигается в группе кю, может ближе к верхним разрядам. До введения единого расчета по всей шкале кю и данов был искусственный барьер, препятствующий проникновению "волны отсоса" в верхнюю часть рейтинг-листа. После устранения этого барьера волна отсоса прошла через среднюю часть данов, мало пока затронув верхние даны. Так, в последние два-три года средняя скорость падения рейтинга среди "стабильных" 2-4 данов составляла около 20 очков в год. Суть механизма отсоса заключается в том, что рейтинг растущего игрока в среднем отстает, хотя бы чуть чуть, от уровня игры. Значит и вероятности побед растущего игрока оказываются заниженными, а потери в рейтинге остальных - завышенными. Суммарный вклад в отсос конкретного игрока определяется разницей между уровнем стабилизации и входным уровнем (достаточно точно оценивается разницей текущего и начального рейтингов за весь период обсчета игрока), если не было никаких специальных поправок типа аномального результата и т.п. Эта ошибка локально, на отдельной партии, имеет второй порядок малости по сравнению с грубыми разовыми ошибками типа неправильного начального присвоения, но зато она носит массовый характер и большую длительность по времени, чем и берет. Особенно заметен отсос на игровых серверах, так как там частота игр на порядки выше, чем в очных соревнованиях. В результате администрация серверов вынуждена время от времени делать массовые поправки в сторону увеличения рейтинга.
Другой причиной частичного сползания рейтинга средней группы данов является существенная зависимость вероятности победы от рейтинга. Как показывает анализ статистики ЕГФ, эта нелинейная зависимость наиболее сильно начинает проявляться в верхней части рейтинг-листа - в группе 5-7 данов. Суть в том, что здесь с ростом уровня игры резко возрастает вероятность победы над младшими по рейтингу, в то время как в РС эта вероятность предполагается для всех групп игроков одинаковой. Например, Александр Динерштейн, встречаясь с игроком 5 дана и имея разницу с ним в 200 очков рейтинга (в то время, когда у него самого рейтинг был около 2700), реально имел вероятность победы очень близкую к единице, а РС закладывала 80%, т.е. при каждой такой победе Динерштейн получал лишние 2 очка, а соперник, естественно, терял столько же. Неудивительно, что за два-три года рейтинг Динерштейна "задрался" до почти заоблачных небес, а группа соседних данов должна была понизить свой рейтинг, но они видимо в еще больших масштабах (их просто много, а Динерштейн один) компенсировали потери по той же схеме - опять же за счет средних данов. В ЕГФ уже учли частично этот эффект в РС, введенной с ноября 1998 года, и результат налицо: там Динерштейн имеет рейтинг на 116 очков ниже. Кстати, подобный эффект наблюдается и в других областях - в шахматах, например, чемпион мира часто отрывался по рейтингу от близких к нему по уровню гроссмейстеров во многом благодаря описанному эффекту, хотя ничейная специфика и сглаживала это частично. Если есть рост стабильности в игре при росте уровня (а именно стабильность, т.е. более низкие амплитуда и дисперсия ошибок в игре, является главной причиной повышения процента побед) - лидер будет отрываться в рейтинге по нелинейному закону в любой РС, не учитывающей это явление.
Здесь следует подчеркнуть, что речь не идет о каком-либо сдвиге российской РС по отношению, например, к украинской РС или РС ЕГФ. Деформация шкалы в виде сползания рейтинга каких-то групп игроков по отношению другим - явление внутреннее, характерное не только для российской РС, но вообще для большинства применяемых сегодня РС - как типа Эло, так и итерационных, подобно РС сервера KGS. Более того, анализ статистических данных ЕГФ показывает, что в среднем у российской РС практически отсутствует сдвиг по сравнению с РС ЕГФ. Можно предположить, что в европейской РС также происходит сползание (очень вероятно, но надо статистику по ряду лет проверять). Тогда сдвиг может и не наблюдаться, или его величина может оказаться существенно меньше других несоответствий, вызванных, скажем, деформацией шкалы рейтинга в какой-либо зоне (см. выше пример с Динерштейном) или другими ошибками РС.
Не стоит недооценивать влияния ошибок при задании вероятностей для определения прогнозируемого результата. Хотя в целом эти ошибки не отражаются на правильности ранжировки, но они деформируют всю шкалу рейтинга, затрудняя согласование различных РС и их привязку к единой точке отсчета. Кроме того, нарушается однородность единицы измерения рейтинга. Каков же механизм влияния этих ошибок? Ясно, что главный вклад в такую ошибку вносит неправильное определение наклона кривой вероятностей в точке 0 - т.е. где разница рейтингов равна нулю и соответствующая вероятность равна 0.5 для любой РС, какие бы мы функции ни задавали в алгоритмах пересчета рейтинга. Если мы ошибаемся в наклоне касательной к этой кривой (производной соответствующей функции вероятностей по аргументу "разница рейтингов" в точке 0), то ошибки в пересчете рейтинга будут увеличиваться при увеличении разницы рейтингов, что увеличит амплитуду колебаний рейтинга по всей шкале. С другой стороны, завышенный наклон, например, означает, что вероятность победы более сильного тоже завышается и тем больше, чем больше разница рейтингов. В итоге это вызывает деформацию всей шкалы, как бы сжимая ее - система, как некоторая шкала численных значений, стремится занять такое положение, при котором частота побед совпадает с предписанной формулами РС. При занижении наклона - картина прямо противоположная и шкала растягивается, что и было подтверждено выше при анализе примера с рейтингом А.Динерштейна. Наибольшее влияние на РС эта ошибка оказывает как раз на краях шкалы и, следовательно, существенно влияет на правильную привязку РС к единой точке отсчета, о чем речь впереди. Все было бы значительно проще, если бы игрались в достаточном количестве партии на форе - мощный стабилизирующий фактор, так как такие партии при соответствии форы и разницы рейтингов постоянно приводили бы шкалу к соотношению 1 разряд - 100 очков рейтинга. Ошибка в пол-камня, регулярно встречающаяся в практике, и та не имела бы существенного влияния, так как является симметричной и гасится на большой статистике (опять же кроме краев, где симметрия уже невозможна, так как там либо в основном получаешь фору - в начале шкалы, либо даешь - на самом верху). Пока же надо констатировать, что в России практически не играются рейтинг-партии с гандикапом, а в Европе их доля составляет всего около 1/8 от общего числа учитываемых в рейтинге партий. Резюме: деформации российского рейтинга возникли в результате комплексного влияния сразу нескольких факторов.
В целом из анализа статистики ЕГФ получены следующие выводы. Статистические данные ЕГФ позволяют выявить глобальные закономерности и определить основные параметры, которые нужно закладывать в РС. У А.Ципли (A.Cieply, автор европейской РС) были допущены методические ошибки, исказившие реальную картину и поэтому он и те, кто ему помогал обрабатывать статистику, почти ничего не увидели и выбрали неправильные значения для параметров РС ЕГФ. Можно подтвердить только вывод А.Ципли: "Го-Бог" есть, т.е. существует оптимальная стратегия и можно представить себе некоего идеального игрока, вооруженного этой стратегией, который не совершает ошибок и является непобедимым (общая теорема теории антагонистических игр двух лиц с полной информацией). Оказывается можно вычислить, какова должна быть его сила по европейской шкале: 10 дан (3000 очков рейтинга) с точностью до сотых долей процента (у А.Ципли было найдено значение в 3300 очков, которое неверно из-за допущенных методических ошибок). Полученный результат обосновывается строго научными методами обработки экспериментальных данных. Формулы вероятностей, базирующиеся на нормальной форме распределения вероятностей или ее экспоненциальной аппроксимации, унаследованные от Эло всеми РС, для Го неверны, прежде всего из-за обнаруженной ограниченности рейтинга (3000 очков). То есть дисперсия силы игры так быстро падает при приближении к "Го-Богу", что вероятность выигрыша более сильного игрока при любой конечной разнице рейтингов (пусть даже бесконечно малой) очень быстро становится равной 1. Это главный качественный результат анализа. Подтвердились проценты (66% побед более сильного при разнице в 1 дан), предложенные для РС в 1990 году и используемые в российской РС и по сей день: в статистике ЕГФ для данов при усреднении, в пределах погрешности в 1%, получается практически то же самое число. Это и не удивительно, так как рекомендованные в 1990 году проценты были определены при анализе статистики советских турниров второй половины 80-х, правда значительно более скромной по объему - всего тогда было учтено около 400 партий между партнерами с данами.