ЧАВО - ВОПРОСЫ ПО РЕЙТИНГ-СИСТЕМАМ И ОТВЕТЫ НА НИХ

Публикуются ответы на вопросы, которые задавались при обсуждении проблем рейтинг-систем (РС) на различных го-форумах, а также при общении автора (С.Павлов) с игроками, тренерами, членами президиума и руководителями РФГ(Б). Предварительно несколько слов по вопросу: что же такое - рейтинг?

Понятие "рейтинг" тесно связано с понятием "экспертная система", "эксперт". То есть, если есть ЛПР - "лицо, принимающее решение" (руководитель, орган управления, просто человек и т.д.), и есть ГЭ - "группа экспертов" (специалисты в области, в которой принимается решение, группа лиц, организация и т.д.), то ЛПР может обратиться к ГЭ и получить заключение по конкретному вопросу. На основании этого заключения и принимается рещение.

В спортивных состязаниях ЛПР - это организация, проводящая соревнование, ГЭ - судейская коллегия. С другой стороны, все участники турнира в шахматах или го также ГЭ, так как по результатам встреч "ЛПР = судейская коллегия" принимает решение.

В случае с рейтингом мы имеем аналогичную, но еще более общую ситуацию, так как ГЭ - это все игроки участвующие в рейтинговых турнирах, а свои "заключения" они дают в каждой партии - путем сравнения со своим уровнем игры. В роли ЛПР выступает рейтинг-комиссия, которая публикует рейтинг-лист, расставляющий всех по ранжиру. Ранжировка - наиболее часто ставящаяся задача перед ГЭ во всех сферах деятельности.

Так что вопросы рейтинг-системы - это не только го или шахматы, это гораздо шире и важнее. Например, использование рейтинг-системы такого же типа, что предлагается сейчас, но уже для оценки работы спортивных судей в целях отбора на ответственные соревнования наиболее квалифицированных, позволило бы избежать тех неприятностей и скандалов, которые так часто возникают, например, в фигурном катании, спортивной гимнпастике или фристайле

  • Анализ состояния рейтинга в России
    Даются ответы на самые актуальные вопросы по российской РС и излагается концепция единой рейтинг-системы
    Последнее обновление: 20.05.2003

  • РС: предыстория и развитие
    Здесь собраны вопросы общего характера: как возникла российская РС, почему необходимы изменения и т.д.
    Последнее обновление: 30.04.2003

  • О смещении рейтинга
    Вопросы о том, почему сползает рейтинг у некоторых групп игроков, и т.п.
    Последнее обновление: 30.04.2003

  • Об аномальности и согласованности
    Группа вопросов по "аномальности", согласованию региональных рейтингов и пр.
    Последнее обновление: 30.04.2003

  • Форовые рейтинг-турниры
    Вопросы о связи рейтинг-системы и принципа гандикапа, по системам проведения форовых турниров, и т.д.
    Последнее обновление: 14.05.2003

  • КОММЕНТАРИИ К РС СЕРВЕРА КГС
    Описание РС на английском и перевод на русский.
    Последнее обновление: 03.05.2003


АНАЛИЗ СОСТОЯНИЯ РЕЙТИНГА В РОССИИ

В ходе дискуссии по рейтинг-системе возникло множество вопросов. На часть из них были даны ответы на форумах, все систематизировалось в ЧАВО. В данном сообщении, посвященном углубленному анализу ситуации с рейтингом в РФГ(Б), в частности, даются ответы на некоторые новые вопросы:

-- Почему учитывается аномалка вниз. Необходимо отменить аномальный результат вниз…
-- РС в том виде, как она сегодня существует, вполне устраивает всех. Это видно и по обсуждению - никто не высказывает никаких критических замечаний…
-- РС должна быть наглядной настолько, чтобы можно было в уме подсчитать изменение рейтинга, пусть даже в ущерб точности…
-- Зачем особая точность такому измерительному прибору как РС, если все равно колебания уровня игры гораздо больше, т.е. точнее не определить в принципе?

Итак, аномалка вниз? - я и не знал, что ее применяют, надо переадресовать вопрос к Е.Панюкову или президиуму РФГ. Если это так - то еще более убеждаюсь, что контроль над рейтингом должен быть в квалифицированных руках. Получается абсурд какой-то: понятие аномального результата было предложено в 1990 году как метод борьбы с понижением рейтинга основной группы игроков, когда туда врывается молодой быстро прогрессирующий, и потому имеющий существенно заниженный рейтинг, игрок. А так получается - что компенсируем, то и возвращаем… Еще несколько слов по аномалке: все знают, что можно не спать ночь, иметь другие проблемы, заболеть и т.д. - в результате спортивная форма упала эдак на 1 или больше данов и выступление на турнире провалено. Но это сиюминутный фактор, за него не надо наказывать аномалкой вниз. А вот встречали ли Вы таких, у кого с утра озарение на плюс 1 дан - да на весь турнир чтоб хватило, а потом пропало? А мы ему (ай-яй-яй) аномальный результат вверх! Вот здесь тоже несимметрия есть. Систематическая ошибка в устоявшейся и достоточно точной РС может быть только в сторону занижения рейтинга (не берем только что вошедших - у них и так будет высокий коэффициент динамичности).

На счет удовлетворительности и т.д. Вопрос очень субъективный, однако из тех обсуждений, которые все-таки прошли на форумах, я выявил достаточно много людей, которые задавали примерно один и тот же вопрос: почему вчера был 5-дан, а сегодня 3-дан? Ясно, что подавляющее число "сползших" по рейтингу не могут быть довольны, ведь они не потеряли уровень, скорее даже немного выросли - большинство, а кто если и понизился, то не настолько же. Но здесь вроде бы расхождений во мнениях нет - растущие игроки отнимают рейтинг у всех. Механизм я подробно описал в ответах на ЧАВО. Относительные рейтинги любая РС, если она базируется на правильной математической модели, будет показывать более или менее хорошо. А вот с обоснованием точности, достаточно строгим в математическом смысле - у разных моделей очень даже по-разному. Важно учитывать также, что с ростом массовости (а на это сейчас решительно настраивается руководство РФГ) эти моменты приобретут еше большее значение.

Важность математического обоснования лично у меня не вызывает ни малейших сомнений. Как бы ни говорили про интуитивное представление об относительной силе игры тех или иных игроков - все это не математика, а в основном эмоциональная и субъективная оценка. Вообще любая квалификационная система как бы состоит из двух компонентов:

-- уровень игры, мастерства, то есть то, что называется обычно классом игры; достигнутый класс, как правило, не утрачивается;

-- спортивная составляющая, зависящая от множества сиюминутных факторов и характеризующаяся большой переменчивостью - в отличие от класса игры; эта составляющая и должна максимально контролироваться рейтинг-системой (РС должна демпфировать высокочастотные колебания, но откликаться оперативно на достаточно плавные изменения уровня игры).

Так вот, класс игры виден, что называется, невооруженным глазом и ему РС не нужна. Но для объективного отбора в спортивных целях (а как это важно - не надо объяснять) должна быть не просто РС, с которой молча все (или почти все) соглашаются, может быть и опираясь на интуитивные представления об относительной силе игры. Нужна строго обоснованная (в рамках выбранной математической модели, конечно) РС, чтобы всегда можно было сказать: вот у этих игроков стабильный рейтинг, имеющий точность -25, +25 очков с достоверностью 90%, а вот у этих соответственно и достоверность не та, и интервал шире. Цифры эти не "с потолка", а соответствуют моей оценке в модели при среднем числе партий в турнирах порядка 6, как это и есть сегодня в России. Грубо оценка получается из вычисления дисперсии в схеме Бернулли (а ее мы берем в качестве базисной математической модели при обосновании РС типа Эло) и нажождения вероятности попадания в доверительный интервал. Кстати, как мне говорили, коэффициенты динамичности были увеличены в 1,5 раза примерно для средней группы данов, что соответственно увеличило дисперсию рейтинга. К тому же пересчет так и продолжают вести один раз в два месяца, а не после каждого турнира, как я настаивал еще в 1990 году. В результате доверительный интервал вырос по крайней мере до -40,+40 очков. Этот интервал всех устраивает?

Наглядность не является определяющим фактором. Большинство РС (не только в го) отличаюся полным отсутствием наглядности. Примеры: большой теннис - вообще невозможно что-либо просчитать в уме; в шахматах примерно как в го; на игровых (не го) серверах - там в большинстве своем применяются системы типа Эло, то есть типа шахматной; при объяснении ограничиваются общей схемой и формулы дают только для специалистов ( в уме не просчитать, только прикинуть, так как надо экспоненциальные выражения рассчитывать). Последний пример - игровые го-серверы. Здесь и подавно никто подробно не описывает, с точностью до конкретных формул. На некоторых серверах используют вообще итерационные алгоритмы: сервер КГС, например, очень популярный сегодня у российских игроков, благодаря наличию русской игровой комнаты с поддержкой русского интерфейса. Даже Сахабутдинов, ранее высказывавший мнение, что, мол, обсуждать особо и нечего, признал в дискуссии, что "проблема РС не так проста как кажется" - после того, как поиграл на КГС.

Кстати, а все ли читали Проект РС и ЧаВо на данном сайте? Я регулярно обновляю - последний раз на днях вставил ссылку на описание РС Эло (на английском языке). Не буду повторяться подробно, но я отмечал уже, что точность, достоверность, соответствие интуитивному представлению и т.д. - очень неравномерны сегодня по всей совокупности игроков по ряду причин. Прежде всего - из-за неравномерности участия в турнирах, неравномерности состава, однобокости "МакМагона", отсутствия форовых турниров и т.д. Дисперсия результатов (количество набранных очков) в турнирах очень устойчивая вещь - я имею ввиду схему Бернулли, а не изменение рейтингов. Я брал как-то произвольный турнир с неравномерным составом (разброс 4 дана), "круговик" без форы, и строил гистограмму набранных очков - очень точно соответствует нормальному закону, что и должно быть, если верить в математику и применимость на практике ее моделей, т.к. математика утверждает, что асимптотически схема Бернулли "сходится" в вероятностном смысле к нормальному закону: поэтому понятие аномальности правильно привязывается к дисперсии результатов конкретного игрока - наличие большего отклонения, чем среднее квадратическое отклонение в схеме Бернулли, говорит, как правило, о систематической ошибке - то есть несоответствии рейтинга (выросшему) уровню игры. Про понижение не говорим, потому что есть несимметрия - все игроки больше растут, чем понижаются, и ошибка в сторону повышения менее существенна, к тому же она быстро диспергирует; психологически же ошибка на понижение сильно угнетает (не нужны, и даже вредны аномалки вниз!).

Цикл "развития" каждого игрока имеет некоторый стандартный вид: сначала не очень быстрый рост (освоение техники, углубление понимания, набор опыта - количественный фактор), затем количество переходит в качество и начинает расти производная; когда она максимальна - можно ожидать аномальных результатов; таких ступенек может быть несколько, с промежуточной стабилизацией на каком-то уровне; постепенно рост производной прекращается, начинается снижение, колебания уровня игры около константы, а производная меняет знак в этих колебаниях; и так продолжается довольно долго (может всю жизнь), и у большинства рост прекращается (стабильный класс игры) и с возрастом производная становится отрицательной, но немного. Аномальности здесь быть не должно, поэтому и не следует понятие аномального результата применять. А вот нестабильность - чисто индивидуальный фактор, как у Альмухаметова (зря для него, аномалку вниз применили!). Для таких случаев и нужен коэффициент стабильности, который влияет на коэффициент динамичности (так правильнее их разделять - последний это множитель в формуле Эло). У нестабильного игрока коэффициент динамичности будет постоянно выше, чем у стабильных игроков. Да, точность РС для такого игрока (индивидуально, а не в среднем по РЛ) будет почти всегда ниже, т.е. не -25,+25 очков (90%), а, например, -40,+40 с доверительной вероятностью 80% (цифры индивидульны, в каждом конкретном случае можно прикинуть).

Роль РС как измерительного прибора - наиболее важна. Но точность прибора должна превосходить флуктуации измеряемой величины, по крайней мере в несколько раз. Имеются ввиду колебания уровня игры, а не сиюминутные вещи типа выспался - не выспался перед конкретной партией, что влияет прежде всего на так называемую спортивную форму. Эти то факторы все равно усреднятся. Так что за точность будем бороться, если считаем, что наши даны - устоявшееся понятие. А то можно было бы и поперечислять - времени жалко. Достаточно открыть два РЛ - за 1996 и сегодняшний, и взять разницу по всем более или менее часто выступающим дан-игрокам. С другой стороны, можно говорить о точности конкретной РС только в рамках принятой математической модели. Как уже говорилось, любая "не совсем дурная" РС выстраивает всех по ранжиру, но не для всех РС можно указать обосновано доверительный интервал и соответствующую доверительную вероятность. Например, это нельзя сделать для итерационных РС. Здесь можно бы успокоиться и на все плюнуть - как говорят, сейчас 30 очков точности есть (!?) - но лично мне это кажется сомнительным очень.

С другой стороны, есть Европа, есть Украина, есть Нихон-Киин и т.д. Есть, в конце концов, традиционная система кю-данов, основанная на форовом принципе. Все это надо увязать в одну систему, чтобы ничто ничему не противоречило, не расшатывало, не уводило в сторону. Есть ли Го-Бог или нет - нам не известно, теоретический предел уровня игры должен существовать, однако это - только теорема существования, а не конструктивное построение решения (интересное эссе на этот счет есть в докладе Ales Cieply - автора европейской РС, точнее, системы Эло с конкретизированными коэффициентами на основании статанализа европейских турниров). Мне видится здесь стройная система, все это вместе увязывающая следующим образом.

Все игроки, любители го и профессионалы, естественным образом разбиты на группы по национально-территориальной принадлежности, по степени профессионализации. Зафиксируем некоторый верхний уровень - скажем, профессионалов Японии, Китая, Кореи как некоторый эталон, "наиболее приближенных к Го-Богу". Это самый верхний уровень. Самый нижний - не так важен, пусть даже снизу нет границы. Теперь представим себе, что все остальные группы тоже более или менее выделены и в каждой группе вводится понятие "анкера". Для профессионалов это те игроки, которые имеют 9р и постоянно выступают в важнейших турнирах (можно считать им рейтинг, привязываясь, скажем, к 3000 очков для среднего 9р). Можно также вычислять для профессионалов коэффициент стабильности - нет проблем, так как это понятие универсальное. То есть, считаем анкером того игрока 9р, кототрый, во-первых, имеет КС=1, во-вторых, сыграл выше среднего числа партий по их группе. Группа анкеров - переменного состава, на каждый новый контрольный период она определяется снова. Контрольный отрезок времени, скажем, 0,5 года (обсуждаемо, зависит от количества играющихся в среднем партий). Средний рейтинг этой группы выравниваем по 3000 очков (суммарный сдвиг делится на среднее число сыгранных в этой группе партий и каждому добавляется или отнимается пропорционально числу его партий).

Теперь представим себе, что все выделенные группы как кольца в связке ключей нанизаны друг на друга. Первое кольцо - профессионалы. Далее на этом кольце - региональные любительские Го-Федерации (ЕФГ, АГА), начиная с 4д, например. Затем - национальные федерации любителей с дан-уровня, и т.д. В каждом кольце свои анкеры. Часть анкеров нижележащей группы попадает в верхнюю группу (А.Динерштейн и С.Шикшина у нас), или наоборот, пересечение из верхней группы автоматически входит в группу анкеров для нижележащей. Тогда дополнительно, кроме смещения по группе анкеров внутри группы, корректируется смещение группы анкеров по сдвигу рейтинга по сравнению с рейтингом в подгруппе, входящей в более верхнюю группу (там ведь свой рейтинг). Именно в среднем учитываются сдвиги, тогда каждая партия влияет на индивидуальный рейтинг, но в среднем игроки из верхней группы не сдвигаются в партиях с игроками из нижней группы. Это и есть привязка анкеров более низкой группы по отношению к выше расположенной. А внутри группы - для анкеров вычисляется сдвиг во внутреннем рейтинге и он учитывается для корректировки рейтинга всех остальных. В итоге строится единый рейтинг по вертикали. Горизонтальные обмены - анкеры из групп на одном уровне (нанизанные на одно кольцо) дают информацию по смещению (также выравниваем, но с меньшим коэффициентом, нежели по вышестоящим группам - 0,5). Ну и так далее - вся система балансируется как по вертикали, так и по горизонтали. Во всех турнирах все играют со своим текущим рейтингом, каждая региональная, национальная и т.д. группа обсчитывает сама свою часть рейтинга по единой методике. И не надо тогда в одно место собирать все турниры и все их там обсчитывать, да еще с запозданием на несколько месяцев.

Ну и не забываем про существенную зависимость дисперсии от уровня игры. Это значит - чем выше, тем дисперсия ниже. Рейтинг должен идти за уровнем в этом смысле тоже. Значит базовые (т.е. для стабильных игроков с КС=1) коэффициенты динамичности (они определяют дисперсию рейтинга - не уровня игры) тоже должны быть тем ниже, чем выше класс, то есть "кольцевая" группа. Соответственно, при корректировке рейтинга каждый игрок получает поправку пропорционально сыгранным партиям и с коэффициентом, пропорциональным своему коэффициенту динамичности, т.е. в итоге более низкие разряды "поправляются" больше. В такой системе отпадает необходимость в достаточно искусственном повышении рейтинга за счет призовых очков за сыгранные партии в нижних группах рейтинга (этот подход плох потому, что не учитываются индивидуальные особенности игроков: один растет за каждую партию на какое-то количество очков, а другому надо в десять раз больше партий для такого же роста наиграть).

Я понимаю, что выше изложена достаточно идеализированная схема и ее не так легко внедрить в жизнь. Но начинать с чего-то надо. Шахматисты с 70-х годов имеют единый рейтинг. Чем мы хуже? Может кто-то не заинтересован в едином рейтинге? Что касается России, то уже сейчас можно привязаться к нашим двум профессионалам, задав им средний рейтинг 2800 или 2750 для внутреннего пользования, так сказать. А там - посмотрим, как они будут на профессиональной арене смотреться.

Часто вспоминают как положительный момент старой РС - примеры аномальных повышений, очень даже оправдавших себя - наблюдаемые попадания в новое значение рейтинга были просто блестящие. Но куда смотрела РС? Ясно же, что поднимать рейтинг этим игрокам надо было раньше.

А РС смотрела на свою несовершенную, скачком возникающую, "аномальность". В новой непрерывной схеме аномальщики начнут сразу прибавлять существенно выше, чем по обычной схеме, как только выйдут за S - среднее квадратическое отклонение в схеме Бернулли (в пересчете на очки рейтинга это для 6 туров - около 12 очков при К=10, 18 очков при К=15). Раньше только при 2S, что и равно примерно 25 очкам, включалась аномальность, причем с запаздыванием - по нижней границе аномальности ведь брали, а не по принципу "максимального правдоподобия", который фактически означает расчет рейтинга как для нового входа в РС. Конкретно, в новой схеме если +15 очков рейтинга - это аномальность на 25%, то есть интерполируем между обычным повышением +15 и аномальным, скажем +115, в пропорции 3:1, получаем +40. Точнее, не +15 надо брать, а с коэффициентом динамичности, увеличенным на 25%, но это уже детали - разница в три очка всего.

Кстати, что касается динамичности новой схемы. Я проводил эксперименты "на руках". Задавал реальный график изменения силы игры с большой производной и исходя из реальных вероятностей (не по отстающему рейтингу) задавал частоты побед с воображаемыми соперниками. Получалось, что новая система за один-два турнира выводит рейтинг в границы доверительного интервала! Можно написать программку и погонять варианты с датчиком случайных чисел, но до этого руки не доходят - и так много писанины за поледние 1,5 месяца. Вот, в частности, и ответ на замечание, что новая РС вряд ли будет лучше успевать за растущими игроками.

К вопросу о времени - мол, у меня его много, наверное, поэтому и занимаюсь этой треклятой РС. Ну да ладно, просто возможность у меня сейчас была, а будет ли дальше - не знаю. Так что - ждать 2004 года, как предлагают некоторые в руководстве РФГ? Все остынет, забудется, дискуссия - псу под хвост, начинай все с начала...

По поводу молодых и не очень - кое-кем предлагается аномальность считать только до определенного возраста. РС не должна знать такие категории, должны работать только формализованные алгоритмы.

Насчет упрощений - была дискуссия на форуме (читай ЧаВо!). Нет такой проблемы. Да и вышеприведенный пример показывает - можно аномалку в новой схеме посчитать в уме. Не надо только переводить все сразу в очки рейтинга - надо сначала считать все в схеме Бернулли. Там таблица постоянная на все времена: среднее квадратическое отклонение S=1,225 для 6 туров, вычисляй, насколько попал между S и 2S - вот и все! Все быстро запомнят, тем более что 2S*К почти совпадает с привычными 25 очков. Правда, изменили сейчас К, вроде для 4д он равен 15. Вот таблица на все случаи (при небольшой разнице рейтингов как в наших турнирах по МакМагону):

N = 2, 3, ... S = 0,707; 0,866; 1,0; 1,118; 1,225; 1,323; 1,414; 1,5; 1,581 (S = 10) ... S = sqrt(Np(1-p)) ~= sqrt(N)/2; р - вероятность выигрыша в отдельной партии со средним соперником, для р вплоть до 70% sqrt(p(1-p)) достаточно близко к 0,5.

Последнее замечание. Хотя все это уже в ЧаВо было, опять скажу - очень большая неравномерность влияния всех отрицательных моментов применяемой РС по группам игроков - именно поэтому надо бы поторопиться. Как тоже уже было сказано, верхние даны практически не почувствовали влияния сползания из-за более низкой дисперсии силы игры (а рейтинг-дисперсия, которая коэффициентом динамичности определяется, для них завышена была!). Более того, этот фактор, а также отсутствие форовых турниров, растягивает самый верх - вверх, среднюю часть данов - вниз. Чем быстрее проведем реорганизацию, тем лучше - меньше будет обиженных. А потом ведь все равно всех собак повесят на разработчиков - как у нас принято... Ладно, отобьемся!


РС: ПРЕДЫСТОРИЯ И РАЗВИТИЕ

"...Раньше Украина считала по другой системе (может и Павлова). / Вася Скочко /"

Да, действительно в 1990 г. я передал А.Явичу описание алгоритма. Это были, фактически, тезисы выступления по поводу РС на 1-ом Чемпионате СССР (Ленинград, январь 1990).

После чемпионата Юра Беляев, который принимал активное участие в обсуждении деталей алгоритма, написал программу и передал ее Евгению Панюкову - так и появилась Российская РС.

Теперь кратко по существу РС.

Главная идея РС-90 заключалась именно в быстрой корректировке рейтинга молодых растущих игроков - ни в одной системе из мне известных этого не было. В европейской РС (ЕРС, принята в 1998 году, автор A.Cieply) - есть более примитивный механизм скачкообразного изменения рейтинга при смещении вверх от минимальной отметки на 200 очков. А до той поры ... сами знаете, что происходит, пока молодой игрок наберет эти 200 очков. В российской РС корректировка была оперативной и математически обоснованной. Вот только, говорят, кое-какие коэффициенты из исходного алгоритма подкрутили, не спросив у специалистов...

"...старая РС(Украины) была построена на базе шахматной РС..."

Все современные РС базируются сегодня на принципах, заложенных Эло в конце 50-х годов. Шахматная РС - первая из них. Шахматисты же первыми заметили недостатки чистой Эло-системы. Но реально в шахматах, кроме начального присвоения, ничего так и не было предложено нового. ЕРС (A.Cieply) также РС типа Эло, и даже более Эло, чем Российская РС. А недовольных любой РС всегда было, есть и будет достаточное число...

"...Когда в России (СССР) впервые был введен рейтинг?"

Весь вопрос в том, что понимать под рейтингом. Традиционная система "кю-данов" - это уже простейшая рейтинг-система. В Японии до сих пор в клубах ведут таблицы учета индивидуальной форы для каждой пары игроков. Проиграл более сильный две партии кряду - фора снижается на 1 камень. Выиграл 3 подряд - фора повышается. Кстати, несимметрия объясняется просто: одни камень форы - это не один дан, а только 0.5 дана, два камня - 1.5 дана и т.д. Значит, в традиционной схеме игрок, дающий фору (белые), имеет вероятность выигрыша несколько больше, чем 50%. Таким образом, изменение на 1 дан достигается при превышении побед над поражениями примерно на 2.5. В сегодняшних РС для этого надо получить превышение примерно +10 - +15 очков, а то и больше (без "аномальности").

Если считать рейтинг-системой конкретный алгоритм расчета числовых коэффициентов, то в СССР, по-моему, первые (шахматные) таблицы стали применяться в го в начале 80-х годов в Москве, в секции при Центральном шахматном клубе Советской армии, когда там работал Сергей Межов. А вопрос начал рассматриваться в 1977-78 гг., когда был создан Всесоюзный рейтинг-клуб и игрались межрегиональные рейтинг-партии на форе. В то же время и я начал изучать (как математик) проблемы, связанные с рейтинг-системами. По этим вопросам велась активная переписка с В.Асташкиным, Г.Ниловым, П.Игнатьевым, С.Межовым, Н.Михайловским и другими игроками и активистами го-движения. Помню, В.Асташкин передал мне голландский журнал с напечатанным в нем рейтинг-листом; там были, кажется, игроки вплоть до 70 кю! Тогда же была предложена первая "таблица вероятностей", подобная шахматной (но несколько отличавшаяся от последней).

В середине 80-х, в связи с появлением Всероссийской секции го, был введен рейтинг-коэффициент, с учетом предыдущего опыта и на основе экспертных оценок рейтинга тех игроков, которые мало участвовали во всероссийских и всесоюзных мероприятиях. РС тогда практически совпадала с шахматной РС профессора Эло.

Поскольку недостатки чисто шахматной РС стали быстро проявляться (см. ниже "О смещении рейтинга" и другие разделы), стал актуальным вопрос о пересмотре базового алгоритма пересчета рейтинга, его модификации. В конце 80-х годов к обсуждению вопросов рейтинга активно подключился Юра Беляев. И вот, во время проведения I Чемпионата СССР в 1990 году в Ленинграде, совместными усилиями автора этих строк и Ю.Беляева был представлен проект рейтинг-системы, где многие сегодня используемые механизмы стабилизации и корректировки рейтинга были изложены в общих, принципиальных чертах. Например - понятие "аномального" результата и что с ним делать, а также: о привязке РС, о разделении расчета в верхней и нижней частях рейтинг-листа, о переменных коэффициентах динамичности ("развития" - как их называет В.Ф.Корсак) и т.п. Коэффициенты РС были обоснованы статистически, на базе стат. анализа результатов российских и других турниров второй половины 80-х годов. К сожалению, не все эти идеи были сразу "включены" при практическом расчете.


О СМЕЩЕНИИ РЕЙТИНГА

"...У меня лет 5-6 назд был 5 дан, а сейчас - только 3-й.../вопрос одного из российских игроков/"
"...3 дан сьогодні - це 4-5 дан 5-7 років назад. Хотілося б почути думки з приводу цього /вопрос на Форуме УФГО/"

Сползание рейтинга игроков дан-группы, в основном 2-5 данов середины 90-х годов, объясняется несовершенным механизмом компенсации роста силы игры и плохой стабилизацией рейтинг-систем. Рассмотрим подробнее на примерах.

Почти все турниры в России проводятся по системе Мак-Магона. Вроде хорошо - встречаются, как правило, игроки с разницей рейтинга не более 1 дана. Но это в среднем турнире, со средним составом верхней группы 2-3 дан. Если играют несколько сильных игроков 5-6 дана, то остальная часть менее однородная и существенно отстает от них по рейтингу. Имея более высокий уровень стабильности, эти игроки с более высокой вероятностью, чем заложено в РС, выигрывают свои партии у "низших по званию". Поэтому, если приглядеться повнимательнее к РЛ за последние 10 лет, то мы обнаружим, что верхняя группа игроков 5-6 данов сохраняет почти стабильно "средний групповой рейтинг", а группа 3-4 данов явно провалилась за эти годы на 1-2 дана! Что, они стали хуже играть? А ведь это всегда были стабильные игроки (даже Альмухаметова можно считать в среднем "стабильным" - у него как падения, так и взлеты бывали). Что, Сахабутдинов должен давать сегодня Альмухаметову 4 камня? То есть, необходимо, для верхней части рейтинг-листа, функцию вероятности выигрыша более сильного игрока изменить, с учетом большей стабильности ("класса игры"), т.е. более низкой дисперсии силы игры (не рейтинга! рейтинг - только теоретико-вероятностная оценка уровня игры).

Другой причиной отмеченного "сползания" рейтинга является недостаточно эффективный механизм корректировки роста всех игроков (не только "аномальных"). Входя в РС, скажем, с 1000 очков рейтинга, средний игрок стабилизируется на уровне 2000 очков. Откуда он берет эти 1000 очков? - только отбирая у других, уже стабилизировавшихся ранее. (Отсюда ясно, почему надо отделять расчет рейтинга данов и кю: чтобы вход в верхнюю часть как-бы не зависел от "предистории" и эти 1000 очков не тянули верхнюю группу вниз).

Именно средняя группа 2-4 данов прежде всего и "страдает" от этого - им чаще других (опять в силу Мак-Магона!) приходится "нарываться" на быстро прогрессирующих игроков, с большим отставанием рейтинга от реальной силы игры.

Кстати, 5-6 даны, если и теряют здесь очки (опосредованно - через буфер из 3-4 данов!), то они же компенсируют их, как правило, участвуя в европейских турнирах.

Прекрасным способом стабилизации могут быть форовые турниры с максимально точной компенсацией разницы рейтингов, так как вероятность победы в партии в таком случае сводится к 50%, а вблизи этого значения все искажения в РС минимальны. В сочетании с другими методами стабилизации, такими как привязка к "анкерам", это обеспечит высокую достоверность и точность рейтинг-системы. Вот пример. Сервер WING (японский игровой сервер) является одним из самых стабильных: хотя и у них снижение происходит (по-видимому, не используется привязка), но соотношение рейтингов хорошо соблюдается. Все рейтинг-партии здесь играются исключительно на форе, строго соответствующей разнице в рейтингах (с точностью до 1 очка). Другая противоположность - китайский сервер HGS. Здесь почти не играются форовые партии (по-видимому, из-за неудачной рейтинг-системы). В результате игроки, имеющие на КГС 2-3 дан, на NNGS, IGS 1-2 дан, здесь быстро опускаются ниже 4-5 кю.

"...Когда я перебрался в Штаты - был в Украине где-то между первым и вторым даном. На первом же турнире (группа данов, форовый, 1-е место) сделал третий дан и с тех пор постоянно подтверждаю. Но тут практически нет детей! /вопрос на Форуме УФГО/"

Проблема "сползания" рейтингов характерна для всех РС, если нет эффективного механизма стабилизации и корректировки. В шахматах эта проблема была сразу же замечена (еще в 70-х годах) и были приняты меры: фактически единый рейтинг рассчитывался только для элиты (начиная с международных мастеров, кое-где с национальных мастеров), а также были введены специальные условия входа для молодых мастеров.

В РС-90 было введено понятие "аномального" результата, но этого сегодня уже недостаточно. Только при комплексном сочетании всех мер: привязки к анкерам, корректировки РС с учетом межсистемных контактов (а еще лучше - введением единого мирового рейтинга), а также корректно учитывая рост (не только явно "аномальный") уровня игры, - можно добиться высокой стабильности и достоверности рейтинга.

"...что такое анкер? /вопрос одного из любителей го/"

Понятие "анкер" ("якорь" - по английски) взято из практических РС таких игровых серверов, как NNGS. Анкер - это игрок с наиболее стабильным рейтингом на данном контрольном отрезке времени. Естественно, желательно включать в анкеры игроков из верхней части РЛ. Стабильность означает не неизменность (тот, кто не играет, попадал бы тогда в анкеры, что неразумно), а низкую дисперсию результатов в смысле схемы Бернулли (см. Описание проекта РС). Другими словами, анкер - это достаточно активный игрок, результаты которого близки к прогнозируемым. Группа анкеров позволяет отслеживать "дрейф" всей рейтинг-системы, хотя сама группа может менять свой состав.


ОБ АНОМАЛЬНОСТИ И СОГЛАСОВАННОСТИ

"...что такое аномальный результат?/начинающий игрок/"

Если предполагать, что рейтинг игрока стабилизировался, то можно достаточно точно прогнозировать его результат в любом турнире (примерно с точностью до одного очка). В этом случае существенное отклонение результата в сторону увеличения с большой вероятностью свидетельствует о серьезном отставании рейтинга игрока от его, по-видимому быстро выросшего, уровня игры. Можно написать формальный критерий выявления такой ситуации и объявлять соответствующий результат "аномальным". В предлагаемом проекте аномальность непрерывно "возникает" и возрастает с момента выхода результата за величину среднего квадратического отклонения в схеме Бернулли (Описание проекта РС). В старом проекте РС-90 (и других РС, например в Украине) возникновение аномальности происходит скачком, так что два игрока в одном и том же турнире, показав близкий результат, могут изменить свой рейтинг существенно по-разному (один попадет в "аномальные" и прибавит очков 100, например, а другому чуть чуть не хватит и он прибавит только очков 20-25). В новой системе это невозможно.

"...введено понятие аномального результата (в РС Украины и в российской РС - СП). Несколько лет использования этой системы и сравнение ее с другими привели к мысли о необходимости ее коррекции, не меняя основных принципов расчета. Величины коэффициентов развития (коэффициенты динамичности - СП) были взяты из европейской системы, так как в ней тоже имеется зависимость коэффициентов развития от исходного рейтинга, причем эта зависимость, в отличие от ступеньчатой Павловской, более плавная./В.Ф.Корсак/"

Насчет аномальности в ЕРС -- я читал доклад A.Cieply на конференции в Сеуле в 2001 году -- там именно скачком корректируется аномальный рост (когда +200 очков от некоторого фиксированного уровня). В российской РС скачкообразность корректировки -- дань некоторому упрощению. Но не забывайте -- это 1990 год! А сейчас уже 2003. Конечно, давно пора кое-что менять.

А вообще-то я поддерживаю предложение A.Cieply о введении единого -- мирового рейтинга, включая и профессионалов. Технические трудности в ХХI веке -- ерунда. Шахматисты единый рейтинг ввели практически в 70-х годах.

"...пересчет рейтинга желательно максимально упростить , пусть в ущерб гибкости , но чтобы любой игрок мог рассчитывать свой рейтинг сам.../ Илья Ветров/"

Здесь помог В.Ф.Корсак:

...Мы не видим необходимости упрощать систему. То, что имеем - это результат долгих раздумий и прошло проверку. Но для тех кто хочет сам иметь возможность проводить расчеты своего рейтинга скажу, что эти расчеты должны быть неофициальными, чтобы не вносить смуту и не ставить под сомнение компетентность специально уполномоченного органа...

...рейтинги игроков до 2000 пунктов областные федерации могут вести сами. С учетом того, что компьютеры сейчас распространены, количество людей или клубов, которые могут сами считать рейтинг, может увеличиваться..

Комментарий
(насчет локального расчета, связи систем и т.д. - СП):

Всегда в России предполагалось, что региональные организации сами ведут свой внутренний рейтинг. И только когда игрок выходит на межрегиональный уровень - ему требуется установить общероссийский рейтинг. В 1990 году было предложено ОТДЕЛИТЬ расчет рейтинга 1д и выше от кю-уровня. Все игроки дан-уровня рассчитывались бы только централизовано и помещались бы в Российский РЛ. Вхождение игрока во Всероссийский РЛ строго регламентировалось: он получал рейтинг только после проверки его в турнирах с игроками из РЛ. К сожалению, на практике этим пренебрегли, несмотря на все возражения.

Для региональных организаций такой подход давал бы ориентир при корректировке внутреннего рейтинга и оставлял им свободу эксперимента с рейтинг-системами. Фактически мы в Новосибирске так всегда и поступали: я рассчитывал рейтинг сам, а в РЛ России долго только я и присутствовал. При необходимости производили корректировку. Главное - чтобы региональные организации были вооружены единой методикой (и согласились ее применять!). Ведь никогда, наверное, не удастся осуществить голубую мечту: пересчитывать рейтинг на всех по всем турнирам и в одном месте.

"...А что, по-вашему, нужно делать для синхронизации различных систем, хотя бы с той же Украиной, да и с Европой? /Олег Попов/"

В каждой системе, если она замкнута (нет контактов с другими системами) выстраивается статистически правильная лестница -- ранжировка игроков по силе игры (естественно в среднем, локальные отклонения неизбежны в силу именно вероятностно-статистического характера распределений всех числовых параметров).

Для синхронизации надо правильно учитывать межсистемные контакты. Например, провели статанализ всех встреч и построили гистограммы: 1-е даны одной РС выиграли у 1-х данов другой -- 60%, и т. д.; тогда можно методами матстатистики рассчитать разницу (в среднем) рейтингов. Это только набросок схемы -- реально все может быть сложнее, например из-за существенной разницы в алгоритмах расчета рейтингов. Но если все системы согласованы, например, с форовым принципом, то проблем нет.

Насколько я помню, российские игроки выступают в Европе с рейтингом ЕГФ и он должен учитываться для согласования российской РС и ЕРС. Иностранцы в России играют со своим рейтингом, или имеют российский. При встречах российских игроков с российским рейтингом и иностранцев с иностранным рейтингом -- учет этих партий в российской РС автоматически, хотя и слабо, синхронизирует соответствующие РС.

Наиболее часто международные контакты происходят в группе сильнейших -- они регулярно выступают на крупных турнирах. Поэтому при правильном учете выступлений на международных турнирах каждая национальная РС привязывается к ЕРС.


ФОРОВЫЕ РЕЙТИНГ-ТУРНИРЫ

"...Будет ли предлагаемая Вами система учитывать форовые, однодневные (малотуровые) и другие, именно любительские, соревнования? /Игорь Гришин/"

И РС-90, и новая версия рейтинг-системы одинаково хорошо приспособлены для расчета любых турниров - на равных, на форе, соответствующей разнице рейтингов или же нет - не имеет никакого значения. Алгоритм в этом смысле универсален. Просто при вводе данных указывается конкретная фора, на которой игралась та или иная партия, а в программе автоматически учитывается возможное несоответствие. Количество партий в одном турнире - тоже несущественно.

"...в чем основная идея форовых турниров, какие цели и задачи? /Игорь Гришин/"

Во-первых, форовые турниры - традиция культуры го, а о традициях нехорошо забывать.

Во-вторых, партии на форе, максимально выравнивая шансы сторон, снижают психологическое напряжение, способствуют более раскрепощенному творчеству за доской. Через изменение психологического климата в партиях - к изменению атмосферы турниров, возвращаясь постепенно к модели фестивального типа.

В-третьих, как уже отмечалось, форовые турниры стабилизируют рейтинг-систему в целом, устраняют перекосы, помогают в статистическом анализе и, как следствие, способствуют уточнению коэффициентов из алгоритма расчета рейтинга.

В-четвертых, через форовые турниры вовлекаются в активную го-деятельность новые силы, популяризируется сама игра, и т. д.

"...зачем нужны форовые турниры на всероссийском уровне? Пусть себе играют в регионах - учат начинающих... "

В конце 70-х Асташкиным был создан ВРК - "Всесоюзный Рейтинг-Клуб", в котором все высокие даны были обязаны играть межрегиональные рейтинг-партии только на форе. Цель была - согласовать региональные рейтинг-системы (дисбаланс составлял 1-2 дана, а кое-где, например в Азербайджане - и того больше).

Сегодня тоже возник дисбаланс, не совсем региональный, скорее по группам рейтинга. Причины - в некоторых ошибках, допущенных при применении, в принципе правильных, алгоритмов пересчета (были изменены параметры, сроки пересчета тоже важны, нельзя прямую лестницу всех данов и кю считать скопом - по ряду причин, прежде всего из-за неоднородности многих параметров и неравномерности участия в турнирах, их состава и т.д. - см. подробнее выше О смещении рейтинга).

Форовые турниры с максимально точной компенсацией разницы рейтингов - прекрасный способ стабилизации (вероятность сводится к 50%, а вблизи этого значения все искажения минимальны). В сочетании с другими методами стабилизации это обеспечит высокую достоверность и точность российского рейтинга.

"...Какие турниры всероссийского уровня Вы видите дополнить форовыми или сделать форовыми? /Игорь Гришин/"

Вопрос не прост. Предвижу скептическое отношение в группе ведущих игроков, заинтересованных в призах. Одна идея - совместить с игрой по интернету. Т.е. вводится что-то вроде ОКР, но с форой и через интернет. Подаются заявки от игроков дан-уровня (остальные могут участвовать без предварительной заявки, только рейтинг должен быть подтвержден региональной организацией - с учетом предполагаемого разделения расчета рейтинга данов и кю уровня). Координирующий орган определяет пары и назначает сроки. Очки зачета, призы и т.д. - все обсуждаемо. Надо заинтересовать ведущих игроков. Использовать русскую комнату на КГС. Возможны варианты. Возможны очные турниры. Пусть все любители го проявят изобретательность и инициативу!

Вариант: после того, как игроки дан-уровня наиграют по несколько партий (можно каждый месяц подводить промежуточный итог), из них формируются пары по принципу МакМагона, например. Следующий месяц (или другой период?) - все по новой. В конце года - вручение форового ОКР лучшему "дану" и лучшему "кю".

"...Весь вопрос заключается в том: как это сделать - внедрить в практику рейтинговые форовые турниры /Валерий Шикшин/";
"...Надо возрождать форофые турниры, а как их организовывать в рамках уик-енда?"
"...Если мы понимаем форовые турниры как возрождение новой волны любительского интереса к Го, то, по-моему, надо разрабатывать всю систему их проведения тоже. Тогда - масса вопросов. ... 1. система проведения /Игорь Гришин/"

Начать с планирования - с РФГ. Если в календарь будут вставлены такие турниры, с какими-то стимулами для ведущих игроков (надо всем думать), то может дело сдвинется.

На местах проще - сделайте, например, "форовый кубок" Казани:
-- предварительный отбор (любая система, МакМагон, естественно, отпадает сам собой, превращаясь в швейцарскую систему);
-- плей-офф (число участников - степень двойки: 2, 4, 8, 16 ...).

Вопрос выявления призеров. Да, в форовом турнире побеждает не сильнейший. Но в этом и привлекательность для основной массы любителей. В Саппоро в 1991 году я неоднократно участвовал в таких турнирах. Более того, в любительской среде там практически других турниров и не бывает.

Однажды в одном из клубов одновременно играло около 150 человек. Все были разбиты на группы по 4, победитель выходил в плей-офф. Турнир прошел примерно за день (без перерыва на обед; в каждом клубе есть возможность перекусить, выпить чая или кофе). Максимальное число туров - 5 или 6. Все партии игрались на форе, строго соответствующей разнице разрядов. Часы не применялись (!!).

Трое из четырех победителей оказались россиянами (выиграл Антон Затонских, у которого был тогда 3 дан). Я в плей-офф не попал, проиграв 1 партию и поделив 1-2 место в группе с 7-даном (у которого выиграл на 2-х камнях, после чего мне срочно изменили рейтинг и поставили 6 дан; это подтверждает существующее мнение, что японские любительские даны на 1-2 разряда ниже европейских). Дополнительным критерием для выхода в плей-офф являлась не личная встреча, а то, кто последним проиграл.

Вот и получился пример конкретной системы проведения. Еще один пример. В Новосибирске последнее первенство проводилось в два этапа:
-- отборочный турнир по круговой (7 туров);
-- финальная часть (плей-офф).

Так вот, первый этап был проведен всего за субботу и воскресенье, причем играли только с обеда, примерно с 14-00 до 20-21 часа, 3-4 тура в день.

С учетом этого и более раннего опыта проведения однодневных турниров с участием японцев в МКЦ "Сибирь-Хоккайдо" - именно форовых турниров - поддерживаю формулу "4+4", только обязательно использовать беёми, хотя бы 5/20, т.е. 5 мин. на 20 ходов, без поражения при просрочке: ввести штраф в виде камней, которые не успел выставить.

Эта система беёми (для более крупных турниров - 10/20) используется давно в Японии, в России и других странах, а также на игровых серверах.

Штраф - наше изобретение. Придумал это Володя Языков лет 7-8 назад. С тех пор в Новосибирске только так и играем. Снимается куча проблем: с судейством, с отсчетом времени беёми, с осадком от поражения, когда падает флаг в абсолютно выигранной позиции и т.д. и т.п. (Особенно рекомендую для форовых турниров, где часто играют не очень искушенные в игре с часами новички - СП)

Единственное возражение - как-то, мол, искажается ход борьбы этим штрафом... Но разве не самое ужасное искажение, когда в цейтнотной горячке "ляпаются" ходы куда попало? Или делаются кикаси только ради выигрыша времени? Если разница в очках по ходу партии достаточна, то всегда можно не бояться просрочить время и заплатить за это несколькими камнями. А общее время игры не затягивается - это подтверждает весь наш многолетний опыт. За все время - ни одного конфликта, ни одного судьи!

"...А мне всегда казалось, что штраф - изобретение Инга .../А.Динерштейн/"

Дело в том, что мы, в силу своей оторванности от остального го мира, не имели понятия ни об "Инге ", ни об игровых серверах. Потом - когда это все было? Да и именно в такой форме - сколько не успел выставить, столько и отдай! (Почти линейная функция от дефицита времени).

Главное же -- н и к а к и х проигрышей по времени! Затягивания туров как-то не отмечалось, с 1996 года все-таки так играем.

"...Если играют между собой 6-дан и 3-дан в наших турнирах, о чем каждый из них в это время думает?"

О чем думает 6-дан можно только догадываться, а вот 3-дан думает: "как бы доиграть до сотого хода и сдаться вовремя, чтобы "не потерять лица".

В 1977 году у меня был 1 кю. Я играл с Георгием Ивановичем Ниловым - одним из двух корифеев того времени, у которого был уже 5 дан. После ходов 35-40 у меня было, по-видимому, не просто плохо, а очень плохо. Правда, ни одной большой упавшей группы, но... Я, конечно, так плохо свою позицию не оценивал. В центре доски, потеряв бдительность, Георгий Иванович ввязывается в ко-борьбу почти на весь перевес в партии на тот момент (очков 40, как потом выяснилось), и... проигрывает. Но он все еще сохранял преимущество, однако психология в таких ситуациях не на стороне потерявшего инициативу. Одна ошибка (очков 6), другая... Партия проиграна в 21 очко. О чем тогда думал Г.И.? Незнаю. Позже я сам не раз оказывался в похожих ситуациях, проигрывая при превосходстве в рейтинге на 3-4 дана. Как правило - в результате грубой ошибки. Сначала - холодный пот как холодный душ, а потом думаешь: ну и что? жизнь на этом не кончается, каждый имеет право на ошибку.

"...Проблема в том, что для победы в форовом турнире выгодно занизить свой рейтинг... Помочь могло бы снижение ценности победы черными на большой форе. Играется швейцарка без разбивки по Мак-Магону. За победу белым цветом участник турнира получает 10 очков. За победу черным цветом 10 минус фора. За поражение - 0 очков. За ничью (в тройном ко) 5 очков. Тогда, если я хочу выиграть побольше партий, я постараюсь занизить рейтинг и брать большие форы без шансов получить приз. Если же я пытаюсь занять 1-е место, я лучше завышу свой рейтинг, чтобы мои победы были более значимыми. В целом борьба в турнире должна получиться более честной и менее предсказуемой..." /Илья Ветров/

Я думаю, любые системы проведения имеют право на существование. С точки зрения РС - формальному алгоритму все равно, какая система. Занижение или завышение начального рейтинга - вопрос чисто организационный: есть ли действующая РС, или же каждый сам себе назначает рейтинг.

Конкретно по предложенной системе проведения. Можно так проводить - похожий опыт был, например, в Новосибирске в 1977 году. Клуб образовался только осенью 1976 года и весной решили провести серьезный форовый турнир - 15 участников по круговой системе. Когда турнир шел полным ходом, было получено сообщение о проведении первых всесоюзных соревнований на звание сильнейшего игрока страны и предлагалось провести свои отборочные турниры.

Что делать? Жалко бросать турнир, проводившийся с таким "размахом", с участием японского ученого М.Миякава (1д, правда в турнире он был 1кю - по его просьбе, так как считал себя понизившимся из-за редкой игры). Решили не организовывать нового турнира, а ввести новый зачет для определения чисто спортивного результата - условные очки с учетом "компенсации за фору". Кстати, М.Миякава занял второе место, выиграв ровно 50% партий. Могли, конечно, возникнуть трения: как определить приоритет, если бы один выиграл все, но давал фору меньшую, а другой немного отстал по победам, но за счет компенсации вырвался вперед. В том турнире все обошлось, т.к. занявший первое место получал фору только от Миякавы, выиграв все 100% партий, хотя и давал остальным фору - вот пример быстро прогрессирующего игрока, когда его (автора этих строк :) 3 кю существенно отстал от реального уровня игры.

"...Линейность форы (разница в разряд - камень) штука обманчивая. ...линейная фора дает нелинейное распределение на большом интервале... Два камня это 15 очков. Три камня - около тридцати. Шесть - это уже 90./Сахабутдинов Р./

Еще в РС-90 предлагалось учитывать нелинейность форы: кажется, в книге "Стратегические концепции" указывается, что для выравнивания шансов при 9-ти камнях для профессионалов одного уровня нужно давать компенсацию 140 очков. При 6,5 очка коми сегодня получается такая шкала: 6, 18, 30, 42, ... (коми - это половинка разницы в один камень гандикапа, поэтому в начале по 12 очков за камень). После 4-х камней надо увеличивать "добавку" на каждый камень, так как взаимное влияние камней форы усиливается - легко построить интерполяцию до 140 очков при форе 9. То есть, после 4-х камней надо считать каждый камень примерно за 20 очков и получается очень простой расчет:

  1 2 3 4 5 6 7 8 9 число камней форы
дан 0,5 1,5 2,5 3,5 4,5 5,5 6,5 7,5 8,5 разница по линейной шкале
очки: 6 18 30 42 60 80 100 120 140 реальный эквивалент

Эта интерполяция, конечно, грубая. Можно по-разному интерполировать, в частности и так, чтобы 6 камней были равны 90 очкам. Для прояснения точных значений нужны партии на форе и в большом количестве, а их нет.

"...Я не думаю, что имеет смысл возвращаться к форовым турнирам. Что же касается начинающих - уровень слабее 15 кю, или, скажем слабее 20 кю на серверах, то там практически любая система будет одинаково работать, или не работать.../Сахабутдинов Р./

Я всегда знал, что форовые турниры не привлекают игроков из верхней части рейтинг-листа. А ведь кому как не гроссмейстерам России поддерживать форовые турниры на российском уровне...

"...Тогда - прямой вопрос. Кто и каким образом будет возрождать форовые турниры? /Игорь Гришин/"

Никто, никакой директор не сделает привлекательным для большинства организацию форовых турниров и участие в них, если мы все не захотим их проводить.

Надо разъяснять, убеждать и т.д., что форовые турниры нужны. Ну и, конечно, предлагать схемы их проведения. Одна интересная схема была изложена в ходе дискуссии по РС и форовым турнирам. Зачетные очки определяются с учетом форы: "10 - фора" за победу, например, для получающего фору.

Другой вариант: проведение форового кубка России, где в зачет идут три лучших результата из всех форовых турниров за год (в отличие от ОКР здесь именно так - чтобы до конца года у каждого была надежда улучшить результат). Ранг форовых турниров определяется в конце года по участию в них тех, кто показал за весь период наилучшие результаты. В соответствии с рангом повышается или понижается вес соответствующего турнира. Детали можно обсуждать, но схема мне кажется интересной. Можно учитывать суммарную фору, которую давали игроки. Зачет отдельно среди "дающих фору", и среди "получающих".

Можно учесть и спортивный фактор. Скажем, выделять места в финале первенства России для призеров, при условии соблюдения квалификационного ограничения, например 4 д (победа в форовых соревнованиях достается чаще прогрессирующим игрокам - вот стимул молодым).

Вопрос со спонсорством - он всеобщий и не зависит от вида турнира. Скорее даже форовый турнир более привлекателен, так как результат менее предсказуем.


КОММЕНТАРИИ К РС СЕРВЕРА КГС

На форуме "Виртуального клуба го" 30.04.2003 было опубликовано описание рейтинг-системы сервера КГС на английском языке. Ниже приводится оригинальный текст, перевод на русский и комментарий в рамках обсуждения различных рейтинг-систем.

The KGS rank system is based on the assumption that there is some value k such that if A plays B in an even game, then the probability of A winning is given by:

PA wins = 1 / (1 + exp (k(RankB - RankA))).

Further, it is assumed that any handicap stones, komi other than even, etc. can be accounted for by subtracting 1 from the rank of the white player for every handicap stone and adding some amount for every point of komi away from even.

There are a bunch of problems with this. The strengths of the players involved probably affect k, and adding more than a few stones of handicap is probably not a strictly linear relationship. For now, though, it is assumed that this works well enough.

Once we have this relationship, we can take any take any player A, and find the probability that the games they played would have the outcome that they actually did have. This is done by multplying together the win probabilty for every game they played. Now, we can treat RankA as a variable, come up with a graph of probability of all game results (prob) vs. RankA, and solve to find the rank for A that maximizes prob. This will be the rank assigned to A.

We repeat this process for every player on the server; then, when we are done, we do it again. This iteration will gradually refine the ranks for all players on KGS. The problem is that new games and players are constantly being added to the set on KGS, so we never really come up with a perfect, final rank for any player; instead, KGS iterates over all players indefinitely, adding new games and players as necessary at each iteration.

This system is further refined by assigning each game a weight based on how old the game is. Each player also gets a confidence based on the double dervative of the probability graph (d2Rank / dprob2) at the maximum point. The weight of each game is multiplied by the confidence we have in the opponent's rank.

One last note - the "?" that is put at the end of some player's ranks. This means that the player's rank is still in doubt. The server assigns a player a "?" if:

The player has no wins. The player has no losses.

There player's confidence falls below a certain threshold. The first two are obvious - if a player has no wins, then their maximally probable rank is -?, and if they have no losses then their maximally probable rank becomes ?. Since the player can't be given a computed rank, the server just assign them a rank based on their strongest win or weakest loss. In the third case, the player actually has a rank, but a "?" is added to the end to indicate that the server can't be sure of their rank. For example, if the server only knows that a player has beaten a 9k and lost to a 1k, then the server will calcalute a rank of 5k for the player. But this will get a "?" because it the player's rank could easily be anywhere from 8k down to 2k. Exactly how many games it takes for the player to lose the "?" varies, but it is usually 2 or 3 wins and losses in close games (that is, games with handicap and komi set to give both players close strengths).

Перевод "Описания рейтинг-системы КГС":

Рейтинг-система КГC основана на предположении, что имеется некоторое значение k такое, что если А и В играют на равных, то вероятность победы игрока А равна

P = 1 /(1 + exp(k*(RankB-RankA))) .

Далее, принимается, что любые камни гандикапа, коми и т.д. могут быть учтены уменьшением рейтинга белых, даже при большой форе.

Здесь имеется ряд проблем. Уровень игры, возможно, влияет на k, и компенсация не строго линейно зависит от гандикапа. Тем не менее предполагается, что линейность соблюдается достаточно хорошо.

В этих условиях мы можем для любого игрока А находить вероятность того, что все игры, которые он сыграл, имели бы фактически реализовавшийся результат. Эта вероятность получается умножением вероятностей побед в выигранных играх и поражений в проигранных. Тогда мы можем трактовать RankA как переменную с графом результатов всех встреч, имеющим определенную вероятность (prob), и искать такое значение RankA которое максимизирует эту вероятность. Это и будет рейтинг игрока A.

Мы повторяем этот процесс для каждого игрока на сервере; затем мы делаем это снова. Эти итерации постепенно выявят рейтинги для всех игроков на КГС. Проблема состоит в том, что постоянно добавляются новые игры и игроки, так что мы никогда не придем к действительно совершенному, окончательному рейтингу для каждого игрока; более того, на КГС итерации по всем игрокам продолжаются неограниченно, с добавлением игр и игроков по мере необходимости на каждой итерации.

Эта система далее уточняется за счет приписывания каждой игре веса в зависимости от ее давности. Каждый игрок также получает "достоверность", основанную на вычислении второй производной из графика вероятности (d2Rank / dprob2) в точке максимума prob. Вес каждой игры умножается на "достоверность", которая приписана рейтингу противника.

Одно последнее замечание - знак "?" у рейтинга некоторых игроков. Это признак недостоверности рейтинга. Сервер приписывает игроку знак "?", если:

-- игрок не имеет побед;
-- игрок не имеет поражений.

Здесь достоверность падает ниже некоторого порога. Эти случаи очевидны: если игрок не имеет побед, то максимально вероятный ранг - "минус бесконечность", а если не имеет поражений - "плюс бесконечность". Так как в такой ситуации вычислить рейтинг нельзя, то сервер только приписывает рейтинг, основанный на самой значимой победе или самом серьезном поражении.

И еще возможен третий случай: игрок имеет рейтинг, но знак "?" добавлен, чтобы указать на недостаточность данных, чтобы считать рейтинг достоверным. Например, если игрок только выиграл у 9кю и проиграл 1кю, то будет вычислен ранк 5кю. Но будет добавлен "?", потому что ранг игрока может оказаться где угодно между 8кю и 2кю. Нельзя точно сказать, сколько необходимо сыграть игр, чтобы лишиться знака "?", но это обычно 2 или 3 победы и поражения в "уравновешенных" играх (то есть где шансы почти равны).

Комментарий:

Формула вероятности выигрыша такая же, как в шахматной РС и в европейской РС для го.

Сама по себе эта формула не составляет сути той или иной РС, т.к. при многократном пересчете рейтинга работают "законы больших чисел"; одной из форм такого "закона" является то, что случайные отклонения рейтинга игрока от его действительной силы игры (мы эти величины никогда не знаем и не узнаем!) приближаются со временем к нормальному закону распределения (распределение Гаусса). Можно брать просто линейную функцию (проще всего!), результат в смысле закона больших чисел - тот же.

По-поводу итерационной схемы вычисления рейтинга. По-видимому, эта схема становится популярной именно на игровых серверах. По сути, это один из так называемых точечных критериев оценки случайной величины (каковой является "сила игры", не рейтинг!). Слабые места: зависимость от всей цепочки партий, когда-либо сыгранных, приводит не только к необходимости постоянных итераций, но и вообще, вся процедура сомнительна, так как сила игрока "давно забыла" (да и "не знала") что он с кем-то играл день, два, месяц назад. Здесь работают модели так называемых цепей Маркова, когда вероятность попасть в некоторое из известных состояний, в которое в принципе может перейти система (в частности, следующее текущее значение рейтинга игрока) зависит только от предыдущего состояния, и не зависит от всей остальной предыстории (что вполне естественно для игр типа го). Системы типа Эло дают не точечную, а так называемую доверительную оценку, суть которой не в максимализации некоторой функции (произведение вероятностей - в рассматриваемом примере), т.е. нахождении точки - поэтому и "точечный критерий", - а вычисление доверительного интервала и доверительной вероятности попадания оцениваемого параметра в этот интервал. Все физические измерения на этом стоят и стоять будут. Класс точности прибора именно и означает, каков размер доверительного интервала для доверительной вероятности около 99%. А любая РС - это, если хотите, "измерительный прибор".

И еще: из точечной оценки получить доверительную, как правило, нельзя. Доверительная оценка может дать не одну точечную. Самый простой способ - центр доверительного интервала является точечной оценкой. Примерно именно это значение и получается в системах типа Эло, когда составляется очередной рейтинг-лист.

"...По-моему отсюда однозначно следует, что надо использовать систему типа ЭЛО..." /Copper, русская комната КГС/

Я бы сказал - предпочтительнее. Поскольку мы имеем дело с вероятностными оценками, то абсолютной достоверности нет и никогда не будет. Может, при определенных обстоятельствах, система с точечной оценкой даст лучше результат. Но мы об этом никогда не узнаем.

Поэтому при выборе модели приходится руководствоваться эвристическими соображениями. Например, вы сыграли с кем-то. Затем вы и ваш соперник собираетесь сыграть еще. Зависит ли вероятность ваших побед от результата вашей партии? - Может быть; в рейтинг-системе - точно, так как ваш результат повлиял на ваш рейтинг. Но реальная вероятность, а не рейтинговая, не зависит. Теперь, зависит ли вероятность вашей победы от того, выиграет ли следующую партию ваш предыдущий соперник? - Нет (в реальной жизни и в системах типа Эло). В системах типа описанной (КГС) - зависит. Вот и решайте, какую систему использовать.

Кстати, во время последнего матча на КГС я наблюдал, как рейтинг Siberiak'а постояно скакал то на 6кю, то на 5кю, хотя тот не играл, а также наблюдал за ходом матча.

И еще. Итерационные системы (а не только на КГС такая схема расчета - похоже на NNGS тоже используют итерации) неявно предполагают, что оценивается некий постоянный параметр. А мы знаем, что сила игры (а вслед за ней и должен поспевать рейтинг!) не постоянный параметр, даже очень непостоянный. В такой ситуации всякие итерации по "прошлогоднему снегу" совсем становятся сомнительными. Может, на игровых серверах и есть смысл применять такие системы - чтобы игроки не могли "планировать" свой рейтинг, подбирая себе "удобных" партнеров. В такой необозримой схеме совершенно непредсказуемо, как повлияет та или иная партия на ваш рейтинг через некоторое время. Форовые рейтинг-турниры исключают "планирование", так как партнеры назначаются в соответствии с системой проведения.

Все вопросы, замечания, пожелания и другие отклики просьба направлять на E-mail: Sibgo@narod.ru, в гостевую книгу или на форум сайта Sibgo.narod.ru.



© 2002-2003, C.B.Павлов, Ю.М.Беляев
Hosted by uCoz