Jump to content
Sign in to follow this  
DuelAnt

Moneyball и Формула-1: тема для формульных "гиков"

Recommended Posts

Как некоторые из вас знают, я участвую в конкурсе прогнозов "Народный" на этом форуме.

Кстати, кто еще не участвует там, присоединяйтесь. Для наиболее полноценного опыта вам потребуется команда из 3 участников (включая вас), но с этим вам наверняка помогут на трансферном рынке.

Так вот. Зимой я попробовал создать модель, которая будет прогнозировать результаты квалификаций. Именно квалификаций, потому что их все-таки проще моделировать, чем гонки. Модель максимально простая, но я все равно поставил перед собой цель построить такую модель, которая будет справляться с задачей прогнозирования как минимум не хуже людей, которые используют только свое знание Формулы-1 и здравый смысл.

 

Что из этого получилось, можете прочитать по ссылке. Кстати, Moneyball - это не только кликбейт, он действительно имеет некоторое отношение к созданной модели.

https://habr.com/ru/post/510018/

Однако чтобы вы лучше смогли понять, насколько вам это вообще интересно, ниже я приведу несколько ключевых отрывков из статьи.

 

Цитата

Для создания модели я свел в одну таблицу все результаты практик и квалификаций за сезоны 2018 и 2019. 2018-й год служил в качестве обучающей выборки, а 2019-й – в качестве тестовой. По этим данным мы построили линейную регрессию. Если максимально просто объяснять регрессию, то наши данные – это совокупность точек на координатной плоскости. Мы провели прямую, которая меньше всего отклоняется от совокупности этих точек. И функция, графиком которой является эта прямая – это и есть наша линейная регрессия.

От известной из школьной программы формулы y=kx+b нашу функцию отличает только то, что переменных у нас две. Первая переменная (X1) – это отставание в третьей практике, а вторая переменная (X2) – среднее отставание по предыдущим квалификациям. Эти переменные не равнозначны, и одна из наших целей – определить вес каждой переменной в диапазоне от 0 до 1. Чем дальше переменная от нуля, тем большее значение она имеет при объяснении зависимой переменной. В нашем случае в качестве зависимой переменной выступает время на круге, выраженное в отставании от лидера (или точнее, от некоего «идеального круга», поскольку у всех пилотов эта величина была положительной).

 

Цитата

Важный момент. Конечный результат складывался из двух независимых параметров, каждый из которых вытекал из двух независимых регрессий. Первый параметр – сила команды на этом этапе, точнее, отставание лучшего пилота команды от лидера. Второй параметр – распределение сил внутри команды.

Что это значит на примере? Допустим, мы берем Гран-при Венгрии сезона-2019. Модель показывает, что отставание «Феррари» от лидера составит 0,218 секунды. Но это отставание первого пилота, а кто им будет – Феттель или Леклер – и какой разрыв между ними будет, определяется другим параметром. В этом примере модель показала, что впереди будет Феттель, а Леклер проиграет ему 0,096 секунды.

Буду рад услышать ваши мнения о модели и о том, что в ней можно улучшить. А я думаю, все согласятся, что тут есть очень большое пространство для улучшений. И как бы вы вообще решали подобную проблему при условии безграничного времени и безграничных возможностей.

 

Помимо этого, я хочу, чтобы эта тема была местом, где можно обсудить статистику, прогнозирование и вообще все из мира Формулы-1, выходящее за рамки сферы интересов обычного, "казуального" болельщика. Поэтому если у вас какие-то связанные с этим идеи, мысли, теории - не стесняйтесь их писать.

Share this post


Link to post
Share on other sites
4 минуты назад, DuelAnt сказал:

Как некоторые из вас знают, я участвую в конкурсе прогнозов "Народный" на этом форуме.

Так вот. Зимой я попробовал создать модель, которая будет прогнозировать результаты квалификаций. Именно квалификаций, потому что их все-таки проще моделировать, чем гонки. Модель максимально простая, но я все равно поставил перед собой цель построить такую модель, которая будет справляться с задачей прогнозирования как минимум не хуже людей, которые используют только свое знание Формулы-1 и здравый смысл.

Цитата

 

От известной из школьной программы формулы y=kx+b нашу функцию отличает только то, что переменных у нас две...

 

Буду рад услышать ваши мнения о модели и о том, что в ней можно улучшить. А я думаю, все согласятся, что тут есть очень большое пространство для улучшений. И как бы вы вообще решали подобную проблему при условии безграничного времени и безграничных возможностей.

Ха! Да кто ж не пробовал покататься на таких первоклассных салазках. Не в смысле самовозности, а в смысле уровня математического образования )))

А не пробовал ли подумать на тему использования функции невязки?  Правда, там тож еще надо мозжечок поднапрячь на тему, что использовать в качестве арнументов.

Share this post


Link to post
Share on other sites

как грица  респект и уважуха ! очень интересная задумка, и в принципе на данный момент несложная реализация.

чтобы внести большую энтропию, я бы предложил добавить ещё пару переменных, например: "скилл  пилота на конкретной трассе" - не секрет, что у каждого гонщика есть свои любимые и нет трассы(чего далеко ходить, Валера и Австрия :) ), вот для таких кейсов,   я бы ввел повышающий коэфицент 1.005(0.995), для ньюкамов - 1

  ещё 1 коэф - погода, конечно дождь это рандом, но всегда есть самые уверенные в такую погоду, например ультапотенциальный мегасупермульти чемпиён.

Share this post


Link to post
Share on other sites
23 часа назад, theDoctor сказал:

как грица  респект и уважуха ! очень интересная задумка, и в принципе на данный момент несложная реализация.

чтобы внести большую энтропию, я бы предложил добавить ещё пару переменных, например: "скилл  пилота на конкретной трассе" - не секрет, что у каждого гонщика есть свои любимые и нет трассы(чего далеко ходить, Валера и Австрия :) ), вот для таких кейсов,   я бы ввел повышающий коэфицент 1.005(0.995), для ньюкамов - 1

  ещё 1 коэф - погода, конечно дождь это рандом, но всегда есть самые уверенные в такую погоду, например ультапотенциальный мегасупермульти чемпиён.

Спасибо.

Если бы я создавал модель в идеальном мире, то есть при условии, что я могу реализовать все задуманное, я бы действовал немного по-другому.

Разделил бы трассы на много секторов и каждому присвоил тип (прямая, медленный поворот, среднескоростной поворот, быстрый поворот). Определил бы соотношение разных типов секторов на каждой трассе и уровень каждой команды на каждом типе секторов. И на этом основании строил бы модель.

Кстати, в Австрии было что-то похожее в официальной трансляции, когда показывали, что Феррари больше всего проигрывает на прямых.

Share this post


Link to post
Share on other sites

Я делал похожую штуку для народного в 2010-2011, только кроме отставания от лидера в миллисекундах я по большей мере ориентировался на расчетную позицию пилота, исходя из результатов практик конкретного этапа (обычно 2-й и 3-й), а также «исторической дельты» для каждого пилота между его позицией в практиках и квале/гонке на предыдущих этапах (брал небольшое количество гонок, чтобы данные были репрезентативными).


Даже довелось выступать с докладом по этой теме в нашей малой академии наук для школьников)

 

Результат применения на табло итогов народного 2010-2011 :D

После этого прогнозирую только при помощи здравого смысла и аналитики, пару раз вице-чемпионами вроде стали.

Edited by Заубер

Share this post


Link to post
Share on other sites

Ну, я делал смесь результатов 2 и 3 практик, обычно в пропорции 0.35 на 0.65. Плюс, вручную корректировал аномалии.

Вообще, "подстраховка" одной практикой другой очень хорошо работает. Если в одной аномальное значение, то просто брать результаты другой для моделирования.

 

За что сразу надо бить линейкой по пальцам, так это за отставание в милисекундах.

Скажем, вы моделируете отставание в Австрии, основываясь на Франции. В Австрии круг 63 секунды, во Франции 88. Естественно, ваши смоделированные отставания получатся меньше. Я, конечно, утрирую. Если моделировать по нескольким Гран-при, разница будет менее значительной. Но всё равно складывать немасштабированные результаты прошедших Гран-при и практики нынешнего - антинаучно.

 

Второй момент - а какой, собственно, промежуток брать для прошедших Гран-при?

2-3? Статистически мало. Даже 5 дадут большую ошибку, если в одном команда жёстко провалилась.

10? За это время команда может обновить машину или наоборот отстать от модернизации. Посмотрите на Феррари в прошлом году: можно ли моделировать Бельгию, принимая во внимание результаты этапов с 3 по 12?

 

И если даже 10 оптимальное число предыдущих Гран-при (можете подставить любое другое число), как действовать в начале сезона, когда необходимое количество ещё не набежало?

Сокращать? См выше - падает определённость.

Брать последние Гран-при прошлого сезона? Машины совершенно точно будут модернизированы, расклад поменяется. И сильнее, чем по ходу 10 Гран-при, взятых внутри одного сезона.

Share this post


Link to post
Share on other sites
В 14.07.2020 в 09:56, Заубер сказал:

Я делал похожую штуку для народного в 2010-2011, только кроме отставания от лидера в миллисекундах я по большей мере ориентировался на расчетную позицию пилота, исходя из результатов практик конкретного этапа (обычно 2-й и 3-й), а также «исторической дельты» для каждого пилота между его позицией в практиках и квале/гонке на предыдущих этапах (брал небольшое количество гонок, чтобы данные были репрезентативными).


Даже довелось выступать с докладом по этой теме в нашей малой академии наук для школьников)

 

Результат применения на табло итогов народного 2010-2011 :D

После этого прогнозирую только при помощи здравого смысла и аналитики, пару раз вице-чемпионами вроде стали.

Позиции - плохой показатель, нужно именно по времени смотреть.

 

А так все модели, которые представлены в Народном, находятся на слишком примитивном уровне, чтобы давать реальное преимущество над теми, кто просто думает своей головой.

Бестовал, конечно, неплох в квалификациях, ну так Бестовал исторически неплох в квалификациях, тут трудно сказать, насколько модель помогает.

Доминик рассказывал про мифическую супер-систему Паши Spydell-Guss'а, но секрет ее навеки потерян, похоже.

Share this post


Link to post
Share on other sites
В 15.07.2020 в 00:52, Dominic Greene сказал:

За что сразу надо бить линейкой по пальцам, так это за отставание в милисекундах.

Скажем, вы моделируете отставание в Австрии, основываясь на Франции. В Австрии круг 63 секунды, во Франции 88. Естественно, ваши смоделированные отставания получатся меньше. Я, конечно, утрирую. Если моделировать по нескольким Гран-при, разница будет менее значительной. Но всё равно складывать немасштабированные результаты прошедших Гран-при и практики нынешнего - антинаучно.

Какая разница, если в конечном счете этот фактор на всех пилотов влияет одинаково?

Из всех моментов, за которые модель можно критиковать, этот наименее значительный.

 

Помимо этого, твоя гипотеза, что отставания прямо пропорциональны времени прохождения круга, нуждается в подтверждении.

Все далеко не так очевидно, как кажется. Вот у нас есть три трассы. Барселона, Монако и Монца.

В Барселоне в прошлом году поул был 75 секунд. В Монако 70 секунд. В Монце 79 секунд.

Вопрос на засыпку. Значит ли это, что среди этих трасс самые большие отставания в Монце? Я имею в виду, не за один год, а в целом. Впрочем, и за один год тоже.

У меня нет точных данных, но я думаю, мы согласимся, что именно Монца известна своими рекордно малыми отрывами. Причина понятна. Очень много времени проводится с педалью газа в пол и мало скоростных поворотов. Если мы переведем все в проценты от времени лидера, то мы точно исказим результаты Монцы.

 

Ты, конечно, сейчас снова начнешь говорить, что я подобрал удобный для себя пример, и да, само собой, именно так я и сделал. Но ты ведь тоже не случайно взял Австрию, самую короткую трассу чемпионата?

А по поводу того, что Монца - это исключение, и в целом прослеживается корреляция между временем прохождения круга и величиной отставаний, бремя доказательства лежит на тебе.

 

Помимо этого, сейчас же в календаре нет трасс вроде Нордшляйфе или старого Спа. Большинство трасс комфортно укладываются в дельту между 70 и 95 секундами. 

 

В 15.07.2020 в 00:52, Dominic Greene сказал:

Второй момент - а какой, собственно, промежуток брать для прошедших Гран-при?

2-3? Статистически мало. Даже 5 дадут большую ошибку, если в одном команда жёстко провалилась.

10? За это время команда может обновить машину или наоборот отстать от модернизации. Посмотрите на Феррари в прошлом году: можно ли моделировать Бельгию, принимая во внимание результаты этапов с 3 по 12?

 

И если даже 10 оптимальное число предыдущих Гран-при (можете подставить любое другое число), как действовать в начале сезона, когда необходимое количество ещё не набежало?

Сокращать? См выше - падает определённость.

Брать последние Гран-при прошлого сезона? Машины совершенно точно будут модернизированы, расклад поменяется. И сильнее, чем по ходу 10 Гран-при, взятых внутри одного сезона.

Столько, сколько получится. И 3 мало, и 5 мало. И 10 тоже мало, откровенно говоря. Тут чем больше, тем лучше. Было бы в Ф1 50 гонок, я бы брал все 50.

В Формуле-1 и так очень мало данных по сравнению с другими сферами. Сознательно отрезать часть данных - это мазохизм какой-то.

Ответ на твой вопрос дается однозначно: да, можно моделировать Бельгию на основании всех предыдущих этапов. Как раз в Бельгии модель правильно предсказала первый ряд Леклер-Феттель. Почему? Потому что в практике Феррари привезла всем полсекунды.

За актуальность данных отвечают результаты практики. Результаты квалификаций просто отсеивают какие-то совсем уж странные аномалии.

Share this post


Link to post
Share on other sites
17 часов назад, DuelAnt сказал:

Какая разница, если в конечном счете этот фактор на всех пилотов влияет одинаково?

Из всех моментов, за которые модель можно критиковать, этот наименее значительный.

Это смещает равновесие в твоей модели между тренировкой и прошлыми квалификациями. Когда ты приезжаешь на длинную (по времени) трассу, ты получаешь увеличение доли тренировки. Когда приезжаешь на короткую, получаешь увеличение доли прошлых квалификаций.

17 часов назад, DuelAnt сказал:

Помимо этого, твоя гипотеза, что отставания прямо пропорциональны времени прохождения круга, нуждается в подтверждении.

Все далеко не так очевидно, как кажется. Вот у нас есть три трассы. Барселона, Монако и Монца.

В Барселоне в прошлом году поул был 75 секунд. В Монако 70 секунд. В Монце 79 секунд.

Вопрос на засыпку. Значит ли это, что среди этих трасс самые большие отставания в Монце? Я имею в виду, не за один год, а в целом. Впрочем, и за один год тоже.

У меня нет точных данных, но я думаю, мы согласимся, что именно Монца известна своими рекордно малыми отрывами. Причина понятна. Очень много времени проводится с педалью газа в пол и мало скоростных поворотов. Если мы переведем все в проценты от времени лидера, то мы точно исказим результаты Монцы.

Вот тут заключена ошибка мышления. Ты приводишь аргумент, что Монца известна малыми отрывами из-за малого количества скоростных поворотов. Что резонно. Но это никак не опровергает фактор длины круга. Наличие другого фактора, влияющего на результат, не опровергает первый.

Представь, что у тебя есть круг длиной в две Монцы, где есть две Прима Варианте, 4 Лесмо, 2 Аскари и две Параболики. Разумеется, там отрывы будут вдвое больше.

 

И, кстати, я сам решил проверить на глаз. У меня получились самые маленькие отрывы в Гоккенгейме и Интерлагосе.

17 часов назад, DuelAnt сказал:

Ты, конечно, сейчас снова начнешь говорить, что я подобрал удобный для себя пример, и да, само собой, именно так я и сделал. Но ты ведь тоже не случайно взял Австрию, самую короткую трассу чемпионата?

А по поводу того, что Монца - это исключение, и в целом прослеживается корреляция между временем прохождения круга и величиной отставаний, бремя доказательства лежит на тебе.

Не намерен заниматься доказательством вполне очевидных вещей.

17 часов назад, DuelAnt сказал:

Помимо этого, сейчас же в календаре нет трасс вроде Нордшляйфе или старого Спа. Большинство трасс комфортно укладываются в дельту между 70 и 95 секундами. 

Опять же, ты тут не отрицаешь влияние длины круга, а скорее подтверждаешь. Если бы не было корреляции, старая Спа или Нордшляйфе вполне могли бы конкурировать с Мельбурном или другой случайно взятой трассой современного календаря.

Положим, что среднее арифметическое время круга равно 82.5 секунд. Тогда когда ты приезжаешь на трассу в 70 секунд, твоя секунда превращается в 0.848, когда на трассу в 95 секунд - в 1.152 секунды.

17 часов назад, DuelAnt сказал:

Столько, сколько получится. И 3 мало, и 5 мало. И 10 тоже мало, откровенно говоря. Тут чем больше, тем лучше. Было бы в Ф1 50 гонок, я бы брал все 50.

В Формуле-1 и так очень мало данных по сравнению с другими сферами. Сознательно отрезать часть данных - это мазохизм какой-то.

А почему ты тогда срезаешь результаты прошлого года, позапрошлого? Вот тебе 50 гонок. А можно и вообще дойти до результатов Феррари 2004 года и Уильямса 1992. Я понимаю, что это бред. Но такой же бред, как моделировать Заубер 18 года, до конца сезона добавляя ему слабое начало (где Леклер был 20-м). Или Ред Булл 17 года, где он в начале сезона Уильямс не всегда опережал.

17 часов назад, DuelAnt сказал:

Ответ на твой вопрос дается однозначно: да, можно моделировать Бельгию на основании всех предыдущих этапов. Как раз в Бельгии модель правильно предсказала первый ряд Леклер-Феттель. Почему? Потому что в практике Феррари привезла всем полсекунды.

За актуальность данных отвечают результаты практики. Результаты квалификаций просто отсеивают какие-то совсем уж странные аномалии.

ЕМНИП, она тебе предсказала Феттель-Леклер.

А результаты квалификаций не отсеивают аномалии, они снижают их влияние.

18 часов назад, DuelAnt сказал:

Доминик рассказывал про мифическую супер-систему Паши Spydell-Guss'а, но секрет ее навеки потерян, похоже.

Ну, Паша хвалился этой моделью сам, но сдаётся мне, что часть её привлекательности ушла, когда немножко поменялся регламент выбора 2 прогнозов из 3.

Share this post


Link to post
Share on other sites
20 минут назад, Dominic Greene сказал:

Это смещает равновесие в твоей модели между тренировкой и прошлыми квалификациями. Когда ты приезжаешь на длинную (по времени) трассу, ты получаешь увеличение доли тренировки. Когда приезжаешь на короткую, получаешь увеличение доли прошлых квалификаций.

Вот тут заключена ошибка мышления. Ты приводишь аргумент, что Монца известна малыми отрывами из-за малого количества скоростных поворотов. Что резонно. Но это никак не опровергает фактор длины круга. Наличие другого фактора, влияющего на результат, не опровергает первый.

Представь, что у тебя есть круг длиной в две Монцы, где есть две Прима Варианте, 4 Лесмо, 2 Аскари и две Параболики. Разумеется, там отрывы будут вдвое больше.

Я не отрицаю фактор величины круга, а говорю, что все менее очевидно, чем кажется.

И в конечном счете это не оказывает значительного влияния на результаты.

Начиная диалог с высокомерного "бить линейкой по пальцам", неплохо бы иметь за спиной какие-то реальные данные, а не свою голую имху.

 

Как я понимаю, твой подход - это переводить отставание в проценты от времени лидера.

Но это вносит свое искажение. Возьмем все ту же Монцу. На ней отставания микроскопические в процентах. А значит, доля влияния практики будет недооценена в сравнении с результатами предыдущих квалификаций. Так что у каждого подхода свои минусы.

 

25 минут назад, Dominic Greene сказал:

Положим, что среднее арифметическое время круга равно 82.5 секунд. Тогда когда ты приезжаешь на трассу в 70 секунд, твоя секунда превращается в 0.848, когда на трассу в 95 секунд - в 1.152 секунды.

При условии, что между этими двумя факторами линейная зависимость. Что у тебя пока не получилось доказать.

По-хорошему, если подходить к вопросу действительно серьезно, то для каждой трассы можно вычислить коэффициент.

Условно, 0,6 секунды в Австрии = 1,05 секунды в Спа.

Но ты предлагаешь один упрощенный подход заменить другим.

 

25 минут назад, Dominic Greene сказал:

А почему ты тогда срезаешь результаты прошлого года, позапрошлого? Вот тебе 50 гонок. А можно и вообще дойти до результатов Феррари 2004 года и Уильямса 1992. Я понимаю, что это бред. Но такой же бред, как моделировать Заубер 18 года, до конца сезона добавляя ему слабое начало (где Леклер был 20-м). Или Ред Булл 17 года, где он в начале сезона Уильямс не всегда опережал.

Я думаю, ты не будешь спорить с тем, что внутри сезона расстановка сил меняется меньше, чем между разными сезонами.

Статистика не работает на основе малой выборки, Доминик. Конечно, я бы хотел, чтобы у нас было 50 или 100 гонок в календаре (на самом деле нет, и так много времени уходит), но мы вынуждены работать с тем календарем, что у нас есть. Сезон - это самая разумная дистанция, которую мы можем брать.

 

29 минут назад, Dominic Greene сказал:

ЕМНИП, она тебе предсказала Феттель-Леклер.

При всем уважении, Доминик, я лучше знаю результаты своей модели. В конце концов, они у меня под рукой, а у тебя - нет.

Бельгия вообще получилась самым успешным этапом для модели прошлого года.

Share this post


Link to post
Share on other sites
1 час назад, DuelAnt сказал:

Я не отрицаю фактор величины круга, а говорю, что все менее очевидно, чем кажется.

И в конечном счете это не оказывает значительного влияния на результаты.

Начиная диалог с высокомерного "бить линейкой по пальцам", неплохо бы иметь за спиной какие-то реальные данные, а не свою голую имху.

Что значит, значительного? Ты так кропотливо бьёшься за каждую тысячную в своих коэффициентах (там до 3 знака точность), а в исходных данных тупо забываешь 20%. Я бы понял, если бы твоя формула составляла что-то вроде на глаз "0.6тренировки+0.4 квалы", при таком подходе действительно точность исходных данных того же порядка, что и формула.

1 час назад, DuelAnt сказал:

Как я понимаю, твой подход - это переводить отставание в проценты от времени лидера.

Но это вносит свое искажение. Возьмем все ту же Монцу. На ней отставания микроскопические в процентах. А значит, доля влияния практики будет недооценена в сравнении с результатами предыдущих квалификаций. Так что у каждого подхода свои минусы.

Это не искажение. Твои отставания в практике просто будут меньше. Меньше станут и прогнозируемые отставания в квалификации.

Ты, конечно, полностью не избавляешься от ошибок масштабирования, ты убираешь одну. Твоё предложение: раз уж всё равно не удастся до конца избавиться от фактора трассы, то не стоит избавляться от фактора времени на круге.

1 час назад, DuelAnt сказал:

При условии, что между этими двумя факторами линейная зависимость. Что у тебя пока не получилось доказать.

По-хорошему, если подходить к вопросу действительно серьезно, то для каждой трассы можно вычислить коэффициент.

Условно, 0,6 секунды в Австрии = 1,05 секунды в Спа.

Но ты предлагаешь один упрощенный подход заменить другим.

Я не ставлю задачу это доказать. Нужно понимать, что ты являешься моим конкурентом в конкурсе, и если ты сфейлишь, для меня ничего страшного.

Я предлагаю избавиться от одного фактора, вмешивающегося в результаты, и сократить их количество до n-1. Ты предлагаешь оставить все n факторов.

1 час назад, DuelAnt сказал:

Я думаю, ты не будешь спорить с тем, что внутри сезона расстановка сил меняется меньше, чем между разными сезонами.

Статистика не работает на основе малой выборки, Доминик. Конечно, я бы хотел, чтобы у нас было 50 или 100 гонок в календаре (на самом деле нет, и так много времени уходит), но мы вынуждены работать с тем календарем, что у нас есть. Сезон - это самая разумная дистанция, которую мы можем брать.

Для 2020 года, думаю, это справедливо, потому что машину толком никому не разрешат модернизировать.

2019 - тоже более-менее стабильный.

В 2018 же обстановка поменялась в течение сезона довольно значительно. Заубер и Макларен в Австралии-2018 отличались от себя версии Абу-Даби-2018 гораздо больше, чем от себя версии Абу-Даби-2017.

Share this post


Link to post
Share on other sites
1 час назад, Dominic Greene сказал:

Что значит, значительного? Ты так кропотливо бьёшься за каждую тысячную в своих коэффициентах (там до 3 знака точность), а в исходных данных тупо забываешь 20%. Я бы понял, если бы твоя формула составляла что-то вроде на глаз "0.6тренировки+0.4 квалы", при таком подходе действительно точность исходных данных того же порядка, что и формула.

Ну что значит "бьюсь"? Что мне регрессия выдала, то я использую.

Опять-таки, если бы мы использовали 0,6 и 0,4 - это тоже не особо много и поменяло бы. Главное не считать, что вес 50 на 50.

Но в целом, конечно, я могу пересчитать сезон-2019, используя проценты вместо секунд, и посмотреть, что изменилось. Когда будет время, конечно, сейчас его категорически не хватает, чтобы совершенствовать модель.

Мой прогноз, что разницы, которая позволяет однозначно сказать, какой способ лучше (в любую сторону), мы не получим.

 

1 час назад, Dominic Greene сказал:

Это не искажение. Твои отставания в практике просто будут меньше. Меньше станут и прогнозируемые отставания в квалификации.

Ты, конечно, полностью не избавляешься от ошибок масштабирования, ты убираешь одну. Твоё предложение: раз уж всё равно не удастся до конца избавиться от фактора трассы, то не стоит избавляться от фактора времени на круге.

Ну как это не искажение? Меньше отставания в практике значит вес практики будет ниже по сравнению с весом предыдущих квалификаций.

Значит, предполагаемые результаты квалификации будут дальше от практики и ближе к предыдущим квалификациям.

Как по мне, ты предлагаешь не избавиться от одной ошибки, а заменять одну ошибку другой. Более масштабной или менее - мы пока не знаем.

Но раз уж мы здесь претендуем на научность, такие вещи надо проверять эмпирически.

1 час назад, Dominic Greene сказал:

Для 2020 года, думаю, это справедливо, потому что машину толком никому не разрешат модернизировать.

2019 - тоже более-менее стабильный.

В 2018 же обстановка поменялась в течение сезона довольно значительно. Заубер и Макларен в Австралии-2018 отличались от себя версии Абу-Даби-2018 гораздо больше, чем от себя версии Абу-Даби-2017.

Это все равно не дает нам более разумной точки отсечения, чем межсезонье.

Как ни крути, результаты внутри одного сезона более стабильны, чем между соседними сезонами. В любом виде спорта.

Share this post


Link to post
Share on other sites

Прогноз модели на квалификацию Гран-при Великобритании

Hamilton 0,000 1
Bottas 0,098 2
Verstappen 0,479 3
Norris 0,909 4
Stroll 0,924 5
Hulkenberg 0,988 6
Sainz 0,990 7
Albon 1,013 8
Leclerc 1,144 9
Ricciardo 1,218 10
Vettel 1,267 11
Ocon 1,318 12
Gasly 1,388 13
Kvyat 1,618 14
Grosjean 2,033 15
Russell 2,091 16
Magnussen 2,132 17
Raikkonen 2,447 18
Giovinazzi 2,457 19
Lattife 2,610 20
Edited by DuelAnt

Share this post


Link to post
Share on other sites

Прогноз модели на квалификацию Гран-при 70-летия

Hamilton 0,000 1
Bottas 0,128 2
Norris 0,825 3
Verstappen 0,866 4
Stroll 0,922 5
Sainz 0,926 6
Leclerc 0,995 7
Hulkenberg 0,998 8
Vettel 1,105 9
Ricciardo 1,187 10
Ocon 1,232 11
Albon 1,232 12
Gasly 1,356 13
Kvyat 1,566 14
Russell 1,886 15
Magnussen 1,954 16
Grosjean 1,982 17
Lattife 2,317 18
Raikkonen 2,381 19
Giovinazzi 2,392 20

Share this post


Link to post
Share on other sites

Вот тут возник первый серьёзный вопрос к модели:

Дело не в Макларене, которого практически никто не ожидал увидеть так низко.

1. Дело в Албоне, которого модель выкинула за пределы десятки

2. Дело в Рено, которую модель поставила позади Сэбушки

 

А Латтифе так писать - признак чтения удаффкома?

Share this post


Link to post
Share on other sites
1 час назад, Dominic Greene сказал:

Вот тут возник первый серьёзный вопрос к модели:

Дело не в Макларене, которого практически никто не ожидал увидеть так низко.

1. Дело в Албоне, которого модель выкинула за пределы десятки

2. Дело в Рено, которую модель поставила позади Сэбушки

 

А Латтифе так писать - признак чтения удаффкома?

Не вижу ничего криминального.

Албон упорно работал на свою зачетку, да и приехал лишь 9-м, на 3 места выше, чем предсказывала модель.

Себушка, в свою очередь, по совокупности смотрится относительно неплохо на фоне Леклера. Уверенно позади, но не как Албон.

Да, конкретно в Сильвере у него полный швах, потому что команда, похоже, окончательно забила на его машину, но модель-то этого не знает. Она помнит и Австрию, и Штирию, и Венгрию. С Оконом вообще удачно получилось, а Риккардо... ну его мало кто ожидал так высоко. Да, получился эдаким джокером сегодня, как и Хюлкенберг.

С тем же успехом можно спросить, почему модель поставила Гасли и Квята рядом, в то время как один из них в первой трети, а другой - в последней.

Но это очевидный факт, что модель не всегда хорошо работает в условиях, когда есть очевидная разница в перфомансе на конкретной трассе между партнерами по команде. 

 

Латифи - да кому он нужен, в конце концов? Все равно лучше, чем Гюлькенберг и Иль.

 

Ах, да, и главный вопрос - что с ВАШЕЙ моделью пошло не так, если вы показали результат еще более плачевный, чем мы?

Edited by DuelAnt

Share this post


Link to post
Share on other sites
3 часа назад, DuelAnt сказал:

Ах, да, и главный вопрос - что с ВАШЕЙ моделью пошло не так, если вы показали результат еще более плачевный, чем мы?

Это только из-за того, что ты поставил Норриса выше Ферстаппена. Благодаря этому Макс встал, куда надо, и ты получил точное попадание + баллы за редкость.

Не произошло ничего из ряда вон выходящего. Когда в квале бардак творится, и решают редкие попадания в кого-то, такое случается. У нас точных попаданий на всю команду - ноль. Ничего, 11 команд впереди на расстоянии в 10 баллов и меньше, упасть ниже будет проблематичнее, чем подняться.

Share this post


Link to post
Share on other sites
1 час назад, Dominic Greene сказал:

Это только из-за того, что ты поставил Норриса выше Ферстаппена. Благодаря этому Макс встал, куда надо, и ты получил точное попадание + баллы за редкость.

Не произошло ничего из ряда вон выходящего. Когда в квале бардак творится, и решают редкие попадания в кого-то, такое случается. У нас точных попаданий на всю команду - ноль. Ничего, 11 команд впереди на расстоянии в 10 баллов и меньше, упасть ниже будет проблематичнее, чем подняться.

Во-первых, это неправда. Даже если не учитывать мой прогноз, два других прогноза Бестовала все равно лучше двух лучших прогнозов Кавки. По факту попадание в Макса принесло нам как команде ровно один балл, поскольку в остальном мой прогноз был хуже, чем у напарников.

 

А во-вторых, ну и что такого?

Это решение я подробно объяснял команде в ходе обсуждения.

Не обязательно быть уверенным, что Норрис объедет Ферстаппена, чтобы ставить ЛХ-ВБ-ЛН-МФ.

Жизнь полна неожиданностей, даже квалификационная ее часть.

Я допускал вариант, что вместо Ландо кто-то другой может вклиниться между Мерседесом и Максом. Хотя скорее думал про Стролла и Леклера, чем про Хюлкенберга.

Или наоборот, что-то случится с одним из Мерседесов, и тогда может получиться что-то вроде ЛХ-МФ-ЛН. Тоже плюс нам.

В этом вся суть вариативности. Не всегда все пойдет точно по плану, но ты можешь получить баллы разными способами.

Так что в этом аспекте мы рискнули и переиграли вас тактически.

 

Но в конечном счете речь ведь идет не о нас и о вас. В конце концов, мы даже не являемся принципиальными соперниками в этом сезоне.

В конкурсе, кроме вас, 21 команда, и 17 из них оказались успешнее сегодня. Ты не можешь про оппонентов говорить: "Возник серьезный вопрос к модели", а в своем случае все сваливать на бардак в квале и невезение. Ваша модель ведь тоже вам что-то подсказывала.

Share this post


Link to post
Share on other sites
9 часов назад, DuelAnt сказал:

Но в конечном счете речь ведь идет не о нас и о вас. В конце концов, мы даже не являемся принципиальными соперниками в этом сезоне.

В конкурсе, кроме вас, 21 команда, и 17 из них оказались успешнее сегодня. Ты не можешь про оппонентов говорить: "Возник серьезный вопрос к модели", а в своем случае все сваливать на бардак в квале и невезение. Ваша модель ведь тоже вам что-то подсказывала.

Дело в том, что вопрос к вашей модели не потому что вы так низко оказались, а потому что:

16 часов назад, Dominic Greene сказал:

1. Дело в Албоне, которого модель выкинула за пределы десятки

2. Дело в Рено, которую модель поставила позади Сэбушки

Иначе бы вопрос был ещё в прошлом Гран-при, хотя там я особых аномалий не заметил. Просто у вас был обычный Гран-при, а нам немножко фартануло.

 

Ну вот, возьмём Стролла. Мы знали его нестабильность, поэтому поставили его на 4, 5 и 7 места. Он взял и приехал 6-м.

Или Албон. Там тяжело было что-то предугадать: мог и в топ-5 заехать, мог и вообще вне десятки оказаться. Мы решили минимизировать потери, и поставить его 7 и 8. Он это увидел и специально квалифицировался 9-м.

Из третьего прогноза мы его убрали, чтобы поставить туда более предсказуемого пилота - Дэна Риччардо, который, учитывая форму машины, железно должен был поместиться между 7 и 10 местом. Он взял, и квалифицировался 5-м.

 

Я, вообще особых различий с нашими прогнозами у вас не наблюдаю. Кроме того, что вы поставили Сэбушку вместо третьего Дэна. И, правда, промах в три на нём принёс больше, чем принёс бы Дэн на той позиции.

Share this post


Link to post
Share on other sites
В 09.08.2020 в 13:37, Dominic Greene сказал:

Дело в том, что вопрос к вашей модели не потому что вы так низко оказались, а потому что:

Слушай, ну про эти вещи всегда легко говорить задним числом.

Что, была прям уверенность, что Албон попадет в десятку?

По сути, претензия к модели заключается в том, что она не копирует слепо результаты третьей практики, что особенно проявляется в определении разницы между партнерами по команде.

Возможно, по мере набора данных коэффициенты изменятся, это неизбежный процесс при создании подобных моделей.

 

В 09.08.2020 в 13:37, Dominic Greene сказал:

Из третьего прогноза мы его убрали, чтобы поставить туда более предсказуемого пилота - Дэна Риччардо, который, учитывая форму машины, железно должен был поместиться между 7 и 10 местом. Он взял, и квалифицировался 5-м.

А вот мы, кстати, по-другому рассуждали и поэтому поставили двух Риккардо и двух Оконов, а не трех Риккардо и одного Окона.

Потому что Риккардо мог и выше залететь, а вот Окон железно должен был быть где-то в районе 10-го места.

Не то чтобы мы ожидали 5-е место Риккардо, но такую вероятность допускали.

Share this post


Link to post
Share on other sites
46 минут назад, DuelAnt сказал:

Слушай, ну про эти вещи всегда легко говорить задним числом.

Что, была прям уверенность, что Албон попадет в десятку?

 

Ну была большая, но не стопроцентная. Плюс к этому, неизвестно куда.

46 минут назад, DuelAnt сказал:

А вот мы, кстати, по-другому рассуждали и поэтому поставили двух Риккардо и двух Оконов, а не трех Риккардо и одного Окона.

Потому что Риккардо мог и выше залететь, а вот Окон железно должен был быть где-то в районе 10-го места.

Не то чтобы мы ожидали 5-е место Риккардо, но такую вероятность допускали.

Ну, мы поставили трёх Риччардо и двух Оконов, потому что считали, что Окон железно будет если не в конце первой десятки, то в начале второй, а Рик должен был, по идее, быть в конце первой десятки. Ну и Сэбушка был довольно ненадёжным вариантом. Мог провалиться (что и произошло), а мог и выстрелить (что было неделю назад, но из-за аннулирования времени он упал на 10 место).

51 минуту назад, DuelAnt сказал:

По сути, претензия к модели заключается в том, что она не копирует слепо результаты третьей практики, что особенно проявляется в определении разницы между партнерами по команде.

Возможно, по мере набора данных коэффициенты изменятся, это неизбежный процесс при создании подобных моделей.

Я бы даже сказал, что претензия в том, что она усредняет результаты прошлых квал и этой третьей практики, тогда как, на мой взгляд, правильнее было бы работать по принципу "или-или".

Share this post


Link to post
Share on other sites
1 час назад, Dominic Greene сказал:

Я бы даже сказал, что претензия в том, что она усредняет результаты прошлых квал и этой третьей практики, тогда как, на мой взгляд, правильнее было бы работать по принципу "или-или".

Да, именно так она и работает. Более того, так работают все модели, созданные по принципу линейной регрессии. Они берут несколько факторов и оценивают вес каждого из них.

 

Что касается "или-или", то во-первых, как мы собираемся определять, когда использовать один фактор, а когда другой?

А во-вторых, чтобы это проверить, нам нужна альтернативная модель, работающая на озвученном тобой принципе.

У меня, что называется, весь алгоритм модели выложен в открытый доступ, в секрете я сохранил только собранные данные.

Поэтому понятно, что изменить этот механизм на предложенный тобой не получится.

 

1 час назад, Dominic Greene сказал:

Ну, мы поставили трёх Риччардо и двух Оконов, потому что считали, что Окон железно будет если не в конце первой десятки, то в начале второй, а Рик должен был, по идее, быть в конце первой десятки. Ну и Сэбушка был довольно ненадёжным вариантом. Мог провалиться (что и произошло)

Провалился - грубо сказано, в конечном счете Себушка принес больше баллов за 10-е место, чем Риккардо.

Наша задача ведь не указать пилотов, которые приедут максимально высоко, а на каждое место поставить пилота, который ближе всего приедет к этому месту.

И в этом контексте в чем ненадежность Себушки? Даже при попадании в Q3 шанс на то, что он квалифицируется в топ-6, был довольно мал. Меньше, чем у Риккардо, как по мне.

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
Sign in to follow this  

  • Recently Browsing   0 members

    No registered users viewing this page.

×
×
  • Create New...