過去のデータから伊吹山ヒルクライム短縮コースのタイムを予測してみた
2017年の伊吹山ヒルクライムは、短縮コースで開催されることが正式に決定した。そこで、過去のデータから短縮コースのタイムを予測する回帰分析を行ってみた。
伊吹山ヒルクライム短縮コースタイム予測
以前、2015年の短縮コースのタイムからフルコースのタイムを予測する回帰分析に関する記事を書いた。今回の記事はその逆を行う。
ソース
今回の分析で使用したデータは、以下のリンクから入手できる。
- 菰野ヒルクライム
- 伊吹山ヒルクライム(ホビー)
- 伊吹山ヒルクライム(実業団)
以前の記事との違いは、実業団クラスタの結果も反映させたことだ。ただし、外国人選手の表記が英語だったりカタカナだったりと一貫性が無く、年によってバラバラだった。従って、外国人選手のデータはほとんど排除されていると考えて頂きたい。
なお、同姓同名の選手が検出された場合、手作業で対応付けしていると時間がかかるので両名とも分析対象から除外した(3人以上の同姓同名は検出なし)。
伊吹山ヒルクライム2014のデータを用いた解析
まず最初に、伊吹山ヒルクライム2014のデータと伊吹山ヒルクライム2015のデータを用いて回帰分析を行う。2014年と2015年の大会に両方出場した選手1289名を抽出した結果を、図1に示す。
このグラフは、以前の記事で示したグラフの縦軸と横軸を入れ替えたものとなっている。ただし、実業団クラスタのデータが新たに加わっていることに注意されたい。
グラフに記載されている回帰式は時刻のシリアル値を用いた表記なので、秒を用いた式に直すと以下のようになる。
ここで、は短縮コースの予測タイム(秒)、はフルコースのタイム(秒)である。
計算例は次の通りだ。2014年の大会に私は参加していないので、2016年のデータを用いる。まず、自分の持ちタイム47分50秒852を秒に換算して、47 * 60 + 50.852 = 2870.852秒を得る。この数字を、上の回帰式に代入する。
従って、短縮コースの予測タイムは2006.405秒=33分26秒405となった。
伊吹山ヒルクライム2016のデータを用いた解析
次に、伊吹山ヒルクライム2016のデータと伊吹山ヒルクライム2015のデータを用いて回帰分析を行う。2015年と2016年の大会に両方出場した選手1533名を抽出した結果を、図2に示す。
回帰式は次の通り。
計算例は、秒換算したタイム2870.852秒(47分50秒852)を上の回帰式に代入すると、
を得る。従って、短縮コースの予測タイムは1999.573秒=33分19秒573となった。決定係数のR^2値 (= 0.824) が2014年のデータを用いたもの (R^2 = 0.760) よりも良いので、伊吹山のフルコースタイムしか持ってない人はこの回帰式を使った方が良いかもしれない。
菰野ヒルクライム2015のデータを用いた解析
今度は、伊吹山ヒルクライムの直前(2週間前)に開催される菰野ヒルクライムのデータを用いた解析を行う。短縮コースとなった2015年に開催された第3回菰野ヒルクライム2015と伊吹山ヒルクライム2015の両方に出場した選手をフィルタリングした結果、330名を抽出した。その結果を図3示す。
やはり直前に開催されているためか、回帰式の当てはまりがとても良い。以下にその回帰式を示す。
ここで、は菰野ヒルクライムのタイム(秒)である。
2015年における私のタイム28分00秒002を例にしてみよう。まず、これを秒に換算すると28 * 60 + 0.002 = 1680.002秒となり、上の回帰式に代入して、
を得る。従って、短縮コースの予測タイムは1967.095秒=32分47秒095となった。伊吹山ヒルクライムのフルコースを走ったことは無いが菰野ヒルクライムのタイムを持っている人は、この回帰式で予測できる。
伊吹山ヒルクライム2016と菰野ヒルクライム2015の両方のデータを用いた解析
最後に、菰野ヒルクライムと伊吹山ヒルクライムの両方のデータを用いた重回帰分析を行う。菰野ヒルクライム2015のデータと伊吹山ヒルクライム2016のデータを入力として、短縮コースの予測タイムを計算する。菰野ヒルクライム2015、伊吹山ヒルクライム2015及び2016の3大会全てに参加した203名を抽出し、Excel 2016により重回帰分析を行った。その結果を表1~3に示す。
重相関 R | 0.973966 |
重決定 R2 | 0.94861 |
補正 R2 | 0.948096 |
標準誤差 | 0.001284 |
観測数 | 203 |
自由度 | 変動 | 分散 | 観測された分散比 | 有意 F | |
回帰 | 2 | 0.006083 | 0.003041 | 1845.912 | 1.2E-129 |
残差 | 200 | 0.00033 | 1.65E-06 | ||
合計 | 202 | 0.006413 |
係数 | 標準誤差 | t | P-値 | 下限 95% | 上限 95% | 下限 95.0% | 上限 95.0% | |
切片 | 0.00318 | 0.000441 | 7.214698 | 1.1E-11 | 0.002311 | 0.004049 | 0.002311 | 0.004049 |
X 値 1 | 0.816902 | 0.04744 | 17.21963 | 2.35E-41 | 0.723355 | 0.910449 | 0.723355 | 0.910449 |
X 値 2 | 0.105655 | 0.025972 | 4.068092 | 6.82E-05 | 0.054442 | 0.156869 | 0.054442 | 0.156869 |
重決定係数が高く、分散や有意Fが極めて低いことから、このモデルはとても当てはまりが良いことが分かる。また、P値はいずれも0.01以下であるため帰無仮説は棄却される。表より、重回帰式は以下のようになる。
計算例は、菰野ヒルクライム2015のタイム1680.002秒(28分00秒002)と伊吹山ヒルクライム2016のタイム 2870.852秒(47分50秒852)を使って示す。2つのタイムを上の回帰式に代入すると、
を得る。従って、短縮コースの予測タイムは1950.435秒=32分30秒435となった。
まとめ
過去のデータを用いて統計分析を行い、自分の持ちタイムから伊吹山ヒルクライム短縮コースのタイムを予測する回帰式を複数示した。最も信頼性が高いのは、菰野ヒルクライムと伊吹山ヒルクライムの両方のタイムを用いる回帰式であると思われる。
短縮コースになってモチベーションが下がっている人もいるだろうが、予測されたタイムを超えるという目標を持って走ってみるのはいかがだろうか。是非参考にして頂きたい。
最後に
何か間違い等がありましたら、Blogのコメント、Twitterなどでお知らせください。よろしくお願いします。
ディスカッション
コメント一覧
はじめまして。今年からヒルクライムを始めました。統計学的手法が用いられ,とても参考になります。ありがとうございます。
dr.bikeさん、コメントありがとうございます。また、返信が大変遅くなり申し訳ありません。
参考になっているようで嬉しいです。今後もよろしくお願いします。