ロシアW杯のランキング予想、ドイツ敗退を読めなかったデータ分析の弱点
本記事は、ウェブ解析士協会で公開された英文記事をWeb担当者Forumで編集を加えて出しているものです。
FIFAロシアワールドカップ2018、世界中が熱狂に包まれ、サッカーファンや各国選手にとっては、今は試練の時を迎えている事でしょう。初めまして、ウェブ解析士協会のゲリー・タンです。今回は私から「ちょっとブレイク」なロシアW杯のネタをお届けします。
本記事執筆時点(6/29、決勝トーナメント開始前)では、あれこれ予想を立てている専門家達もいるようですが、これらの予想のうちいくつかはすでに外れているものも見受けられます。
サッカー、世界で最も人気のあるスポーツと言っても過言ではありません。
このような世界的スポーツにおいては、その手の専門家たちのお告げ的な分析予想がいつも飛び交います。
データサイエンティスト、アナリスト、物理学者などの専門家達は、ワールドカップという格好の話題を活用し、ネットやSNSで一瞬の名誉のためにお互いに虚勢を張りあっています。
さらには金融機関でさえ、このある種の場外乱闘に首を突っ込んでいます。
たとえば、スイスに拠点がある金融機関、UBS AG(ユービーエス エージー)は、投資分析に使われるツールを活用し、最終的にはドイツが優勝する確率が高い、という分析予想を挙げています。
FIFAワールドカップ2014のチャンピオンであるドイツの勝率は24%、それ以上に高い勝率で勝ち抜く国は無い、というシュミレーション結果を出しました。しかし、ドイツはすでにGLで敗退しています。
分析技術の活用方法として、スポーツというジャンルは最も困難を伴うものだと思います。
最近では中国語のフレーズで"球是圆的"というものがあり、直訳するとボールは丸いという意味です。形が丸いため、いろんな方向に転がるので、どんな事でも起こり得るということを指します。
専門家がビッグデータをもとに分析したこの結果に反し、実際は予想と全く真逆のものになっています。そこで、いくつかの事例をみてみましょう。
次はドイツが勝利ランキング2位になると予想した専門家のデータで、このレポートは19ドルで売られていました。
ドイツに関しての分析が間違っていますね。さらに日本においては、0.5%の勝率となっています。このデータを見て、どう思いますか?
次に、ドルトムント工科大学の研究者であるアンドレアス・グロール(Andreas Groll)らの分析結果を見てみましょう。
これは機械学習によりランダム樹形図を作成しているのですが、もはや勝率などではなく、ドイツの勝利を確信したというような断定的な結論となっています。しかし、これも前述の例と同様間違っていますね。
アンドレアスと研究チームはより深く踏み込み、それぞれの国の勝率内訳、つまりトーナメントの各ステージ毎の勝率まで算出しました。この予想から見ても、ドイツはやはりランキングトップに君臨しています。
一方で日本は、28位にランクインしています。終わりに近づくにつれ、勝率は0.2%から0%になってしまっています。
これはある意味、各国の技術レベルに基づいたセオリー通りのランキング予想となっているとも考えられます。
しかし、データ分析は選手の技術レベルや感情などを分析に入れ込むことはしないはず。これからこのデータ予想に対して、どのような結果が出てくるのかは気になるところです。
ここで挙げられたドイツの予想について、全てが間違っていると言えるでしょう。ここまでのアルゼンチンのプレイを考慮すると、その勝率はあながち間違いでもないかもしれませんが。
このような状況であればウェブ解析士協会から、専門の分析カリキュラムを、このようなスポーツ分析専門家達に提供すべきかもしれませんね。
冗談はさておき、専門家達の予想に反して日本はかなり健闘しました。(7/3 対戦結果を踏まえて編集部が追記)
データ分析の世界で使われる英語のフレーズ "Slice and dice"、これは属性毎にデータを細かく分けるという意味です。しかし実際にはこの言葉は、業界においてきちんと浸透して使われているものではないのかもしれません。
基本的にデータ分析というものは、商品やサービスの取引において有効に活用できます。見込み客がどこにいるのか、顧客の購入傾向・パターンを掴むことにも役立つものです。もしそのように分析が活用されていなければ、宝くじを当てるかのような、成り行き任せの事業運営になってしまうことでしょう。
スポーツの勝敗は、選手個人の健康状態、雰囲気、チーム全体の努力や、やる気など、様々な見えない要素が試合結果に影響しています。少なくとも現在は機械学習の技術を用いても、それをアルゴリズムに当てはめて正確な勝利予測をするのは難しいものと考えられます。
データ分析はあくまで結果そのものを予測するものではなく、結果の確率を提示するものであるという事は、分析に関わる方々は忘れてはいけないポイントだと思います。
原文(英文)はこちら: https://www.waca.associates/en/articles/data-science-in-the-analytics-of-sports/
ソーシャルもやってます!