グーグルのクラウドを支えるテクノロジー > 第72回 機械学習パイプラインにおける学習データの異常検知システム(パート3)
2019/12/21 8:01
※この記事は読者によって投稿されたユーザー投稿です:
- 編集部の見解や意向と異なる内容の場合があります
- 編集部は内容について正確性を保証できません
- 画像が表示されない場合、編集部では対応できません
- 内容の追加・修正も編集部では対応できません
CTC教育サービスはコラム「グーグルのクラウドを支えるテクノロジー > 第72回 機械学習パイプラインにおける学習データの異常検知システム(パート3)」を公開しました。
###
はじめに
前回に引き続き、2019年に公開された論文「Data Validation for Machine Learning」を元にして、機械学習モデルの学習データに含まれる異常を検知するシステムを紹介します。前回は、データスキーマを用いたデータの異常値検知、および、データの統計値に基づく異常値検知の仕組みを説明しました。今回は、スキーマから自動生成したデータを用いて、モデルとデータの不整合を検知する仕組みを紹介します。
スキーマを用いたテストデータの生成
ここでは、前々回の図1で、「Model Unit Testing」に当たる部分の機能を説明します。一般に、機械学習モデルを開発する際は、モデルに入力するデータの種類について、一定の想定が置かれます。簡単な例で言うと、ある入力値は負の値をとることはない、と言った想定です。このような前提で設計されたモデルに想定外のデータ(先ほどの例であれば、負の値のデータ)を入力すると、的外れな予想結果が出力されるだけではなく、ソフトウェアエラーが発生して予測システムが停止するななどの問題を引き起こす可能性があります。
この続きは以下をご覧ください
https://www.school.ctc-g.co.jp/columns/nakai2/nakai272.html
ソーシャルもやってます!