AI・機械学習を中心に

AI/機械学習/データ分析/子育て/日々の雑感

[翻訳] 機械学習の問題構造化:理解度チェック

原文

developers.google.com

Q1 次のうち、あなたのプロジェクトで機械学習を用いる上で潜在的な問題となり得る事柄はどれでしょうか。

1. あなたは予測しかしない

2. あなたは過去データにアクセスできる

3. あなたは明確なユースケースを持っている

1. を選んだあなた:

正解です。予測だけでなく、意思決定を行いたいのです!あなたのプロダクトでは、MLモデルの出力をもとに何らかのアクションがとられるはずです。機械学習は、インサイトを与えるよりも意思決定を下すことに優れています。

2. を選んだあなた:

間違いです。機械学習は関連するデータからパターンを見つけて、未知のデータに適用することです。つまり、あなたが既存の関連データを持っている(または取得できる)必要があります。

3. を選んだあなた:

間違いです。解決策ではなく、問題から始めましょう。従来型のプログラミングでは解決が難しい問題に焦点を当てましょう。機械学習を問題のハンマーとして扱っていないことを確かめてください。

Q2 教師あり学習を用いる場合、あなたの機械学習問題が十分定義されたと言えるのは、次のどのような状況でしょうか。

1. 入力と出力の両方が明確化されたとき

2. 入力と出力のいずれかが明確化されたとき

1. を選んだあなた:

正解です。明確に定義された問題では、入力と出力の両方が定義されています。入力とは特徴量であり、出力は予測対象のラベルのことです。

2. を選んだあなた:

間違いです。入力または出力のいずれかが欠落している場合、問題が明確に定義されたとは言いません。

Q3 機械学習プロジェクトのスタート時点では、いくつ程度の特徴量をピックアップするとよいでしょうか。

1. 説明性が高そうな4~6個の特徴量

2. 説明性が高そうな1~3個の特徴量

3. 最も予測に有力な特徴量はどれかを確認できるように、できるだけ多くの特徴量をピックアップする

1. を選んだあなた:

間違いです。最終的にはそれくらいの特徴量を使用する可能性はありますが、それでも、最初はもっと少ない特徴量から始めることをおすすめします

2. を選んだあなた:

正解です。データ収集パイプラインは、1~3つの特徴量から始めるのが最適です。これにより、機械学習が問題に対し役立つアプローチかどうかを確認することができます。また、少ない特徴量からスタートしベースラインを構築することで、前進しているように感じられるでしょう。

3. を選んだあなた:

間違いです。小さく始めてください。スタート時の特徴量が多いと、何の特徴量が機能しているのかを確認することが難しくなります。特徴量を少なくすることで、不要な複雑さを回避することができます。

Q4 機械学習の問題を定義する前に、データを収集して相関関係の探索を行うべきでしょうか。

1. NO

2. YES

1. を選んだあなた:

正解です。既存のデータダンプから相関関係を見つけ出すのは困難です。見つかった相関関係は偽物の可能性があります。これは、膨大なデータがあり、リアルタイム検証ができる場合のみ、おすすめします。

2. を選んだあなた:

間違いです。注意してください。十分に実験をすれば、役立ちそうなものが見つかる可能性はありますが、それが予測で役立つ(もしくは、実際の現象である)という保証はありません。