AI・機械学習を中心に

AI/機械学習/データ分析/子育て/日々の雑感

[翻訳]母集団について ~あなたの間違い~

要点抜粋

  • 統計的アプローチはあなたが持っている情報と、あなたが必要な情報に乖離がある場合にのみ採用される
  • 統計的アプローチにおいて母集団に曖昧さがあると、必ず失敗する
  • 母集団の定義は意思決定者の宿題であり、それが完了するまで計算に手を付けるべきではない
  • 法律のバックグラウンドのある人は母集団の定義に強いので、助けを求めるとよい

原文

Cassie Kozyrkov氏記事(2018/9/8)より

hackernoon.com

 

弁護士があなたより統計に強いのはなぜか

統計において、母集団(population)とは、あなたが関心がある全ての要素の集合であり、厳密な意思決定を行うために定義されます。

”あなたは統計を試みるべきでしょうか?”

あなたが母集団が何であるかを明確に定義するまで、その答えは出ません。ファクトに基づくアプローチではなく、統計的なアプローチを採用するのは、不確実性に対処したいがためです。

統計的アプローチは、あなたが必要な情報と、あなたが今持っている情報の間に不一致がある場合にのみ、意味を成します。

言い換えれば、利用可能なデータ(サンプル)は母集団全体をカバーしていないということです。もしカバーしているなら、あなたはファクトを扱っています。ファクトは不確実性より優れています。ファクトがあるならば、統計的な専門性は不要であり、単にそのファクトを伝えればよいのです。ややこしいp値や信頼区間は必要ありません。

不自然な母集団

では、意思決定者が勘違いし続けている古典的なケースをお見せしましょう。

あなたは私と私の友人のために、契約書をレビューしてくれている弁護士だと想像してください。私たちはプロダクトのユーザーにチョコレートの50ドルのバウチャーチケットを配りたいと伝えました。あなたが契約書の中身を見て、バウチャーの対象者がどのような人かが説明されている箇所を読むと、”全てのユーザー”とありました。

ここで何がおかしいでしょうか?

”全てのユーザー”は何を意味するか

”全てのユーザー”が何を意味するかを本当に考える前にこの契約書を公開してしまうと、大変なことになるでしょう。

申込せずに友人のアカウントで製品を使用している人は?彼らは対象になりますか?製品を1秒使用して辞めた人はどうですか?申込せずに過去に友人のアカウントで使用したと主張する人はどうでしょう?将来ユーザーになるが今チョコレートが欲しいと主張している人はどうですか?おそらく私たちはこのチョコレートバウチャーが原因で破産するでしょう。

契約書を承認した弁護士が「おっと、そんなことを考えてもいなかった!」と言ったと想像してみてください。受け入れられません。弁護士がここでしなければならないことはあらゆることを想定し、あなたが書いた事柄が正確にあなたの意味する事柄であることを確証付けることです。抜け穴はありません。誰がチョコレートを受け取れて、誰が受け取れないかを、説明から明確にする必要があります。

混乱を避けるために、内なる弁護士を持ってください。さらに良いのは、外部の弁護士です。

ジャンプでけがしないで

あなたは(1)意思決定が重要であり(そうでなければ、より早いインスピレーションのためにデータマイニングを用いる)、かつ(2)あなたが持っているデータがあなたの関心のあること全てをカバーしていない場合に統計を採用し、それによりサンプルから母集団に向かて大きなジャンプをしようとしているのです。もしジャンプする先の場所を特定することすらできないならば、ジャンプは派手に失敗するでしょう。曖昧さが多少でもあると、あなたの努力全体が無駄になる可能性があり、それは重要な意思決定においては最悪です。

母集団の定義に曖昧さを残しておくと、失敗します

このようなことは明確であるにもかかわらず、私は意思決定者が意思決定をフレーミングする時、「全てのユーザー」としてしまうことを何度も見続けてきました。これはとても杜撰なことです。実際のプロジェクトでは、母集団の説明は、非常に詳細です。意思決定者は、母集団の定義について深く考えることは自分の仕事であると必ずしも認識していないようです。

意思決定者と一緒に働く人へのアドバイス

もし意思決定者がまだ曖昧な母集団の説明をしているならば、意思決定者が宿題をするまでストップしてください。そのプロジェクトはまだ計算に向かえる状態ではありません。

もし意思決定者が深く考えることが彼らの仕事であるということを忘れている場合、思い出させてください

このことは母集団の定義の話を越えています。あなたの計算を役立てる前に、意思決定者が完了させなければならないタスクがたくさんあるのです。意思決定者があなたのデスクに落としていった中途半端な問いを厳密に追いかけて週末を過ごすのは、よくあるルーキーの誤りですが、たいへん多くの新人データサイエンティストが繰り返しそれに陥っています。

意思決定者の宿題が完了するまで、すべての統計の取組みは無意味です。

意思決定者へのアドバイス

リーガルの仲間に助けを求めて下さい。彼らはたいていあなたより母集団の定義について考えるのが得意です。ロースクールではそれを統計的思考とは呼んでいないと思いますが、統計学のPhDプログラムよりも少し詳しく教わっているでしょう。

DIYのケースは、内なる弁護士に頼ってください。自分自身に問いかけて下さい。「これで抜け漏れはありませんか?弁護士はそれに承認の印を押しますか?それとももう少し深く考えた方がいいですか?」

これであなたは母集団について詳しくなりました。あなたは統計通のセルフテストを受ける準備ができました。