AI・機械学習を中心に

AI/機械学習/データ分析/子育て/日々の雑感

[翻訳]AIの間違いは誰のせい?

要点抜粋

  • 効果的で信頼できるAI/機械学習ソリューションを構築する方法は、そのソリューション自体にあなたを納得させること
  • 適切なデータでテストされていないAI/MLソリューションによる間違いは、それを使用した人のせい
  • AI/MLシステムの通常システムと違いは、AIには”指示”ではなく”例”を元に人の要望を教えるという点
  • 盲目的な信頼を防ぐチェックリスト
    ①テストをしないなら、信頼するな
    ②[特定の環境]においてテストをしないなら、[特定の環境]において信頼するな
    ③[特定のユーザ属性]においてテストしないなら、[特定のユーザ属性]において信頼するな
    ④[特定のデータ]においてテストしないなら、[特定のデータ]において信頼するな
    ⑤入力が異常な場合は、システムが適切なものを出力すると信頼するな。外れ値の検出とセーフティネットの使用を検討すること(人間がレビューするための異常フラグを立てる、など)
  • 安全性が確認されないツールを使用して混乱を招いたならば、それはあなたの責任です。AIは他のツールと同じ

原文

Cassie Kozyrkov氏の記事(2018/11/10)より

towardsdatascience.com

誤解しないでください。私は機械学習とAIが大好きです。しかし私はそれらを盲目的に信頼しておらず、あなたもそうすべきではありません。なぜなら効果的で信頼できる機械学習/AIソリューションを構築するための方法は、ソリューション自体にあなたの信頼を獲得させることだからです。

(この記事の多くのアドバイスは他のデータからのインサイト機械学習/AIを用いないモデルにおいても当てはまります。特に一番最後のパラグラフ)

盲目的な信頼は酷いこと

この話はロボットやSFと関係はありません。機械学習やAIは人間らしいものではなく、それは単なる便利な”モノのラベラー(ラベル付けをするもの)”でしかありません。そのかわり、それが信頼できないことは完全に別のものに起因する問題です。お馴染みの例を見てみましょう。

理想的なシーンの設定

猫の写真を2グループ(猫A、猫B)に分割する例でお話しします。驚くべき魔法のような機械学習システムによって、正確に猫を2グループに分割することに成功しました!

猫検出器?それとも冷房検出器?

新しい例(新規データ)を用いたテストは役立つと言われているので、その方法で問題があるかどうかを見てみましょう、、、どうやらこのシステムは猫Bの背景だけに常に映り込んでいた冷房を検出し、冷房があれば猫B、そうでなければ猫Aとするようです。このシステムは実は、冷房検出器であり、猫検出機ではありませんでした。

もし猫Bは常に冷房の前にいて、猫Aはそうでないなら、何の問題もありません。

しかしもし他のアパートに引っ越しをして、そのままこのシステムをつかったらどうなりますか?その場合、返されるラベルは常に猫Aになり、猫A/猫B検出器に依存するミッションクリティカルなシステムはクラッシュしてしまいます。

誰のせい?

簡単な原因追及をしてみましょう。

  • AIの一般的な問題として、ピクセル画像をラベルに変換するレシピ(モデル)は複雑すぎて、人間の頭では理解できない
  • 私が観察でいるのは入力(ピクセル画像)と、出力(猫A/猫Bのラベル)だけ
  • 私は人間なので、猫Bと冷房が常に同じ場所にあるという事実には気づかない
  • 入力(ピクセル画像)が出力(猫判定ラベル)にどのように関係しているかについての私自身の説明はあまりに単純化されすぎているだけでなく、希望的観測に基づく思考(確証バイアス)によって歪められている
  • 機械学習/AIが確実に機能する限り、どのように機能しているかを理解する必要はない
  • それが機能するかどうかを確認する方法は、これまでに見たことのない例(新データ)でどのように機能するかを評価すること

あなたは、どのように機能するか知らなくても多くのものを信頼します。例えば、私たちが頭痛を抑えるために飲む頭痛薬など。それは機能しますが、科学的にどのように機能するかは説明しません。重要なのは、頭痛薬が機能することを確認できることです。

頭痛の治療法と同じように、複雑なAIシステムについても考えてみてください。それらが機能することを確認できれば問題ないのです。さぁどのようなことが分かったでしょうか?

  • 残念ながら、動作させたい例(データ)において、希望する動作とは異なるパフォーマンスが確認された

システムが適切に適切なデータでテストされる限り問題ないのです。つまり、これは人間のせいです。

もしあなたがあるジョブに対しシステムをテストし、別のジョブにシステムを適用したならば、何が期待できますか?

学生に学んでもらいたい内容をカバーせずに授業とテストをしていたら、後で混乱が起こっても何も驚くことはないでしょう。もし私の例(学習データ)が猫A/猫Bが行ける範囲の場所におけるデータだった場合、その分類器に期待できるのはその範囲内で機能することです。もしそのアプリケーションがそれが生み出された範囲の外に適用される場合、そのアプリケーションにあまり大きな期待を寄せない方がいいでしょう。「おっと、私はそのシステムが意図された条件の外では機能しないとは知りませんでした」という言い訳は通用しません。

そのため、ゴールとユーザーを最初から思い描いておくことが非常に重要です。スペックと設定を事前に設定し、責任ある大人な人に責任者となってもらってください。

もし重要なことが懸かっているなら、無関係なデータセットをクールなバズワード(AI)に投げ入れるだけではいけません。

熟練した責任あるリーダーシップが無いにもかかわらず、そのアプリケーションに健康、安全、尊厳、将来がかかることがないことを願っています。

魔法ではない、常識的な通念です

私は「データ」の代わりに「例(examples)」という言葉を使用してきました。それらは同じものですが、これは魔法ではないということを示すためです。機械学習/AIのポイントは、指示ではなく例を使ってあなたの希望を表現することです。それが機能するために、例は関連性がある必要があります。タスクが複雑であればあるほど、たくさんの例が必要になります。あなたはおそらくその例を使って毎日コミュニケーションをとっているでしょう。ですからそれを良く知っているはずです。もしかしたらあなたは数学的理論によりAIが何か違うことをすると考えていたかもしれません。しかし、そんなことはありません。あなたの常識的な通念が最良のアルゴリズムだったのです。

もしあなたが例を用いて教えるのなら、例が良くなければなりません。
もしあなたが生徒を信頼したいなら、テストが良くなければなりません。

盲目的な信頼は酷いこと

以下のリマインダーを常に手元に置くと良いでしょう。

  • テストをしないなら、信頼するな
  • 特定の環境]においてテストをしないなら、[特定の環境]において信頼するな
  • 特定のユーザ属性]においてテストしないなら、[特定のユーザ属性]において信頼するな
  • 特定のデータ]においてテストしないなら、[特定のデータ]において信頼するな
  • 入力が異常な場合は、システムが適切なものを出力すると信頼するな。外れ値の検出とセーフティネットの使用を検討すること(人間がレビューするための異常フラグを立てる、など)

安全性が確認されないツールを使用して混乱を招いたならば、それはあなたの責任です。AIは他のツールと同じです。

 

[翻訳]説明可能AIをつくれない理由

要点抜粋

  • あなたがAI/MLを雇う理由は、そのタスクが明確な指示に落とすことが難しいほど複雑だから
  • AIアルゴリズムはその圧倒的な記憶容量で複雑なタスクの指示を例(=データ)から学ぶ
  • そのようなAIモデルはロケットのように複雑な機構で機能するもの
  • あなたはその複雑な機構について詳細な説明書が付いたロケットに乗りたいか、それとも説明書はついていないが何度も宇宙飛行を成功させているロケットに乗りたいか
  • AIの信頼性を担保するための方法は適切にデザインされたテスト
  • ただし、もしインスピレーションの抽出したいアプリケーションならば、もちろんAIの解釈可能性が必要になる
  • どのアルゴリズムを適用するかの問題であり、それはプロジェクトのゴールから問題がフレーミングできていればおのずと決まるもの
  • 説明性の話を持ち出すのは、多くは研究者など、具体的なビジネス(プロジェクトの目標)が明確になってない汎用ツールを作ることであり、彼らの潜在顧客にソリューションのいいところを並べ立てたいというモチベがある
  • 人間による説明も、正しいわけではない。それは後付けで都合のよい単純化された説明を作っているだけ。そのレベルならアナリティクスによりAIでも可能
  • 解釈可能性と性能は原理上トレードオフ
  • 複雑な解決策を必要とするタスクに対する支援としてのAIであるにもかかわらず、そこに説明可能性・シンプルさが求められるならば、そのような複雑なタスクは存在してはならないということを意味している

原文

Cassie Kozyrkov氏記事より(2018/11/17)

medium.com

説明可能AI(XAI)は最近大きな注目を集めており、AIと信頼に関する議論の中で魅力的に感じることもあるでしょう。もしそうなら、悪いニュースです。XAIはあなたが望んでいるようなことは提供できません。そうではなく、不完全なインスピレーションの源を提供するだけです。

複雑さが全ての根源

非常に複雑で明示的な指示を与えることで自動化できないタスクがあります。

AIは非効率な事柄を自動化するためのものですが、その非効率な事柄をあなたが理解するのがたやすいと期待しないでください

AIを利用するポイントは、たくさんの例を教えることで、あなたが明確な指示を練り上げることに頭を悩ませることを回避できることです。それはAIアルゴリズムがやってくれます。

理解できないことは信頼できない

あなたがモデル(=レシピ/指示書)を手作りできなかった―それは複雑すぎるから―ものを自動化できるようになりました。AIが作り出したモデルを読み解いて完全に把握したいと本当に期待していますか?うんざりするような数百万の項目を含むレシピ(=AIモデル)はコンピュータには簡単に覚えることができますが、人間の記憶容量は簡単に圧倒します。

では、その複雑なものを読み解いて、それがどのような判断をしているのかを理解できなければ、なぜ私たちは信頼できないのでしょうか。

 

f:id:eureka-me:20210717072252p:plain

引用:https://www.publicdomainpictures.net/jp/index.php

 2つのロケットから、あなたが搭乗するものを選択することを想像してください。ロケット1は、それがどのように機能するかを説明する正確な方程式が付いていますが、実際に飛行したことはありません。ロケット2はどのように機能するかは謎ですが、広範囲にわたるテストがなされ、あなたがこれから行うような飛行は何年にも渡って成功してきています。

どちらを選びますか?

これは哲学的な問いなので、私が答えを出すことはできません。しかし私の個人的な好みとしては、信頼できるものとして慎重なテストがされた方を選びます。

システムを注意深くテストし、想定通り機能することを確認する―これで安全を保つことができます

より良い信頼の担保の方法としてのテスト

生徒に微積分を学んでもらいたい場合、教科書に載っている計算例を超えて、一般化して理解してもらいたいのです。生徒の微積分の能力をどのように確認しますか?

どうか生徒の脳をつついて彼らがどのように微積分を解いているのかを見ようとしないでください。これはモデルを解釈しようとすることと同じです。当然あなたは人間の脳がどのように微積分を実行しているのか知らないでしょう(そもそも神経科学自体が電気化学的なシグナル伝達を説明できないため)。しかし、それは問題ありません。とにかく、そのやり方は最良の信頼の担保の仕方ではありません。

丸暗記をあぶり出し、学生が条件に対応した計算を行っていることを確認するための試験を作りましょう

かわりにやるべきことは、慎重に試験をデザインすることです。学生が試験にパスすれば、資格があるということがわかるようにするのです。これはAIにおけるテストが意味することとほとんど同じです。

オーバーフィッティングをあぶり出し(全く新しいデータを使用することが、やっかいな丸暗記を阻止するための最良の方法です)、学生(AI)が実行しなければならない環境と関係するようにテストを作成する必要があります。応用AIの専門家や、厳密な統計的検定も真剣にそれを行っています。

説明可能AIについて話しましょう

私は解釈可能性、透明性、説明可能性が重要でないと言っているわけではありません。それらはアナリティクスの範囲です。

 多くのAIの解釈可能性の議論においては、議論参加者はデータサイエンスの異なる応用領域について、誤解をしています。彼らは根本的に異なるアプリケーションに関心があります。

もし関心があるアプリケーションにインスピレーションの抽出が含まれる場合、言い換えればAIによる発展的アナリティクスの場合、その時にはもちろん解釈可能性が必要になるでしょう。インスピレーションを得るためにブラックボックスは利用できないでしょう。

もしあなたが高度なアナリティクスからインスピレーションを得たい場合には、それはパフォーマンスが最も重要な安全で信頼性の高い大規模な自動化システムの構築とは異なる目標です。もしプロジェクトにおいて本当にその両方が必要な場合、2つの目標をブレンドすることはできます。しかしその場合、それぞれ個々の目標における達成度は、1つの目標に絞って行った場合よりも悪くなる可能性があります。不要なものにはお金を払わないでください。

全ては、どのようにアルゴリズムを適用するかということに煮詰められます。もしプロジェクトのゴールの観点から議論をフレーミングできていれば、そこに議論の余地はありません。

多くの場合、主張する人は研究者です。彼らの仕事はビジネスプロジェクト(もしくはプロジェクトの目標)がまだない汎用ツールを構築することです。そのため、ジャガイモの皮むき器を売る営業担当のように、オーディエンスに彼らの製品のいいところを褒めたたえたいというモチベーションがあります。たとえオーディエンスに調理をするニーズがなかったとしても。「このジャガイモの皮むき器が必要」というのは、全ての人に当てはまるわけではありません。それはプロジェクトによって異なります。解釈可能性やXAIにおいても同じことが言えます。

カニズムへの興味

何がどのように機能しているのか(メカニズム)自体に興味があるのなら、それはあなたがSTEM教室で訓練された研究本能でしょう。それはあなたが新しい学生、新しい頭脳、新しいロケット、新しい電子レンジを作るのに役立ちます。

自分がどのAIビジネスに携わっているかを知らないことから、たいてい混乱は生じます。研究者向き(より良いロケットを作る)の議論は、AIを適用する(既存のロケットを使用して問題を解決する)人にはほとんど意味がありません。

応用データサイエンスでは、メカニズムへの愛着はアナリストにとって大きな本能です。何がどのように機能しているかを知ることで、潜在的な脅威や機会が明らかになる可能性があります。インスピレーションを得るためにデータマイニングしている場合、昨日のごみ箱にあるすべてのブラックボックスを取り出してみてください。

残念ながら、あなたの目標が性能の追求である場合、その研究本能はあなたを戸惑わせることになるでしょう。

人間のよくあるナンセンス

信頼の前提条件としてメカニズムの説明を要求する人が多くいます。彼らはAIに対して膝をついて、「もしそれがどのようにやっているのかが分からない場合、意思決定において信頼することができません」という反応を示します。

もしあなたがプロセスが理解できないものに意思決定をゆだねることができない場合、全ての人間労働者を解雇した方がいいでしょう。なぜなら、脳(1000億個のニューロンがある!)がどのように意思決定を下すか、だれも知らないからです。

AIが超人的な水準を持つこと

モデルレベルで人がどのように決定を下したかについての解釈が必要な場合、脳細胞レベルの電気信号と神経伝達物質における答えのみがその要求を満たします。化学物質とシナプスの観点から、お茶の代わりにコーヒーを注文した理由を説明している友達はいますか?もちろんいません。

かわりに、人間は他のことをします:情報と彼らの選択を調べて、後付けで全てを意味付け/説明しようとします。これは本質的にXAIですが、人間による説明が常に正しいとは限りません。行動経済学者は被験者(被害者)に意思決定を植え付けて、被験者が決定を下した”理由”についての誤った説明を聞くのを楽しんでいるのです。人間が下した意思決定に対し、後付けで都合の良い単純化されすぎた説明を作る程度ならば、どんなモデルであっても、常に同じレベルの説明を加えることができます(すなわち、モデル非依存的)。単にデータのインプットとアウトプットを見て、楽しい話をすればよいのです。これが私がアナリティクスの範囲だといった理由です。

あなたの説明は、真実より単純化されている場合、厳密には嘘です。それはインスピレーションを与えるかもしれませんが、セーフティネットよりセーフティブランケットに近いかもしれません。

アナリティクスの工程を組み込むことは、余裕があるならばよいアイディアです(しかし覚えておいてください。くれぐれもあまりに真剣に受け止めないように)。XAIに関するより賢明な取り組みは、入力と出力に関するアナリティクスです。もちろん、”データを眺めて、正しいかどうかをチェックする”という古典的な良い方法は、目新しい方法のようにも聞こえます。私が問題と感じている唯一のことは、それが信頼性を担保するものとして売られているということです。XAIは多くの良い点がありますが、それが信頼性の議論で呼び出されるのは、とても悪い点です。説明は常にひどく単純化されているので、真実とはなり得ません。

 説明性は”なぜか”についてのマンガのスケッチは提供しますが、意思決定を”どのようにするか”についての情報は提供しません。マンガのスケッチをインスピレーション以上のものとして捉えるのは安全ではありません。そしてXAIが担保する信頼は、巨大なパズルのうちのいくつかのピースが担保する信頼のようなものだと覚えておいてください。

テストなしのアナリティクスは、偽りの安心感への片道切符です

しかし、AIモデルが解釈可能性があり、かつ、データで何が起きているかにフォーカスしていないということについて戻りましょう。それは言い換えれば、コーヒーをどのように選んだかを説明するために、あなたの脳の1000億の細胞の機能を理解したいと思っていることに相当します。

なぜ両方得られないのか?

完璧の世界では、完璧の性能と解釈可能性が求められますが、通常現実の世界では選択を余儀なくされます。完全な性能と解釈可能性の両方を得られるようなタスクを私たちが何と呼ぶか知っていますか?シンプルで簡単、そしておそらくそれはAI無しで既に解決されています。

それでは、複雑で理解が難しいタスクについての話をしましょう。あなたの脳がそれをどのように行うかをあなたに言わずに進化してしまったものです。そもそもAIに頼らざるを得ないもの。それらについては、次のいずれかを選択する必要があります。

  • 解釈可能性(Interpretability):あなたはそれを理解できるが、それほどうまく機能しない
  • 性能(Performance):あなたは理解できないが、うまく機能する

説明性(Explainability)はモデル非依存的となり得るので、時間とエネルギーがあれば、別プロジェクトとして取り組むことはできます。ただし、真のモデルの解釈可能性(Interpretability)は、タスクに複雑な処理が必要な場合にはパフォーマンスを低下させます。

もしパフォーマンスが最も重要な場合には、単純な人間の脳が理解できるソリューションにまで制限しないでください。あなたはあなたの非効率を自動化したいのです。重要なことは、実際にはネズミの巣のように複雑な解決策となり、モデルを理解できないようなタスクも存在するということです。せいぜい、アナリティクスで単純化しすぎた形で知ることはできるでしょう。

ソリューションを、単純な人間の頭で理解できるようなものに限定しないでください。

タスクを高い性能で本当に成功させるには、解釈可能性(Interpretability)は手放さなければなりません。

モデルを解釈可能にすることを要求することは、いわば、ショウジョウバエよりも低能な支援者を要求するようなものです。ハエがあなたを助けられることはそれほど多くはありません。

その代わりに、システムが実際に機能していることを確認することで信頼性を担保する方法を選択してください。

もちろん性能と解釈可能性の両方得られることは素晴らしくあなたの望み通りに得られるようなシンプルなタスクもあるでしょうが、もしどちらも得られないとしたら、最も重要なものに向けてまっすぐに進むのがベストではありませんか?それが良く練られたテストにおける性能の確認です。

カニズムを求める傲慢さと危険性

信頼性の担保の方法としてメカニズムを求める人はいるでしょう。彼らは、メカニズムについての説明書きを読んだ、テストされていないロケットを選んだということです。

傲慢でないことが私たちを良くするように、メカニズムを求めることが性能を低下させるということは認識する価値があります。何がどのように機能するかについての情報を求める人々は、複雑なメカニズムが期待される性能に飛躍する彼ら自身の能力を過度に信頼しているのかもしれません。

人生の全てのものが単純ではない

一言で言ってしまえば、複雑な解決策を必要とするタスクでは、単純な解決策では通用しないため、AIは複雑な解決策で救いの手を差し伸べています。複雑なことを単純にしたいと願っても、そうはなりません。本質的に複雑な事柄がシンプルでなくてはならないと法律に書いてあるのなら、それはあなたがその事柄は存在してはならないということです。(そして時にそれがベストな解であることがあります。)

 

f:id:eureka-me:20210719161457p:plain

引用元

AIアルゴリズムが手書きのコードよりも複雑な解決策を作れるのはなぜか、それはコンピュータは10億の例を、人間ができない方法で完全に記憶(ディスクに保存)することができるので、人間のようにニュアンスをあいまいにすることはありません。それは百万行の指示書を欠くことに飽きることもありません。コンピュータのメモリは新しいものではないですが、現代の計算処理能力で大規模に行うことができます。あなたの頭には人間の記憶に収まる数千年の歴史を持つシンプルなレシピがあったかもしれませんが、今度は新しいものに目を向ける時が来ました。それらは簡単に説明することはできません。それに慣れるのが一番です。

[翻訳]仮説検定を一言で言うと

原文

Cassie Kozyrkov氏の記事より(2019/1/12)

medium.com

 全ての仮説検定—統計学の授業からPhD認定試験まで、―は一つの文に集約されます。以下がその魔法の呪文です。

”集められた証拠により、私たちの帰無仮説は馬鹿げていると見えるだろうか?”

これが全てです。一つ優しい例を見てみましょう。もしこの例が十分に優しいと感じないならば、こちらを読んでください。

エイリアンによる仮説検定

あなたは究極の冒険にたった今選ばれました。エイリアンが住んでいる惑星を探すことです。残念なことに、すべての夢のような仕事と同様、、、マネージャーがいます。有害なあなたのマネージャーは、あなたにかなり貧弱なユーザーインターフェースを与えました。YES・NOの2つのボタンが付いた装置です。

 

f:id:eureka-me:20210715143335p:plain

入力はこれだけ。エイリアンがいればYES、いなければNO。”多分”やコメント、但し書きを付けることはできない

 さらに悪いことに、あなたのマネージャーはあなたに惑星全体を探索するための予算を与えていません。あなたができることは、着陸し、方向を選択し、酸素供給が不安定なるまで歩き続けたら、戻ってYES/NOのボタンを押すだけです。大きな惑星に着陸するだけで、タンク内に十分な酸素がないために、不確実性に直面することになります。本当の答えが何なのかわからなくなる可能性があるのです。

Step1: デフォルトアクションは何か?

全ての仮説検定は同じところから始まります。意思決定者がデフォルトアクションを決めることです。これは、もし証拠を調べない場合に実行することをコミットしているアクションです。別の言い方をすれば、この惑星に着陸すらしない場合には、YES/NOのどちらを押しますか?

これは正解が1つに定まる問いではありません。これはMBAレベルの質問であり、宇宙探査会社の政治に大きく関係します。したがって、両方の可能なデフォルトを試してみます。もしあなたがほとんどのリーダーと考えが似ていれば、おそらくNOボタンをデフォルトで押すでしょう。最初にNOボタンで考えてみましょう。

デフォルトアクション:NOボタンを押す

Step2: 代替アクションは何か?

代替アクションは、デフォルトでない場合に実行するです。

代替アクション:YESボタンを押す

私のガイドラインを読むとわかるように、YESを押すことになる唯一の方法は、証拠により、NOを押すことが馬鹿げていると感じさせる場合です。

Step3: 帰無仮説は何か?

あなたは惑星に着陸したばかりで、以下のように自問します。

「この惑星について全てを知っていたら、どのような状況でNOボタンが満足のいく選択になるか?」それは、この惑星にエイリアンがいない場合。そうです、それが帰無仮説(H0)です。

H0:その惑星にエイリアンは存在しない

Step4: 対立仮説は何か?

対立仮説(H1)は、帰無仮説がFalseの場合にTrueになる全ての事柄です。

H0: その惑星にエイリアンは存在しない

H1: その惑星にエイリアンが存在する

これで仮説を立てて、いくつかのデータを収集して分析する準備が整いました。

データを収集する

 あなたは宇宙船を着陸させ、おりて、ある方向に3時間歩き続けて、後ろを振り返ります。この過程であなたはエイリアンを、、、発見しませんでした。

統計:エイリアン0体

何か面白いことを学びましたか?

私がライブ授業でこれについて教えるとき、典型的な反応は、「3時間の探索でエイリアンは観察されなかった」です。しかしそれは、私たちがどのように意思決定をフレーミングしたかを考えると、微妙に間違った回答です。

意思決定をどのようにフレーミングするかが重要です。すべての決定事項において、統計学の授業で教えられているアプローチが役立つわけではありません。

古典的な統計に従事することで、私たちは母集団だけに関心があるという契約に合意することになります。それは惑星全体の表面であり、3時間の探索による小さなサンプルではありません。

サンプルの統計:3時間の探索でエイリアン0体

母集団のパラメータ:惑星全体でエイリアン?体

もしあなたがアナリティクスに取り組んでいるならば、今観察されたこの小さいな擬似事実に興奮しているかもしれません。しかし私たちは今ここで統計を行っており、したがって惑星全体について有益でない情報は、定義上無意味です。私たちは、エイリアンが惑星上に存在していないからエイリアンを見なかったのか、岩の下にいたためにエイリアンが見られなかったのかは、判断できません。私たちにはこれら二つの可能性を判別する方法はありません。では、もう一度試してみましょう。答え合わせです。ここで何か私たちが関心があることが得られましたか?

ここで私たちは何も私たちの関心があることを得られていません。

驚くべきことです。ここで何が起こったのかわかりますか?私たちはただデータを分析して、私たちは(正しく!!)データ以上のことを学びませんでした。さぁ、私と一緒に行ってください:私は何も学びませんでしたが、私はそのことに自信を持っています。

仮説を検証するたびにデータを超越したことを学んでしまうとあなたは愚かなことを学んでしまいます。そのため、何も学ばないという習慣を身に着ける必要があります。

信頼区間やp値といったものを含む統計的推論を行う場合、何も学習しないということはとても良いことです。

これはアナリティクスではない!

統計学の領域に足を踏み入れているのに、もしかしたらあなたはアナリストのように考えているかもしれません。

アナリティクスはここに存在するものに関心がある一方、統計はここに存在しないものに関心があります

だれもがアナリティクスをやる資格があります。純粋にデータを見て、見えたものをまとめるのです。「このスプレッドシートにファクトがあります。エイリアンは観察されませんでした。」アナリティクスではあなたの関心の範囲は目の前のデータであるため、毎回興味深いことを学ぶことができます。しかし、アナリティクスには1つの黄金ルールがあります:”データに忠実になり、データを超えたものを見てはならない”。そのルールを守った安全な範囲においては、データをいかに素早く扱うかで卓越性が測られ、唯一の誤りは統計に乗り入れてしまうことです。データの外側には恐ろしいものが潜んでいるのです。

自らを傷つけずにデータを超えたものを見るには異なるマインドセットが必要であり、それが統計がアナリティクスよりトリッキーである理由です。哲学を理解せずに数学だけを振り回しているカウボーイを何と呼びますか?”自分や他人への危険”

未知なものと戦うためには、些細なことが重要になります

データを分析するときはいつも、事実を超えた洞察をする責任を負っていると感じる人がいるようです。もし既知のことから未知のものへの大きな飛躍をしようとしているなら、それが簡単であるはずはありません。

仮説を検証するたびに毎回何かを学ぼうとすると、愚かなことを学ぶことになります。統計を行う際は何も学習しないという可能性を受け入れる必要があります。

統計は不確実性の元であなたの心を変えるための科学です。証拠が馬鹿なことだと主張することに固執することが馬鹿げていると感じたら、私たちは考えを変えます。それが、最初に述べた仮説検定のコアの質問に要約される内容です。

収集した証拠により、あなたは帰無仮説を馬鹿げていると感じますか?

エイリアンデータの分析

先ほどのエイリアン探索の例に戻ります。探索ではエイリアンは見られませんでした。私たちの帰無仮説は、「惑星上にエイリアンはいない」というものでした。さぁ、仮説検定の質問に対する答えはなんでしょうか?集めた証拠は帰無仮説が馬鹿げていると感じさせますか?そんなはずはないでしょう。サンプルにエイリアンがいないことは、エイリアンが惑星に存在しないことと一致しています。

では今度は、探索で下の緑色のやつを見たとします。

f:id:eureka-me:20210716115434p:plain

引用:https://www.publicdomainpictures.net/jp/index.php

もしそれがエイリアンだとしたら、私たちは何を学んだのでしょうか?私があなたにこのエイリアンを観察したといった後に、でも私はこの惑星にはエイリアンはいないと思うと主張したら、あなたは馬鹿だと思うでしょう。

そうです、この証拠は帰無仮説が馬鹿げていると思わせます。さぁ帰無仮説を棄却しましょう!

巧妙に2つの仮説を設計してすべての可能性をカバーするようにしていたため、一方を拒否するともう一方を受け入れるようになります。善良な頻度論者として、私たちは惑星について何も知らないとしてスタートしました。私たちは惑星にエイリアンが存在するかについて、好ましい方の意見は持っていたかもしれませんが、しかしそれは考えてはなりません。

 

f:id:eureka-me:20210716134828p:plain

エイリアン探索の仮説検定

馬鹿げていると感じるなら棄却!

証拠がテストの質問が馬鹿げていると感じさせるならば、その馬鹿馬鹿しい帰無仮説を放棄し、対立仮説に沿った結論を出しましょう。デフォルトアクションを実行するのは馬鹿らしいと感じたので、別のアクションに切り替えてYESボタンを押します。私たちは惑星全体についての知識「その惑星にはエイリアンが存在する」を獲得しました!

馬鹿げていると感じないなら、何も学ばない

テストの質問に「NO」と答えたらなら、統計学の授業では次のようなバラードを歌うように習います。

帰無仮説を棄却できず、この惑星にエイリアンが存在することを裏付ける統計的証拠が不十分だと結論付けました」

この表現の唯一の目的は、生徒の手首に負担をかけることだと私は考えています。私は学部生にそのまま書くことを許可していました。

「私たちは何も興味深いことを学びませんでした」

お疲れ様!あなたは何も学びませんでした!

何も学ばないことは悲劇的だと感じるでしょう。私たちは努力してデータを集めデータを分析しました。そこで得られたものは何もないって?!しかし悲しみに耽る前に、私たちは物事について知るためにここにいるわけではないということを思い出してください。私たちは意思決定のためにここにいます。私たちのゴールは知識の獲得ではなく、賢明な行動の選択です。さぁ、ボタンを押しましょう!

実際、意思決定においてはこのフレームワークはかなり頑健です。私たちのデフォルトアクションは、何も学ばなくても大丈夫な保険的なポリシーに基づいています。

この推論のゲームに参加することで、私たちは無知の元でデフォルトアクションを取ることに不満はないと宣言しています、、、そうでないならば統計に頼るべきではありません。デフォルトアクションがないならば、このフレームワークは意味がありません。

デフォルトアクションはNOボタンを押すことでした。そのため帰無仮説を棄却できなかった場合は、これを実行します。考えを変える理由がないので、私たちは不満なく行動を行います。

帰無仮説を棄却しなかったからといって、ここにエイリアンがいないということを私たちが信じているわけではありません。エイリアンが見つからなかったと言って、ここに存在しないと結論付けるのは馬鹿だと思います。5分アパートの鍵を探しても見つからなかったとしても、私のアパートに鍵がないという意味ではないでしょう。それが意味するのは私はそれがどこにあるか知らないということです。それは違います。

考えを変えるほどの理由が存在しないならば、計画通りデフォルトアクションを行いましょう。それは正しいアクションですか?

要約すると、仮説検定のゲームは収集した証拠が帰無仮説をばかげているように見せるかどうかを判断するということです。全ては証拠に照らして考えを変えることに関して、私たちがどう感じるかに掛かっています。

[翻訳]仮説から始めるな ~統計学の授業で学ぶ嘘~

原文

Cassie Kozyrkov氏の記事より(2018/12/1)

towardsdatascience.com

 

仮説検定の設定は社交ダンスです。そのステップはaction-action-worlds-worldsです。素敵なフォックストロットのリズムがあります。残念ながら、多くの人は間違った足から始めてしまうことで失敗してしまうのです。正しいダンスの仕方は以下の通りです。

Step1: デフォルトアクションを書き出す

統計は不確実性の中であなたの考えを変えるための科学です。したがって、最初のステップは、データによる説明がない場合に、あなたが何をしようとするかを理解することです。

もしあなたが無知のままならば、あなたは何をするとコミットしますか?

そのため、(追加の)証拠を収集しない場合、あなたが実行することをコミットする行動/意思決定から始めます。これをデフォルトアクションと呼びます。

スタートするとは、行動することであり、考えることではありません。

私があなたに尋ねているのは、「あなたが情報を知らないままだったならば、実際にどのような行動をしますか?」ということです。

「データを集める」は適切な答えではありません。もし、今すぐ行動/意思決定をするように強制された場合に、どのようなオプションを選択するかを考えてください。

 Step2: 代替アクションを書き出す

意思決定をバイナリに保ちましょう。意思決定を「するか」vs「しないか」のようにフレーミングします。デフォルトではない方の行動が代替アクションです。

もしバイナリの意思決定が基本的過ぎると感じるならば、様々なスクリーン上の形状は、バイナリの選択の累乗で表されるということを思いましょう。より複雑な意思決定をしたいならば、複数の仮説検定を組み合わせて行います。まずは1度に1つずつ進めましょう。

第一パートは”あなたの考え”ではない

スタートするとは、行動することであり、考えることではありません。私はあなたが初めから知っていることについて尋ねてはいません。なぜなら、よい頻度論者(古典的な統計学者)は分析をする前には何も知らないとするからです。

ベイズ論者はこれについては異なる考えを持ちますが、もしあなたがここでの言説に関してベイズ論者の怒りを感じているならば、冷静になって対立論者について知るレッスンだと考えてください。ベイズ論的な考えについては後ほど触れます。

無情報への対処

デフォルトアクションに関する問いは、分析者に対してのものではありません。それはMBA的なもので、チームの意思決定者が担当すべきものです。熟考ののち、意思決定者のビジネスセンスに基づき、それを決めます。

デフォルトアクションを選択するにはビジネスに精通している必要があり、チームの意思決定者の義務です。

 私はあなたが無知ならば何をしたいかを尋ねており、あなたは質問に答えるために、過去の分析のインスピレーションを受けるかもしれませんが、基本的にはデータを必要としません。Explaratory data analysis(EDA、探索的データ分析)は一種のガイド付きの思考プロセスです。もしアナリストと意思決定者がどのように連携するかについてより深く知りたい場合には、こちらの記事を読んでください(翻訳)。

安全な方をとる

新製品の発売に関する意思決定をする場面を想像してみてください。意思決定者における典型的な選択は安全な方を取ることです。つまり、データが緑(GO)ボタンを押す正当な理由を示さない限り、新製品の発売をしないという選択をします。もしデータが無いならば、あなたはプロジェクトを先延ばしにするでしょう。あなたは失敗が起きても悪が少なくなるように、デフォルトアクションを選択しました。

デフォルトアクションは無知の状況下であなたにとって受け入れやすい選択肢です

社会で明白にデフォルトと考えられている他の例は、”疑わしきは罰せず”(デフォルト=証拠がなければ無罪)、新薬の承認(デフォルト=証拠がなければ承認しない)、科学論文誌への掲載(デフォルト=証拠がなければ掲載しない)

もしデフォルトアクションが存在しないならば、統計は必要ありません

本当の無関心はかなりまれですが、もしデータが無い状態でコインを投げたいのならば、あなたは統計が必要ありません。もしあなたの考えが設定されていないならば、それを変えることはできないのです。代わりにこれを読んでください。統計的推論は、不確実性下での意思決定のためのものです。もしあなたが答えをすでに持っているならば、必要ありません。無情報化での意思決定をフレーミングするために、意思決定者のトレーニングが必要であり、数学者は必要ありません。

完全情報への対処

 次のステップは少し奇妙です。統計の授業ではそれが何でもないかのようにそれを教えますが、それはかなり大きな心理的飛躍があります。あなたの仕事は、世界の全ての可能性のある状態を想像することです。考えられる全てのパラレルワールドを想像したら、それぞれを2つのカゴに分別します。カゴ1は”デフォルトアクションを喜んで実行したい世界”と、カゴ2は”そうでない世界”です。

 Step3: 帰無仮説(H0)を表現する

カゴ1という名前が気に入らないならば、その技術的な名前は”帰無仮説”です。

統計学の授業では、仮説検定の方法は学びますが、仮説を立てることについては学びません。

あなたは「現状維持」、「つまらない方」、「証明したくないもの」など、帰無仮説の簡単な説明を聞いたことがあるかもしれません。しかしその説明はあまり正しくはありません。帰無仮説とは、不満なくデフォルトアクションを選択できる世界(状況)のすべての集合を意味しており、私はあなた方がこの哲学的な奇妙さを受け入れることができると信じています。

ここまでを振り返ってみましょう。ここでのポイントは、あなたが何も情報を知らない、またはほとんど知らない限り、デフォルトアクションを実行するとコミットしているということ、または帰無仮説の世界の住人であることを絶対の確信をもっているということです。

仮説はゴキブリのようなものです。あなたがそれを見たならば、それは決して1つではありません。必ずどこか近くにさらに隠れているものが存在します。

Step4: 対立仮説を表現する

 カゴ2は対立仮説であり、残りの世界(状況)は全てそこに入ります。帰無仮説がFalseになる場合、Trueになります。二つの仮説は数学的には、集合/補集合の関係にあり、3つ目のカゴは存在しないことを意味します。

一言で言えば、対立仮説は次の質問に対するあなたの答えです:
「あなたの考えを変えるには何が必要ですか?」

私たちはデータを追加する準備ができました。さあゲームは何でしょう?

"action-action-worlds-worlds ※"でダンスは完成です!

※ デフォルトアクション→代替アクション→帰無仮説→対立仮説

あなたの考えを変えるための科学

あなたの仮説はすべての可能性をカバーします。重なり合いはありません。もし私がデータを用いて、あなたが対立仮説の世界を生きているということを納得させたなら、、、なんということでしょう、あなたはなぜまだデフォルトアクションを取ることを考えているのですか?その選択はここではよい選択ではありません。

もしあなたがデータから対立仮説の世界に住んでいることを納得させる場合、アクションをスイッチしましょう

能動vs受動

この意思決定の文脈において留意すべきことは、アクション(デフォルト/代替)は同じではないということです。あなたは頻度論者のように完全にオープンマインドでありますが、無知の下ではより賢く倫理的な方のアクションを取らないことを意味するわけではありません。それが鍵です。もし両方のアクションがあなたにとって同じなら、この記事を読んでください。

デフォルトアクションは受動的にそのアクションに陥っても大丈夫なものですが、代替アクションは積極的に実行するように説得する必要があるものです。

部分的な情報への対処

もし部分的なデータしか使用できない場合、あなたは不確実性に対処しなくてはなりません。それが派手な確率計算が入ってくる部分です。それは1文で表現され、毎回同じです。詳しくは次の章で触れます。

重要なことは、あなたが自分はどの世界にいるか、確実に知ることができないということです。そのため、デフォルトアクションを選択する際、あなたの価値観を忠実に反映する方法で行うことが重要なのです。どのようにチェックするか?仮説検定を正しく組み立てた場合、タイプⅠエラータイプⅡエラーより悪く感じるでしょう。別の言い方をすれば、

快適なゾーン(デフォルトアクション)を誤って離れること(タイプⅠエラー)は、誤ってそれ(デフォルトアクション)に固執する(タイプⅡエラー)よりも苦痛であると感じるはずです。

もしそうなっていない場合、あなたはどの行動がどれかについて正しく捉えられていないはずです。もう一度やり直しましょう!

不確実性から確実性を引き出す魔法はありません。

大声でアクションと叫ぶ

統計的な仮説を立てられるようになるためには、デフォルトアクションが何であるかを知っている必要があります。もし他の地点から始めたならば、すべてがバラバラになるでしょう。残念ながら、デフォルトアクションを間違って選択することは、哲学を全く学ばずに数学を学ぶ人々の間でよくある間違いです。またこれは、意思決定者が必要な行動をしておらず、数学オタクが一斉に動いているチームにある症状でもあります。

デフォルトのアクションを間違って選択することは、痛々しいほどよくある間違いです!

確実に失敗する方法は、アクションではなく仮説から始めることです。これは授業での演習の構成の痕跡です。(なぜなら統計の授業では意思決定者の役割は教えず、そのようなことはいつも教授がやってしまうからです。)

いつも、デフォルトアクションから始めましょう

もしあなたがこの考えについてのサンプルを必要としているなら、こちらをお読みください。統計的なニュアンスのない、基本的な事例が知りたい場合は、こちらをお読み下さい。

[翻訳抜粋]How Decision Intelligence Connects Data, Actions, and Outcomes for a Better World

原文

How Decision Intelligence Connects Data, Actions, and Outcomes for a Better World

Lorien Pratt氏(2019/9/16)

https://www.amazon.co.jp/Link-Decision-Intelligence-Connects-Outcomes/dp/1787696545

※ Chapter1, 2のみを対象に抜粋翻訳

Chapter1
GETTING SERIOUS ABOUT DECISIONS
DECISIONSについて真剣に考える

  • decisionとは、行動(action)を導き、その結果、成果(outcome)を導く思考プロセス(頭の中で物事について判断するだけではない)。これが複雑なあらゆる問題解決の積み木である
  • decision intelligence(DI)とは、decisionを通して人間とコンピュータがいかに行動と成果をつなげるかに関する専門領域
  • NASAはDIを接近する小惑星を逸らすために使用、Googleのchief decision officer Cassie KozyrkovはDIを使って数千人のエンジニアを教育、SAP, Element Data, Prowlerなどの企業等にDIのエコシステムが拡大している
  • DIによってもたらされるSolution Renaissance:複数の学問領域を統一する

    f:id:eureka-me:20210713114006p:plain

  • DIにおける著者のコアアプローチはcausal decision diagram(CDD)

Chapter2
Breaking through the complexity ceiling
複雑さの天井を突破する

  • DIの部品に新規なものはない。その接合材が新規である
  • CDDは技術と人間を結びつける足場
  • どんな分野でも、フィードバックループがdecisionに与えるインパクトが大きい。このフィードバックループをうまく回すことで、winner-takes-allの原理が働く
  • フィードバックループの中のソフト要因(明確に計測しにくいもの)がビジネスの成功に対し影響が支配的であるが、システム的に無視されがち
  • ソフト要因が含まれるフィードバックループは目に見えないが、一般的に最も大きな成長のドライブ要因であることが多い
  • CDDの構成要素
    ①decision levers:意思決定のレバー。大学はハーバードにするかダートマスにするか。携帯電話の新機能開発に投資するかコスト削減に注力するか、新プロダクトをリリースするか否か、など。
    ②Outcomes定量的な評価基準。そのdecisionにより成功したか否かを判定するために計測するもの。”年収”、”大学でのストレス度合”、”学費”など。
    ③Goals:Outcomesの目標値。Outcomesがどの値になれば成功と考えるか。”高収入の職を得たい”、”高ストレスな大学は避けたい”、”学費を年間1万ドル以下に抑えたい”など。(※ Proxy goal:代理のゴール。真のゴールの測定が難しい場合、真のゴールに対応した、測定可能な代理のOutcomeに対する目標値を立てることもある。しかし、proxy goalが代理であったことを忘れ、そのまま真のゴールになってしまうことに注意せよ)
  • ④Externals:外部の状況。"私は銀行に5,000ドルしかない”、”私の生活費を全て賄えるローンプログラムがある”、”ハーバードはとてもストレスフルだと聞いた”など。
    ⑤Cause-and-effect links:原因と結果のリンク。
    [ポジティブな内容の場合]
    もし私がハーバードに行けば、私はたくさんの友達ができるだろう。たくさんの友達を持つことは大学のストレスを軽減するだろう。ハーバードはウォールストリートで評判が良い。アイビーリーグの大学に行くことはウォールストリートで評判が良いので良い職につながるだろう。
    [ネガティブな内容の場合]
    ハーバードはとてもお金がかかる。大学がお金がかかると私はあまりの借金に落胆するだろう。多くの借金は卒業後私を不幸にするだろう。
    ⑥Intermediates:中間要素。decision leversとoutcomeの間の要素。
    ⑦An archetype:無意識化、暗黙のうちに存在している、組織の文化として伝承されてきている思考のパターン。意思決定を行う際に利用される。
  • CDDのアーキタイプ(Decision archetype

    f:id:eureka-me:20210713124044p:plain

    Decision Archetype: CDDのテンプレート
  • CDDとは、archetypeの要素を著者が表出化したもの
  • CDDのリンク部分に、機械学習、他の統計モデルが入り込む

    f:id:eureka-me:20210713141433p:plain

    Decision Archetypeへの機械学習/統計的モデルの挿入


  • MLモデルは何かしらの情報を入力し、出力するもの
    例:コンピュータシステムの情報を入力し、ウィルス侵害の確率を0-100の数値で返す仕組み
  • CDD内にMLモデルを組み込んで表現することは、意思決定や行動の方法に関して合意を取るうえで有効
  • MLリンク部分の関係性は明白でなくとも、チームが状況を理解し、どこのMLリンクに関するデータを整備することの重要性が高いかを把握することができる
  • データが無くとも、定性的な分析や、定量的な計算式でMLリンクを代替することができる(永続的であれ、一時的であれ)
  • 各リンクの影響度を理解するためにデータの取得が必要だが、継続的にアダプティブラーニングを行うことで意思決定モデルを改良していけばよい
  • DIのマジックサイクルというのがある。これはデータなしのCCDを描き、時間をかけてデータを得て、どんどんCCDを強力にしていくというもの
  • データ管理はコストがかかる。そのため、まずCCDで優先度の高いデータの個所を特定したうえで取り組むことで価値を得るまでの時間を短縮し、リスクを小さくできる
  • 機械学習を含むCDDの例:機械学習によるシステムの不正侵入の検知

    f:id:eureka-me:20210713144749p:plain

    機械学習を含むCDDの例(コストの因果リンクは赤、便益の因果リンクは緑で表される)

    このように、機械学習による不正侵入検知のアプリケーションが、decision archetypeの中に組み込まれている

 

[翻訳]データドリブン?考え直してください

原文

Cassie Kozyrkov氏の記事より(2018/7/19)

hackernoon.com

 

ほとんどの人が欠いている心理的な習慣、そしてそれを欠いているために、あなたが行動を効果的にするためにデータを使用することを望まない理由

企業は厳密、科学的でバイアスのない、データドリブンな意思決定を行うために、データサイエンティストを大量に採用しています。

そして悪いニュースは、”通常、意思決定は実際にはそうではない”です。

データドリブンな意思決定のためには、意思決定を駆動するのはデータでなくてはなりません。非常に単純なように見えますが、意思決定者に重要な心理的習慣がないため、実際にはそのような意思決定は非常にまれです。

データドリブン性の崩壊

あなたは町の反対側まで出向いて買いに行く替わりに、オンラインで何かを買おうかと考えているとイメージしてください。あなたは、そのオンライン販売者が信頼できるかどうかに、あなたの決定を煮詰めました。素早く検索すると、いくつかの関連データが得られます。販売者は4.2/5の平均評価を持っていることが分かりました。

意思決定の基礎がなければ、意思決定はせいぜいデータにインスパイアされますが、データによってドライブされることはありません。

いま、その4.2というデータを使って意思決定をドライブすることはできません。一度私たちは答えを見つけたら、私たちは最も都合の良い質問を自由に選択できます。私たちが最初に行うことがデータをざっと見て回ることである場合、私たちの意思決定はせいぜい、「データインスパイアー」に過ぎないでしょう。

データインスパイアー

それはまるでクジラがプランクトンを吸い込みながら泳ぐように、私たちはいくつかの数字を見て回って、感情的な転換点に到達して、、、判断します。私たちの決定の周辺にデータはありますが、それらの数字は意思決定をドライブしてはいません。意思決定は完全に他のどこからか、来ます。

意思決定者の心はデータを見る前に決まっており、意思決定(した心)はすでに存在していました。人間はすでに心の中で行った選択を確かめるために、データから選択的に影響を受けるということが分かっています。私たちは証拠を見つけるのに最も都合の良い光を用いています。そしてそのことを私たちは常に知っているわけではありません。心理学者はこれを”確証バイアス”と呼びます。

 多くの人は、データを使用して、すでに行った意思決定に関して、気分を良くするだけです。

質問を回答にフィットさせる

4.2/5は良い数字でしょうか?それはあなたの無意識化のバイアスによります。オンラインでの購入を本当にしたいと思っている意思決定者は、4.2という数字がいかに多いかということを語ります。「これは4.0を超えている!」彼らはそれが4.0より統計的に優位に高いかどうかについての厳密な分析さえ行うことができます。(確実性!それはあなたがいつも望んでいるp値です)。一方でその販売者であまり購入したくない人は、別の方法でデータに応じて質問をするでしょう。「なぜ4.5未満の販売者に満足するのか」や、「いや、☆1のレビューが少なからずある」などです。心当たりはないですか?

データをスライスする方法(分析の側面)が多ければ多いほど、分析は確証バイアスの温床になります。

数学的な複雑さは解毒剤を提供しません。単に問題を見るのを難しくするだけです。ゴージャスなガウス分布の集合の中にも、今見てきたような確証バイアスの中にも含まれています。

結果としては意思決定者は、データを使用して、やろうとしていたことをより気分よく行うだけです。

f:id:eureka-me:20210712103523p:plain

確証バイアス

高価な趣味

分析が複雑であったりデータの処理が難しい場合、私たちのコメディが悲劇のピンチに変わります。4.2という数値に到達するために、データサイエンティストやエンジニアの大群が数カ月の労力を費やすことがあります。長い長い旅路の末、データサイエンスチームは意気揚々と結果をプレゼンします:4.2/5でした!計算は細心の注意を払って行われ、チームはスケジュール通り進めるため夜通し、週末働きました。

ステークホルダーはそれで何をするでしょう?以前の4.2と同じです。実際のアクションに何の影響を与えることもなく、確証バイアスのゴーグルでその結果を見るだけです。正確であるかどうかは関係ありません。データサイエンティストが数字を作り出しても何も変わらないのです。

GAME OVER:もし意思決定者が根本的なスキルを欠いていたら、そのことを正すための計算手法は存在しません。データサイエンスチームはデータドリブンな意思決定に何も貢献しないでしょう。

より気分の良いアクションのためにデータを使うことは高価(かつ無駄な)趣味です。データサイエンティストの皆さん、あなたの組織がこの種の意思決定者に苦しんでいるなら、時間とお金を節約するためにも最も軽くシンプルな分析に終始することをおすすめします。意思決定者がより正しく訓練されるまで、あなたの派手な数学”柔術”は熱を発散するだけです。

確証バイアスに対する解毒剤

問題:データがどこに着地したかを見た後にゴールポストを自由に移動できること。

解決策ゴールポストを事前に設定し、後で移動したいという誘惑に抵抗すること。

別の言い方をすれば、意思決定者は誰かがデータ分析を行う前にやるべき宿題があるのです。

意思決定者がより正しく訓練されるまで、あなたの派手な数学”柔術”は熱を発散するだけです。

意思決定をフレーミングし、決定基準を設定することは、それ自体が一つの科学です(ここで検討する問題は氷山の一角に過ぎないので、今後の投稿で詳しく説明します)。しかし、それまでの間、大いに役立つ迅速な解決策はデータサイエンスプロジェクトで事前に意思決定の境界を考え出しておくことです。

 練習は完璧を作る

最近友達のエマとブルックリンに洋服の買い物に行きました。かわいいドレスを見せびらしながら、彼女は背中の値札を引っ張り私に見せて言いました。「ねぇ、このタグにいくらと書いてある?もし80ドル以下だったら、私買うわ」

これが意思決定インテリジェンスです!最初に価格を確認してから、すでに行った意思決定について話す代わりに、彼女はデータを意思決定をドライブするために使っています。よく訓練された反射神経で、彼女はドレスがどれだけ好きかと彼女の予算とを天秤にかけ、意思決定の境界を設定し、それが完了したらデータ(価格)を確認できるようにしています。彼女は正しい順序でデータを使用する習慣がついており、それはあなたにも訓練できるものです。

人々は常にデータドリブンである必要はなく、エマもそれを知っています。彼女は重要でない意思決定に対してそのようにする必要はありませんが、しかし練習することで完璧にできることも知っています。重要な決定が出てきたときに苦労するよりも、些細な意思決定を使って習慣を身に着ける方がはるかに簡単です。

交渉術のクラスからの教訓

この考えは新しいものではありません。交渉術のクラスでは1日目でこのことについて確実に学びます。交渉に入る前にBATNA(≒a walk-away point)の値を置いていない場合、額に「私は何をしているかわからない」と書いた方がいいでしょう。別の表現で言えばそれは、「デフォルトのアクションと代替のアクションの間の決定境界を把握すること」です。

解毒剤は、事前に決定基準を設定することです。

実際、交渉担当者への標準的なアドバイスは、潜在的なオファーの組み合わせの全範囲を検討し、それらに対する反応を事前に計画しておくことです。そうでなければ、経験豊富な対戦相手があなたを利用するのは非常に簡単です。繰り返しになりますが、同じことがデータ分析にも当てはまります。データは、考えを変えるために交渉するものと捉えてください。対応策は、事前にあなたの対応を計画しておくことです。次回あなたが給料の交渉をするとき、金額を聞く前に自分が考える金額を伝えてみてください。

コツをつかめば簡単です

あなたが数字を見る前にそれについて考えるか、後に考えるかに関わらず、あなたは数字について考える必要があります。事前に数字について考えることは、人間のプログラミングのバグに対抗するのに役立ち、意思決定の質と交渉のパフォーマンスに大きな見返りをもたらします。ここでの動作の順序を改善することは、データドリブンな意思決定に従事したいならば身に着けるべき重要な習慣だと言えます。そして練習すれば自動的にそれが行えるようになるでしょう。

[翻訳]不完全性、デレゲーション、そして母集団

原文

Cassie Kozyrkov氏の記事より(2018/9/22)

medium.com

 

もしあなたが統計における母集団という概念になじみがないなら、まずこちらの記事を読みムードを合わせるとよいでしょう。簡潔に言うと、

  • あなたは”サンプル”という不完全な鍵穴を通してのみ、あなたの母集団について垣間見ることができる―このことに対処することは、ここでのすべての計算の目的です
  • 母集団とは意思決定者が意思決定を行うために選んだ関心の対象です
  • 機械学習/AIの設定においては、母集団はシステムが稼働する必要があるインスタンスとして定義されます

そのため意思決定者は自分の求める母集団の定義をしなればなりません。もしそれが馬鹿馬鹿しいものだとしたら?その時点であなたの中にいる統計専門家が腹を立てるのは良いタイミングではないでしょうか?いくつかの統計専門家が挙げる異議の申し立てを見てみましょう。

あなたの友好的な統計専門家の異論

異論1:それは意思決定者が関心があることではない

この設定で「関心がある」とは「意思決定を行う目的において関心がある」という意味です。おそらく別の言い方をすれば、「意思決定者が意思決定を行うベースとすることに同意するもの」でしょう。関心のある母集団を定義することを、ある種の”交渉”としてとらえると役立つ場合があるでしょう。

意思決定者は時に非常に野心的で包括的な関心から始めることがあります。そして、必要なサンプリングの値札を確認すると、一気に控えめで狭い”関心”に急速に後退することもあります。それは全く問題のないことです。大事なことは意思決定者が、彼らの意思決定が何に基づいているかを理解することと、穏便にショートカットや簡素化が行われることです。

 

異論2:意思決定者は実際の意思決定者ではない

意思決定をどのようにフレーミングするかにおいて責任を持っている人が誰なのかを知ることはとても重要です。なぜならその人がここで決定権を持つからです。もし、実際の意思決定者が統計のプロジェクトの外部にいる場合は、その人をプロジェクトに組み入れて下さい。実際の意思決定者を関与させて意思決定のフレーミングをすることが非常に重要です。

もし統計専門家が、真の意思決定者との交渉を回避した何かの事柄に取り組むように求められていると感じた時、その人(真の意思決定者)が意思決定の設定(問題設定)を承認するまで要求をブロックする権利があります。本当の意思決定者が時間と労力を割くことができない場合は、彼らは必要なスキルと知識を持った人に意思決定を委任(デレゲーション)する必要があります。

データを使用して人々を説得することが目標である場合、窓の外に統計的厳密さを捨て、代わりに小ぎれいなグラフを作成することもできます。

統計は意思決定を行うための一連のツールとして非常に理にかなっています。説得のための手段として使っている場合、認識論的な吟味にはあまり向いていません。その場合はアナリティクスに終始し、まずは母集団についてあまり気にする必要はありません。なぜならその時点ではインスピレーションのゲームなので。本質的には、あなたの目標は、あなたの被害者(意思決定者?)に代わってあなたが行った意思決定を、被害者が実行するように促すことです。彼らはいずれにしても本当の意思決定者ではありません(私は”データシアター”が始まる前に、本当の意思決定者が賢明な方法で意思決定をすでに下していることを願います)。

 リーダーよ、あなたが全ての決定をする時間がある振りをするのはやめなさい!デレゲーションする時が来ています!

シニアのリーダーたち、全ての個々の意思決定を下す時間がある振りをするのをやめましょう。あなたの注意を重要な意思決定だけに振り向けて、他はデレゲーションしましょう。あなたは、あなたの部下が下した決定をあなたに売るような茶番の一部になりたくはないでしょう。そして、あなたは部下が示す分析において何も選択的なものは含まれていないということに気づいています。数字は嘘をつかない?数字は都合の良いようにいくらでもつくり上げることができます。

 

異論3:意思決定の問題はそこに存在しない

意思決定者が、情報がどのように行動を促すのかを明確にできない場合(=下すべき意思決定の問題が明確にフレーミングできていない)、あなたが探しているアプローチは”アナリティクス”と呼ばれるものです(データマイニングとも呼ばれる)。統計ではありません。それは統計的推論ほどストレスフルなものではなく、色がきれいです。ここにより詳しく書いてあります。

意思決定の問題が存在していないのになぜ統計をやるのですか?異論4も考慮して下さい。

 

異論4:意思決定者が彼らが何をしているのかを良く知らない

意思決定者が彼らチームが何を求められているか理解していない場合、チーム全体が大きな問題を抱えています。

時に意思決定者が自分の技術にあまり熟練しておらず、自分が関心があることや、どのように意思決定をフレーミングするかに関して考える能力を欠いている場合があります。その場合、統計専門家を含む他のチームメンバーが後押しする必要があります。結局のところ、下流の作業は意思決定者のタスクが適切に完了することに依存します。したがってこの状態で完成されたアナリティクスはずさんで間違った問題に対する厳密な答えとなります。それはタイプⅢの過誤です。

もし意思決定者が適切なスキルを持っていない場合、プロジェクト全体の命運は尽きています。

なので、もしあなたがデータサイエンティストで新米の意思決定者の下で仕事をしているならば、悪いニュースがあります。あなたは、意思決定者に統計専門家の時間に見合う価値のあるリクエストを行うために必要な深い思考と厳密な意思決定の枠組み(フレーミング)のスキルを学ぶように促すという、ベビーシッターの役割に就任したのです。

現代のdecision intelligence和訳)チームはこの問題を異なる方法で解決することができます。意思決定者に意思決定のフレーミングのスキルを身に着けさせる替わりに、デシジョンサイエンティスト(定性専門家)翻訳)の役割を利用しましょう。

この人物は意思決定者のアシスタントとして従事し、意思決定者の思いを注意深く聞きつつたくさんの質問を投げかけ、意思決定者が考えていなかったようなシナリオを示しながら、すべてを厳密な表現と研究のデザインに翻訳することで下位のチームが活動できるようにします。

小規模なチームでは、優れた人的スキルを兼ねそろえたデータサイエンティストが、標準的な職務に加えてこの役割を担う可能性があります。一方で大規模な組織では、この役目は1人の定性専門家が複数の意思決定者を支援するフルタイムの仕事として従事している可能性があります。社会科学のバックグラウンド、特に行動経済学認知心理学のバックグラウンドはこの役割に適しています。

 

異論5:十分に具体的でない母集団の説明

曖昧さは許容されない。良いものがほしいのなら、努力してそれに支払うことを想定してください。

あなたの書き下した母集団の説明が「すべてのユーザー」に他ならない、としてしまうことは決して良いアイディアではありません。

もし私たちが厳密に決定を下そうとしていることに関し誰も明確にできていない場合、厳密さのポイントは何ですか?単なるインスピレーションでよいのであれば、それでよいでしょう。インスピレーションは安いですが、厳密さは高いです。もしいいものが欲しいのなら、努力してコストを払わなくてはなりません。