AI・機械学習を中心に

AI/機械学習/データ分析/子育て/日々の雑感

行政におけるデジタル化の価値

河野太郎氏の自民党総裁選立候補演説より。

しっかりとしたセーフティネットを作るんだったら、どこに支援を必要としている人がいるか、しっかりと把握しなくてはなりません。行政をデジタル化するということは、これまで集団でしか見ることができなかった、しかしその集団の中の個を浮かび上がらせて、必要なところに必要な手を差し伸べることができる、それがデジタルの力です。

企業におけるデータドリブン経営の価値も一緒では。

[翻訳]あなたは悪い意思決定者か

原文

Cassie Kozyrkov氏の記事(2020/5/18)より

blog.usejournal.com

 

decision analysis(意思決定分析)の専門家は、熟練していない意思決定者をかぎ分けるためのトリックを持っています。それを知りたいですか?先週からの質問を調べてください。

クイズタイム!

ヘザーはカナダ人で、親切で、フレンドリーで、頭が良く、動物が大好きです。彼女はサステナビリティコンサルタントです。大学では彼女は数学と心理学を学びました。彼女は長めの散歩に行くのが好きで、いくつかのハイキングコースの近くに住んでいます。

以下2つのうち、ヘザーはどちらの方が可能性が高いと思いますか?

  1. ヘザーはPhDを持っている
  2. ヘザーはPhDを持っており、犬を飼っている

スクロールする前に、あなたの回答を準備してください。

1を選んだあなた、おめでとうございます。あなたはconjunction fallacy(合接の誤謬)を回避しました。2は間違う可能性を高めているため、1の方が正しいです。数学好きのために、P(A) ≥ P(A ∩ B)です。合接の誤謬についての詳細な説明と、ステレオタイプによって過度に複雑な結論に至ってしまう理由について知りたい場合は、私の記事 Don’t fall for the conjunction fallacy! を読んでください。

その記事では、バイアス、ステレオタイプ、科学、そして悪いアナリストにならない方法について述べました。

実際にヘザーは犬を飼っています。

では、ヘザーが犬を飼っていることが分かったとして、以前の選択肢においてあなたの気持ちをよりよく表しているのはどちらですか?(1. ヘザーはPhDを持っている / 2. ヘザーはPhDを持っており、犬を飼っている)

 

A) 私はもともと1を選んだが、代わりに2を選ぶべきだった

B) 私はもともと2を選んだが、代わりに1を選ぶべきだった

C) 私はもともと1を選んだが、それは賢明な選択であり正しかった

D) 私はもともと2を選んだが、それは賢明な選択であり正しかった

 

Cを選びましたか?

decision scienceの専門家はC, B, A, Dのように各回答をランク付けするでしょう。つまり"C"以外は"BAD"であると言えます。

優れた意思決定者は、outcome bias(成果バイアス)に陥らない

decision analysisの最初の原則は、outcome bias(成果バイアス)を回避することです。それは授業初日に生徒に教えることです。成果バイアスに対し耐性を持つことは、基本的な意思決定能力の最低要件です。優れた意思決定へ勝ち得で学ぶことはたくさんありますが、この最初のハードルをクリアするまで先には進めません。

成果バイアスとは何か?

心理学において、成果バイアスとは、意思決定を下す時点では知りえなかったことに基づいて意思決定を評価する誤りのことです。成果バイアスと後知恵バイアス(答えを知った後、知らなかったのに「私はその答えを知っていた」と記憶を調整してしまうバイアス)とを混同しないでください。

 成果バイアス的な思考の良い例として、スウェーデン政府のCOVID-19に関する意思決定について評価することを考えてみて下さい。一般市民と意思決定のプロの違いは、(成果バイアスを持った)一般市民は「どのような事態になるか」でスウェーデン政府を評価しますが、意思決定のプロはそうはしません。状況の評価はdecision scientistの間で異なる場合はありますが、決定が行われた時点で分かっていたことに基づいて政府を評価するだけです。

 成果バイアスは社会的に受け入れられるレベルの集団非合理性であるため、多くの人がこれを聞いて驚くでしょう。ましてや、”結果物事がどうなるか”が意思決定の質を評価する方法であると教わって育った人にとっては、怒りすら覚えるかもしれません。成果バイアスが幻想である理由について知りたい人は、私の記事”The problem with analyzing policy decisions in hindsight"を読んでください。

Decision analysisの基本原則

この記事の目的は次に述べるDecision analysisの基本原則を伝えることです。

意思決定の質は、意思決定時に意思決定者が入手できる情報のみを使用して評価する必要がある。

言い換えれば、後から知った知識で混乱しないようにしてください(特に2020年においては)。

意思決定のエキスパートはいつも、成果から意思決定を分離します

しかし、ヘザーと犬の例に戻りましょう。

各選択肢を回答した人について言えること

C)を選択した人

良い選択です!あなたは最初の質問に対して賢く回答し、その時点で知っていることに基づいてそれが最良の選択であると認識したので、あなたは自分の意思決定プロセスに自信を持っていたことでしょう。

犬の写真を見ても、あなたは成果バイアスに陥りませんでした。トレーニングを受けたDecision Scientistと同様な決定を下したことになります。おめでとう!

(だからと言ってあなたが優れた意思決定者であるというわけではありません。あなたは最初のハードルを越えただけにすぎません。)

B)を選択した人

あなたは間違ってはいましたが、Bを選択するということは、あなたは自分の間違いから正しい方向に学ぶことができる人であるということがわかります。

合説の誤謬に陥ってはいけない理由を理解して、正しく学習しています。あなたはこの記事の中で成長しました!

A)を選択した人

あなたは直感的に最初正しい選択をしましたが、結果的には間違った学習をしました。後から知った知識があなたの意思決定プロセスに間違ったことを教えたのです。間違いから学ぶことは良いことですが、間違ったことを学ばないようにしてください。しばしば、人生はあなたの意思決定レベルとは関係なく、あなたが予期できないランダムなカーブボールを投げます。それが起こった時、あなたの意思決定プロセスをそれに適用させてしまうことは悪い考えです。あなたの考え方は有能なリーダーを後押しし保持する社会の機能を脅かしてしまいます。その理由を知りたければ、こちらを読んでください。

D)を選択した人

あなたはポイントを激しく見逃しており、2倍のバイアスを示しています。”ほらみろ!彼女は犬を飼っていたじゃないか!私は正しかったし、次回も同じようにするさ!”

いいえ、あなたはラッキーだっただけです。あなたは悪い判断をしましたが、たまたまいい結果が得られただけです。あなたは運とスキルの違いが分かっていません。

選択肢Aと同様にこの考えは熟練した意思決定者を社会に送り出すことを否定しますが、他のバイアスと混ざり合って、誤った偏見が長続きします。

意思決定スキルの欠如は偏見を助長する

もしよい意思決定の習慣を身に着けない場合、心理学的には次にあげるようなことを行う可能性が高いと言えます。

1. 利用可能性ヒューリスティック:あなたが感知した事例が起きる可能性を過大評価する

2. 確証バイアス:あなたの固定観念と矛盾する情報などを無視する

3. 合説の誤謬:証拠が示されていないにもかかわらず「正しいと感じる」固定観念に基づいて、見当違いな結論に達する

4. 成果バイアス:自分の意思決定プロセスを無視し、成果にフォーカスしすぎてしまう

5. 自己奉仕バイアス:運よく良い成果が得られた時は自分のおかげだとし、悪い成果が得られた時は他者のせいにする

あなたにはこのフィードバックループが見えますか?

代わりに何をすべきか

1. 利用可能性ヒューリスティックは、不完全な人間の記憶から起きるため、人間よりも優れた記憶力を持つ機械(または鉛筆)に頼るべきでしょう。可能ならば、人間の記憶よりも統計的にバイアスを排除した記録を重視します。

2. 不確実性が存在する場合には、心を開いて、確証バイアスを減らすための対策を講じてください。

3. 証拠が示すよりもややこしい結論にジャンプすることを避けてください(たとえそれが正しそうだと”感じた”としても)。

4. 成果を無視し、意思決定時にわかっていたことだけに基づき意思決定と意思決定者を評価してください。

5. 意思決定を行う前に不確実性を評価し、不確実性の大きさを意思決定者と管轄外の要素の間で分配します。ギャンブルの結果について意思決定者を非難するのではなく、そもそも不適切なギャンブルをしたことについて意思決定者を非難してください、、、たとえ運が良かったとしても。次のようなことを含む場合、意思決定者の意思決定スキル不足を非難してください。

(ⅰ)掛け金よりも少ない努力をした

(ⅱ)過剰なリスクを取った

(ⅲ)利用可能な情報を無視した

(ⅳ)情報を誤って利用した

 

もし、より深く学びたいなら、私の記事”The problem with analyzing policy decisions in hindsight"を読んでください。

 

[翻訳]今フォローすべきデータ&アナリティクスブロガー14名

原文

IDG記事(2021/7/22)より。

www.idg.com

 

データを価値あるビジネス資産に変換することは容易ではありません。しかし急速に進化するテクノロジー環境では、この需要は急速に伸びています。IDGによると、67%の企業がパンデミックによって組織のデータドリブン戦略を加速させたことを認めています。そして現在、34%の企業がデータドリブンプロジェクトの実装またはテストを行っており、残りの13%が今後12カ月でその配備を計画しているとのことです。

マーケターとして、データを使用しデータと分析ソリューションを販売することは、顧客がいかに戦略的に考えてデータを使用するかを理解することを意味します。IDGの調査により、これらの洞察を明らかにすることができます。しかし、ソートリーダーシップを通じて洞察力を高め続けることは、競合をさらに引き離すことに役立つでしょう。そしてあなたの学習の旅を助けるために、私たちはInfoWorldであなたを支援するためのコンテンツページを作成しました。

さらに、以下にブログ、ポッドキャスト、講演イベントなどを通じて専門知識を発揮しいる14人のデータとアナリティクスのソートリーダーをキュレーションしました。

ブロガーに出会う

Jill Dyché

”Data for Good"はJillの執筆活動の中心にあります。彼女は経営幹部に向けて、アナリティクスが競争の優位性である理由について主張しています。Jillの執筆は、Newsweek.com、HBR.org、Computerworld、Forbes.comなどの主要な雑誌、ジャーナルで取り上げられています。彼女のホームページには、魅力的で思慮深い記事があります。Twitterもフォローしてみてください。

Wayne Eckerson

国際的に良く知られたソートリーダーであるWayneは、執筆家、講演者、そしてEckerson Groupの創設者です。彼は、複雑なデータトピックスを消化可能で、すぐに活用できるインサイトに変えるコツを知っています。Wayneの本”The Secrets of Analytical Leaders: Insights from Information Insiders"は、その一例です。彼はまた彼の会社のウェブサイトに積極的に寄稿しています。Twitterもフォローしてみてください。

Laura Ellis

現在はIBM CloudのAnalytics ArchitectのLauraは、データサイエンスとアナリティクスが誰でも利用できるようになることを信じています。彼女のブランド”Little Miss Data"には彼女の個性が詰まっています。彼女の読みやすいブログと、ステップバイステップのビデオチュートリアルで、データのインサイトをスムーズに獲得していけます。Twitterもフォローしてみてください。

Karen Grace-Martin

The Analysis Factorの創設者兼社長であるKarenは、大学生からアイビーリーグの教授、さらには企業から非営利団体まで、様々な人と一緒に働いてきました。Data Analysis with SPSSの共著者であり、彼女の出版物や無料のウェビナーはデータ愛好家に明快で利用が容易な学習の旅を提供しています。Karenと彼女のチームからの最新情報をチェックしてください。Twitteerもフォローして見てください。

Avinash Kaushik

GoogleのデジタルマーケティングエバンジェリストであるAvinashは、Web Analytics2.0とWeb Analytics: An Hour A Dayの2冊のベストセラー本にて、彼の独自のインサイトを公開しています。加えて、彼の人気なブログOccam's Razorで、アナリティクスとマーケティングにおける複雑な課題に対するヒントと最新ソリューションを提供しています。Twitterもフォローしてみてください。

Cassie Kozyrkov

GoogleのDecision Intelligenceの責任者であるCassieの履歴書は本当に息を飲むほどです。彼女は在職中に、アナリティクスの分野で20,000人を超える"Googler"を個人的にトレーニングしたと述べています。しかし、私たちが最も好きなのは、彼女の”Decision Intelligenceの民主化と安全で信頼できるAIに向けた(先導的な)ミッション”が良い力を発揮してきているということです。必ずCassieのブログを読み、Twitterもフォローして見てください。

Ben Lorica

O'Reilly Mediaの元チーフデータサイエンティストであるBenは、業界に関する豊富な知識を蓄えてきました。そしてマーケターにとって幸運なことに、彼は現在、The Data Exchange Podcastを設立しました。それは彼のデータインサイトを実行可能なアドバイスに変換することに焦点を当てたシリーズです。テクノロジーのトレンドからデータと分析の最新ツールまで。さらに彼のブログThe Practical Quantでフォローできます。Twitterもフォローしてみてください。

Lea Pica

Scholastic、Victria's Secret、Prudentialなどの企業向けのデジタル分析手法の構築―Leaの経歴は比類なきものです。しかし、彼女が本当に他の追随を許さないものは、データストーリーテリングの力への継続的なコミットメントです。Leaの活動を通じて、企業はデータを通じて、より深くより価値ある方法で消費者とつながる方法を学ぶことができます。Leaのブログでデータストーリーテリングの将来について学ぶことができます。Twitterもフォローしてみてください。

Gil Press

ビッグデータとは何でしょう?それはGilが毎週のブログで答えている質問です。独自の洞察に満ちた執筆で、彼はデジタルデータのサイズとその伸びを見積もることに非常に精通しています。また、ForbesのSenior Contributorである彼のトピックは、データのトレンドから実用的なスタートアップへのアドバイスまで多岐に渡ります。彼の最新情報をお見逃しなく。Twitterもフォローしてみてください。

Isaac Sacolick

以前は業界をリードするCIOであったIssacの執筆活動は、ビッグデータに関する彼のアイディアを共有するためのプラットフォームとして機能してきました。彼はForbesから、トップ20のSocial CIOとして認定されています。そして、彼は現在CIOとInfo Worldへの寄稿編集者であり、ビッグデータ分析の業界におけるスピーカーの一人です。彼のブログを読んでみてください。Twitterもフォローしてみてください。

Krista Seiden

Google Analyticsとその多くの教材の中の声として、Kristaはデータに関する最も優れたソートリーダーの一人です。最近では彼女は画期的な専門性を、KS Digitalの設立に注ぎ込みました。企業がデジタルマーケティングとアナリティクスのパフォーマンスを向上させることを支援することにむけたミッションを持っています。Kristaのウェブサイトで彼女の最先端のインサイトをフォローできます。Twitterもフォローしてみてください。

Ryan Swanstrom

ソフトウェアエンジニアリングからデータサイエンスのキャリアへの道のりは簡単ではありません。しかしそれがRyanのキャリアです。2012年2月の最初のエントリから、彼はキャリアの過程で学んだ重要なデータに関する教訓を読者と共有してきました。今日では、Ryanはデーサイエンスのディレクターであり、起業家でもあります。彼のブログから彼の旅を学びましょう。Twitterもフォローしてみてください。

Ronald van Loon

Ronaldはビッグデータとアナリティクスにおける世界的なインフルエンサーのトップ10に認定されています。Ronaldはこの分野での教育の発展とソートリーダーシップに取り組んでいます。Twitterには約25万のフォロワーがおり、彼の非常に人気のあるコンテンツはデータドリブンを実践する企業が全く新しいビジネス価値を生み出すのを支援することに焦点を当てています。彼のLinkedInの記事で人気のある記事を見つけてみてください。Twitterもフォローしてみてください。

Nathan Yau

LCLAで統計学の博士号を取得した後、Nathanはデータビジュアライゼーションを専門としています。統計チャートからインフォグラフィック、さらにはデータアートまで、彼はできるだけ多くの人がデータを理解し解釈できるように支援することに取り組んでいます。彼はこのテーマについて人気のある書籍を書き、グラフィックデザインとデータビジュアライゼーションのカテゴリでFastCompanyから表彰されました。彼のウェブサイトで学びましょう。Twitterもフォローしてみてください。

ボーナス:2つの必読コンテンツコミュニティ

Smart Data Collective

ビッグデータとアナリティクスをカバーする最大かつ最も信頼できるコミュニティの一つであるSmart Data Collectiveには、毎日利用可能なコンテンツがロードされています。特定の技術セクターに関するデータインサイトを探している場合でも、新しいツールやトレンドを常に把握する必要がある場合でも、あらゆるニーズに対応する有益なコンテンツがあります。ここで彼らの記事をチェックしてみてください。Twitterもフォローしてみてください。

Towards Data Science

 Mediumで合計562,000人を超えるフォロワーを有するTowards Data Scienceは、コンセプト、アイディア、コードを見逃すことはありません。また、世界中に5,000人を超すボランティアのライターがいるため、各投稿にはユニークで多様な視点があふれています。ここで彼らの記事をチェックしてみてください。Twitterもフォローしてみてください。

 

[翻訳]統計に精通しているかのセルフテスト

要点抜粋

  • あなたがファクト(関心がある情報全て)を持っているのなら、統計を行う必要はない
  • 統計は、あなたが関心があることに、あなたが持っている情報からジャンプする。そこには不確実性が付きまとう
  • AIシステムのテストは根源的に統計。なぜならまだ知り得ないシステムがどのように機能するかに関心があるから
  • 母集団の定義は意思決定者が行う。慎重に行われるならば、母集団は偏っていても全く構わない

原文

Cassie Kozyrkov氏記事(2018/9/22)より

hackernoon.com

 

Find out whether you fell for a lie from your college stats course

シーン設定

もしあなたが関心のあるすべてのデータを持っているとき、統計的手法を用いる必要はありません。あなたは幸運にもピュアなファクトを扱うことができるので、数値を集計して報告するだけです。

あなたがファクトを持っているなら、統計の必要はない

あなたが飛び越えないといけない事柄は、ファクトを取得できないということです。あなたはサンプルという鍵穴を通してのみ、母集団を垣間見ることができるのです。それは貧弱で不完全な見方ですが、それによってあなたはあなたの関心のあることに対してジャンプするのです。そこには不確実性というのが付きまといます。

AIにおける母集団

母集団という概念は、統計学のコースだけのものではありません。母集団の定義は、AI/機械学習システムが実際に機能するかをテストするために非常に重要です。この場合、母集団は通常、システムを動作させる必要があると意思決定者が考えるインスタンス(例、データポイント)の観点から定義されます。テストは根源的に統計です。なぜなら、システムが将来どのように機能するかに関心があり、まだ起きていないことについては知りえないことだからです。あなたのテストデータセットは”サンプル”であり、システムが動作するべき母集団に出会ったときにクラッシュするか否かを推論したいのです。

統計に精通しているかのセルフテスト

 母集団の概念が統計で果たす重要な役割について説明しましたので、ここで簡単なクイズをして統計の専門知識を確認します。

私が統計業務のリクエストを行う意思決定者であると想像してください。統計の専門家であるあなたは、私の母集団の定義を確認します。それは長くて、リクエストに関係していて、かなり徹底的です。しかし、私の母集団の定義に含まれるユーザーは、全ての曜日ではなく月曜日にアクティブなユーザーのみであるということに気が付きました。何か問題はありますか?

”問題がない”と答えたあなたは、統計にあまり詳しくなくその分オープンマインドであるか、ジェダイマスターです。いずれにせよ、それはあなたにとって良いことです。それが専門家が感じるべきことです。彼らの反応は、”もちろんOK”です。

一方で、これが何か間違った方法であると感じた場合、おそらくあなたは危険なくらい統計に触れ過ぎているでしょう。おそらくあなたはいくつか学部課程の統計コースを受講したのでしょう?母集団についての真実に関しては、学部課程の情報は信用しない方が良いでしょう。

母集団についての真実

真実は、母集団は、文字通り、意思決定者が意思決定を行う目的で自分の関心に沿って選択したものであるということです。どうすればこれを統計学初級の学生に伝えることができるでしょうか。次のようなこと教授が言ったら、学生がどれほど不愉快に感じるかを想像してみてください。「私は自分のサンプルに興味があります。それは母集団なので、計算は必要ありません。ここでの私の仕事は終わりました。」

そんなことはとても悲劇なので、代わりに私たちは「それがすべてだ!」と言います。

さて、あなたはもう大人になったので、真実を知る時です。

母集団は、意思決定者が意思決定を行う目的で自分の関心に沿って選択したものです。

このシナリオにおける意思決定者(私)はこの母集団の定義に慎重に選択したので、問題はありません。意思決定をどのようにフレーミングするか翻訳)、私次第なのです。必ずしも、自分のプロダクトのユーザーに基づいて決定する必要すらありません。

さまざまな意思決定者がさまざまな方法で意思決定をフレーミングでき、母集団を定義するのはその一部です。

あなたが意思決定者ならば、すべての曜日を含めることを選択することはできます。

でもあなたの統計家はまだ議論したいようです。いくつかの正当な意義を一緒に提起しましょうか。次の記事翻訳)進んでください。

[翻訳]母集団について ~あなたの間違い~

要点抜粋

  • 統計的アプローチはあなたが持っている情報と、あなたが必要な情報に乖離がある場合にのみ採用される
  • 統計的アプローチにおいて母集団に曖昧さがあると、必ず失敗する
  • 母集団の定義は意思決定者の宿題であり、それが完了するまで計算に手を付けるべきではない
  • 法律のバックグラウンドのある人は母集団の定義に強いので、助けを求めるとよい

原文

Cassie Kozyrkov氏記事(2018/9/8)より

hackernoon.com

 

弁護士があなたより統計に強いのはなぜか

統計において、母集団(population)とは、あなたが関心がある全ての要素の集合であり、厳密な意思決定を行うために定義されます。

”あなたは統計を試みるべきでしょうか?”

あなたが母集団が何であるかを明確に定義するまで、その答えは出ません。ファクトに基づくアプローチではなく、統計的なアプローチを採用するのは、不確実性に対処したいがためです。

統計的アプローチは、あなたが必要な情報と、あなたが今持っている情報の間に不一致がある場合にのみ、意味を成します。

言い換えれば、利用可能なデータ(サンプル)は母集団全体をカバーしていないということです。もしカバーしているなら、あなたはファクトを扱っています。ファクトは不確実性より優れています。ファクトがあるならば、統計的な専門性は不要であり、単にそのファクトを伝えればよいのです。ややこしいp値や信頼区間は必要ありません。

不自然な母集団

では、意思決定者が勘違いし続けている古典的なケースをお見せしましょう。

あなたは私と私の友人のために、契約書をレビューしてくれている弁護士だと想像してください。私たちはプロダクトのユーザーにチョコレートの50ドルのバウチャーチケットを配りたいと伝えました。あなたが契約書の中身を見て、バウチャーの対象者がどのような人かが説明されている箇所を読むと、”全てのユーザー”とありました。

ここで何がおかしいでしょうか?

”全てのユーザー”は何を意味するか

”全てのユーザー”が何を意味するかを本当に考える前にこの契約書を公開してしまうと、大変なことになるでしょう。

申込せずに友人のアカウントで製品を使用している人は?彼らは対象になりますか?製品を1秒使用して辞めた人はどうですか?申込せずに過去に友人のアカウントで使用したと主張する人はどうでしょう?将来ユーザーになるが今チョコレートが欲しいと主張している人はどうですか?おそらく私たちはこのチョコレートバウチャーが原因で破産するでしょう。

契約書を承認した弁護士が「おっと、そんなことを考えてもいなかった!」と言ったと想像してみてください。受け入れられません。弁護士がここでしなければならないことはあらゆることを想定し、あなたが書いた事柄が正確にあなたの意味する事柄であることを確証付けることです。抜け穴はありません。誰がチョコレートを受け取れて、誰が受け取れないかを、説明から明確にする必要があります。

混乱を避けるために、内なる弁護士を持ってください。さらに良いのは、外部の弁護士です。

ジャンプでけがしないで

あなたは(1)意思決定が重要であり(そうでなければ、より早いインスピレーションのためにデータマイニングを用いる)、かつ(2)あなたが持っているデータがあなたの関心のあること全てをカバーしていない場合に統計を採用し、それによりサンプルから母集団に向かて大きなジャンプをしようとしているのです。もしジャンプする先の場所を特定することすらできないならば、ジャンプは派手に失敗するでしょう。曖昧さが多少でもあると、あなたの努力全体が無駄になる可能性があり、それは重要な意思決定においては最悪です。

母集団の定義に曖昧さを残しておくと、失敗します

このようなことは明確であるにもかかわらず、私は意思決定者が意思決定をフレーミングする時、「全てのユーザー」としてしまうことを何度も見続けてきました。これはとても杜撰なことです。実際のプロジェクトでは、母集団の説明は、非常に詳細です。意思決定者は、母集団の定義について深く考えることは自分の仕事であると必ずしも認識していないようです。

意思決定者と一緒に働く人へのアドバイス

もし意思決定者がまだ曖昧な母集団の説明をしているならば、意思決定者が宿題をするまでストップしてください。そのプロジェクトはまだ計算に向かえる状態ではありません。

もし意思決定者が深く考えることが彼らの仕事であるということを忘れている場合、思い出させてください

このことは母集団の定義の話を越えています。あなたの計算を役立てる前に、意思決定者が完了させなければならないタスクがたくさんあるのです。意思決定者があなたのデスクに落としていった中途半端な問いを厳密に追いかけて週末を過ごすのは、よくあるルーキーの誤りですが、たいへん多くの新人データサイエンティストが繰り返しそれに陥っています。

意思決定者の宿題が完了するまで、すべての統計の取組みは無意味です。

意思決定者へのアドバイス

リーガルの仲間に助けを求めて下さい。彼らはたいていあなたより母集団の定義について考えるのが得意です。ロースクールではそれを統計的思考とは呼んでいないと思いますが、統計学のPhDプログラムよりも少し詳しく教わっているでしょう。

DIYのケースは、内なる弁護士に頼ってください。自分自身に問いかけて下さい。「これで抜け漏れはありませんか?弁護士はそれに承認の印を押しますか?それとももう少し深く考えた方がいいですか?」

これであなたは母集団について詳しくなりました。あなたは統計通のセルフテストを受ける準備ができました。

[翻訳]アナリティクスの性質 Part2/2 ~優れたアナリストとは~

要点抜粋

  • アナリティクスはどれだけ早くインスピレーションにたどり着けるかのゲーム。そのため優れたアナリストとは、意思決定者に最速でインスピレーションを与える人
  • 具体的には、以下6つのスピードにおいて速く実施できることが求められる
    ①有用で関係のあるデータを取得するまでのスピード(ドメイン知識)
    ②データを加工処理するスピード(ソフトウェアスキル)
    ③データを集計するスピード(数学的スキル)
    ④集計データを自分で理解するまでのスピード(データ可視化スキル)
    ⑤データを関係者に理解させるまでのスピード(コミュニケーションスキル)
    ⑥意思決定者をインスパイアするまでのスピード(ビジネス感覚)
  • しかし、時間あたりインスピレーション数が少ないからと言って、アナリストを責めてはいけない。それはデータに大きく依存するからである

原文

Cassie Kozyrkov氏の記事(2020/8/15)より

towardsdatascience.com

いきなり優れたアナリティクスの性質に行く前に、パート1翻訳版)も紹介した3つの一般的なアナリティクスの誤解についてみてみましょう。

  1. アナリティクスは統計ではない
  2. アナリティクスはデータジャーナリズム/マーケティング/ストーリーテリングではない
  3. アナリティクスは意思決定ではない

誤解1:アナリティクス vs 統計

使用するツールや数式は似ていますが、アナリストと統計専門家は全く異なる仕事をするようにトレーニングされています。

  • アナリティクスはあなたの問いの質を高め、仮説を構築するのを助けます
  • 統計はあなたの答えの質を高め、仮説を検証するのを助けます

もし詳しくこれらの専門性について知りたいなら、こちらの記事を参照ください。

”Can analysts and statisticians get along"

誤解2:アナリティクス vs ジャーナリズム/マーケティング

アナリティクスはマーケティングではない。違いはアナリティクスは意思決定者の視点を広げるのに対し、マーケティングは狭める。

同様に、データジャーナリズムは多くの人の関心を小さく捉えることであるのに対し、アナリティクスは一部の人のニーズに対し大きくサービス提供すること。アナリストは何よりもまず意思決定者にサービスを提供します。

誤解3:アナリティクス vs 意思決定

私があなたのアナリストである場合、私はあなたに代わって選択をするためにいるわけではありません(仮に私の方がドメイン知識を多く持っていたとしても)。もしそれが望まれるのなら、あなたは私を意思決定者に昇格させる必要があります。

もし誰かにアナリストと意思決定者のハイブリッドとして働かせたいのなら、2つの役割を1つにまとめて求めているということを理解し、その責任を明示的に割り当てるようにしてください。

誤解2、3についてより詳細には、パート1翻訳版)に詳しく記述しています。

優れたアナリストとは

"Data Science’s Most Misunderstood Hero"の記事の中に、データサイエンスの3本柱それぞれの卓越性について書きました。アナリストの卓越性はスピードです。

アナリストは意思決定者と自身の時間をできるだけ無駄にしないようにしながら、事実を調査し、あなたのインスピレーションを引き出します。インスピレーションを得るまでの時間を最大限効率化するためには、さまざまなスピードをマスターする必要があります。具体的には、

  • 有用で関係のあるデータを取得するまでのスピード(ドメイン知識
  • データを加工処理するスピード(ソフトウェアスキル
  • データを集計するスピード(数学的スキル
  • 集計データを自分で理解するまでのスピード(データ可視化スキル
  • データを関係者に理解させるまでのスピード(コミュニケーションスキル
  • 意思決定者をインスパイアするまでのスピード(ビジネス感覚

最後のポイントは微妙なニュアンスがあり、かつ最も重要なポイントでもあるので、詳しく説明します。

美しく視覚化され、効果的に伝えられたトリビアは、時間の無駄です。誤解していることのエキサイティングな発見も時間の無駄です。ゴミデータに細心の注意を払うことも時間の無駄です。無関係は小話も時間の無駄です。

アナリストが持ってくる、あなた(意思決定者)が時間を使う価値がないと思うものは全て、時間の無駄です。

アナリティクスは、分あたりインスピレーション数を最大化するゲームです

アナリストはあなたの時間を無駄にするでしょう(そしてそれは探索の一部です)。ですから、アナリティクスはそれをできるだけ小さくするゲームです。言い換えれば、時間あたりインスピレーション数を最大化するゲームです。(時間は意思決定者とアナリスト双方の時間を指し、それぞれの時間の価値に応じた換算レートに従います。)

拙速な解釈に騙されないでください。光り輝くナンセンスな”洞察”に陥り続ける間抜けなアナリストは、長期的に見ると全体の進みを遅くしてしまいます。

アナリストのパフォーマンスを評価する

パフォーマンスアセスメントが好きな人は特に、アナリストは時間当たりインスピレーション数で評価できないということに注意してください。

それは、抽出できるインスピレーションの量(意思決定者によって主観的に定義される)がデータセット毎に異なるためです。しかし、既に中身をよく知っているベンチマークデータセットを用いることで、彼らのスキル(業務遂行力ではない)を評価することはできます。

アナロジーとして、2人のアナリストに外国語の教科書からインスピレーションを引き出すように依頼した場合、その良い(より早い)アナリストは、その言語のネイティブスピーカーである可能性があります。あなたがその言語で書いた文章を彼らが理解する速度を測ることで、彼らの相対的なスキルを測ることができます。

スキルは業務インパクトを保証しません。それはデータに因るからです。

あなたがスキルを評価したとしても、それは業務インパクトを与えられることを保証しないということを忘れないでください。それはデータに因ります。先ほどの例に戻ると、もしあなたが開いたことのない怪しげな教科書をアナリストに与えたならどうでしょう?怪しげな教科書はゴミ情報でいっぱいである可能性があるため、彼の時間当たりインスピレーション数に責任を負わせることができないでしょう。

教科書とデータセットは非常に良いアナロジーになっています。追加で知っておくべき事項は次の通りです。

  • ある意思決定者にとってのゴミは、別の意思決定者にとって宝。教科書のように、データセットはあなたが学びたいトピックをカバーしている場合のみ役に立ちます。
  • もし人間の著者がいる場合、それは主観的です。教科書のように、データセットには人間の作者がおり、その偏見が内容に影響を与えている可能性があります。

データに含まれない事柄に関して、アナリストを責めないでください

意思決定者は、アナリストを進化したばかりの新しい感覚器官、つまり、今まで見えなかったものを見ることができる新しい種類の目だと考えて下さい。

見る価値のないものにその新しい目を向けても、何も得るものは無いでしょう?

データから何も価値のあるものが得られなかったとしても、アナリストを責めないでください。彼らを持っておくことは、新しいものを見ることができるようになるための投資です。彼らをより可能性のあるデータに向けて下さい。

より深く、アナリストの卓越性について知りたいならば、こちらの記事に進んでください。

 

[翻訳]アナリティクスの性質 Part1/2 ~アナリストはストーリーテラーではない~

要点抜粋

  • データサイエンスの3本柱の1つがアナリティクス
  • アナリストには分析対象に対するドメイン知識が非常に重要
  • 新しいドメインに取り組む際には、ドメインについてよく知っていて気軽に聞ける人(domain guru)をアナリストは求めた方が良い
  • アナリストはデータで説得する、ストーリーテリングの手法は行うべきではない。意思決定者が意思決定や仮説構築を自ら行えるような情報を正確に伝えるべき(≠マーケティング、ジャーナリズム)
  • マーケティング、ジャーナリズムが意思決定者の視点を狭めるのに対し、アナリティクスは広げる
  • アナリティクスはアナリスト自身の意見に意思決定者を誘導すべきではない
  • 意思決定者は決定する権利を放棄したくないからアナリティクスを雇う。アナリストはその意思を尊重するのが義務。たとえ意思決定者よりドメイン知識を多く持っていたとしても。
  • どのようなツールを使おうと(データ処理だけでなく、図書館、検索エンジン含め)、意思決定者に有用なデータを提示する限りそれはアナリティクス
  • アナリティクスはどれだけ早くインスピレーションにたどり着けるかのゲーム。意思決定者についてよく知り、意思決定者の時空間的制約、状況を踏まえた適切な選択肢に絞り調査し時間を節約する
  • 意思決定者やその課題、プライオリティについて何も知らずに分析を行った場合、インスピレーションを引き出すのは困難。結局万能のジャーナリズムに従事しきれいな筋書きとストーリーテリングで補おうとするが、それでは問題解決に至らない

原文

Cassie Kozyrkov氏の記事より(2019/10/31)

towardsdatascience.com

典型的なアナリティクスの授業では何を学びますか?通常は分析ソフトウェア(R/Python/SQL/SAS/Stata/MATLAB/BigQuery/Tableau/Looker...)の基本を学び、ソフトにどのようにデータをロードするか、円グラフや棒グラフをどのように書くかなどを学ぶでしょう。

しかし、それは芸術にとっての絵筆のようなもの。これは見栄偽りの無いアナリティクスの特性を理解するための、ハロウィーン風の記事です。

ドメイン知識が重要

これまでハロウィーンを祝ったことがないのに、今夜ハロウィーンパーティーに参加するように言われたと想像してください。あなたは衣装を決める意思決定者で私はあなたのアナリストになります。私は熱心なハロウィーン好きとして、関連するドメイン知識がにじみ出ています。

ドメインの専門知識はアナリストにとって非常に重要で、専門知識が無い場合には、苦労してでも取得した方がいいでしょう。ハロウィーンを聞いたことがないアナリストは、コスチュームを選ぶのを手伝う能力が大幅に失われます。彼らはおそらく、何を見ているのかわからないので、ありとあらゆる有用なデータを見落とします。アナリストが「私が話しかけられるドメインを良く知る知人(domain guru)はどこかにいますか?」と尋ねずに新しいドメインに入っていくのはアナリストとして悪い兆候です。

アナリストはストーリーを語ることができるが、ストーリーテラーではない

一般的に信じられていることとは対照的に、アナリストの役割は”ストーリーを語る”ことでも、データで説得することでもありません。それはマーケティング(もしくはジャーナリズム)と呼ばれます。

全ての大人の人生において、利害関係者に自分たちを評価してもらい、自分たちが望んでいることを実行してもらうために、自分たちの仕事を売り込まなくてはならない時が来ます。しかしそれについてはまた別の機会に話しましょう。確かに優れたアナリストは人間の興味を良く知っており、聴衆を操作することができますが、それはキャリアの副産物です。ストーリーを語ることができるのはアナリストが持つ必要のあるスキルですが、彼らの仕事は別物です。

アナリティクスはマーケティングではありません。違いは、前者は意思決定者の視点を拡大し、後者は狭めます。

ハロウィーンの話で言えば、アナリストである私の仕事は、昨年私が着て回ったゴキブリスーツを着るようにあなたを説得することではありません。私はエイプリルフールと誕生日を合わせたよりもハロウィーンを楽しんでいるので、衣装に関しては必然的にいろんな意見を持っています。

私はオタクが大好きです。コスチュームが概念的であいまいであればあるほど、私は好きです。1年に仲間の変人が大笑いしてくれることが、私のやりがいです。

しかし、このプロジェクトはあなたの好みに関するものであり、私のものではありません。アナリストとしての私の役割は、私がすでに行った結論に向けてあなたを操作することではありません。ここでは私の意見は重要ではありません。。。あなたが私にあなたのために衣装を選ぶことを好まない限り。その場合は意思決定を私に委任して、私はアナリストから意思決定者に代わることになります。

アナリストは”目”として従事する

アナリストとして私はあなたに何も売るつもりはありません。私はあなたの目であり、1分あたりできるだけ多くのインスピレーションをあなたが得られるようにします。そもそもアナリストが必要な理由というのは、データをざっと見て回る時間が無いけれど、それでも決定権を行使する人になりたいからです。このシナリオにおいては、私はあなたより多くのドメイン知識を有しているかもしれませんが、それは必ずしも私が選んだ衣装に同意する必要があるというわけではありません。あなたは自分に代わって決めるためではなく、よく見えるようにするために私を雇ったのです。あなたは選択する権利を放棄したくないのですから、それを尊重するのが私の義務です。これがアナリティクスが意思決定やマーケティングと大きく異なる点です。

意思決定者が選択する権利を放棄したくない場合、それを尊重するのがアナリストの義務です。たとえアナリストが意思決定者よりもドメイン知識を多く持っていたとしても。

私がマーケティングストーリーテリングのアプローチを採用した場合、私はあなたの選ぶ可能性の幅を狭めるでしょう。優れたアナリストはその逆を行い、様々な視点を素早く示します。理想的には、あなたがもし自分で時間をかけてやっていたら見ていたであろうデータに加えて、あなたが見るべきと知らなかった有用なデータまでも示すことを手伝います。

ツールは目的を達成するための手段

 ハロウィーンの情報はいたるところにあるので、アナリストの仕事はそれを見つけて調査し、あなたのためにフィルタリングして、最も有望な情報をできるだけ早く吸収できるようにすることです。

R、SQLC++、図書館職員、または検索エンジンを使用しようが、それ全てアナリティクスです。データの性質と、その”知は力なり”という格言との関係性についての私の考えは、ここにあります。

意思決定者の時間を無駄にしないようにしてください

エキスパートのアナリストはスピードを高めることに真剣に取り組んでいます。それは単純に素早く指を動かすことにとどまりません。私はあなたの時間を無駄にしないよう努力すべきです。情報をスライスして表示する方法は無数にありますが、あなたのパーティーは今夜です。数カ月前に注文する必要のある刺激的な手の込んだ衣装をあなたに見せびらかすのは、非常に愚かな行いです。

私はあなたの時間的空間的状況を理解する必要があります。それにより私はあなたが物理的に行くことができるコスチュームストアや、除外すべき配送オプションを絞り込むことができます。予算についても聞く必要があります。あなたの予算が足の爪だけならば、腕と脚に向けた服装についての情報はあなたの時間を無駄にすることになります。

もしかするとあなたが予算を考え直すかもしれない可能性に備えて、1つか2つの高価なオプションを示すかもしれません。

このゲームの名前は”Speed-to-inspiration”です

データとあなたの好みについて知れば知るほど、あなたが可能な選択肢を吸収し理解するのを助けやすくなり、その結果より早くインスピレーションを得ることができるようになります。

アナリストとして私は、あなたに私の意見に向けさせるためにいるわけではなく、あなた自身の意見を形成するためにいるのです。

あなたの状況について知ることは、あなたにとって重要なことに私の調査を絞ることに役立ちます。屋内のダンスパーティーならば、人の目をえぐる可能性のあるハリネズミのコスチュームは向いていません。北極圏を通るパレードなら、暖かくて分厚いコスチュームに制限します。仕事のパーティーなら、Sexy Bayesian Posterior(重い金属のマルコフチェーンがたくさんついている)ような服装は見せないようにします。

もしあなたがたくさんの情報を私にくれなかったら、私は自力でやります。私はあなたの所在地から最も近い3つのコスチューム店とその営業時間のリストを作ります。いくつかの商品に基づき各店舗の相対価格を作ります。私は典型的なアメリカのハロウィーンストアは靴を除いたほとんどすべてのものが手に入るという情報を伝えます。

私は友人にアンケートをしてコスチュームの色についての円グラフを作ります(これにより、あなたは全体に溶け込みたいか、目立ちたいかによってどんな色を選べばいいかわかります。ただ調査はあなたの友人には全然あてはまらないかもしれませんが。)

私はハロウィーンの費用と、自分でコスチュームを作るのにかかる時間と、コスチュームを買うのにかかる時間についての情報を探すことができました(1000人の未知のアメリカ人に対する調査に基づいています。彼らはコスチュームづくりのエキスパートであるかどうかはわかりません。あなたが良く知らない出所のデータには注意してください)。

f:id:eureka-me:20210721152543p:plain

引用

 

f:id:eureka-me:20210721152805p:plain

引用

私はカテゴリと例の組み合わせのリストを示し、あなたにインスピレーションを与えることもできるでしょう。モンスター(バンパイア)、動物(トラ)、職業(宇宙飛行士)、人(ジャンヌダルク)、マンガのキャラクター(ベンダー)、概念(シグマフィールド)、絵画(ムンクの叫び)、食べ物(ニンジン)、物体(パンチカード)など。

Googleトレンドでハロウィーンに付随する最も人気のあるキーワードを調べて、支配的なカテゴリが何かを確認できます。すでに親切な仲間がこれを行っており、いかにリストを作成しています:フォートナイト、スパイダーマン、ハーレークイーン、ワンダーウーマンブラックパンサーデッドプールハリーポッターキャットウーマン、ペニーワイズ、キム・カーダシアン。どうやらポップカルチャーが主流のようです。

さらに一歩進んで、あなたの地域のこのようなリストを作成し、相対的な人気をプロットすることもできます。しかし時間はかぎられており、おそらくそれはあなたが気になることではないでしょう。細かな人気情報が何等か役立つ可能性がある場合のみ、実行する価値があります。しかし、大まかに言うと、上記のリストはハロウィーン初心者がポップカルチャーの衣装を探しているという印象を与えるのに十分です。

私はこのポイントで、初心者のアナリストがパニックに陥っているのを見てきました。彼らはデータをざっと眺めていて、明らかに宝石のように見えるものを見つけていません。悲しいことに、限りなく美しくデータをプロットしても、だれも気付かないかもしれません。ゴミを磨かないでください。それは時間の無駄です。

目の前の仕事に戻り、

さらに奇妙なことに、AIで生成されたコスチュームの提案を見ることもできます。

できるだけお金をかけないことを目指すなら、一番安い規制の衣装を探すこともできます。オンライン店舗をざっと見ると、マントとマスクを10ドル未満で購入することができるらしいので、実店舗でこれらと同じアイテムを確認することをおすすめします。また古着屋でビンテージの服を探し、安いアイシャドウと口紅でゾンビのDIYもすることもできます。

私は好奇心の雑多な光に惹かれて、軌道(今年のハロウィーン)から外れ始めるかもしれません。例えば、いつ人々はハロウィーンの準備をし始めるかなど。これは今年のハロウィーンには関係ない情報かもしれませんが、とにかく私は可視化しました、、、あ!リス!

あなたがドメインの専門知識が重要であることに気づき始めているということを願っていますが、しかし私の意思決定者のビジネスのことを知らなければ、どのような情報を示すのがよいかを推測するのは困難です。私はあなたが知りたいことを推測しようとして、あらゆる方向に走り回ることに多くの時間を費やすことになります。

アナリティクスの授業を受講する場合、通常最も重要な要素である”意思決定者との関係性”が欠けています。データジャーナリズムの方が教えるのが簡単なので、それをあなたは学んだかもしれません。それもストーリーテリングに重点が置かれます。

データジャーナリズムは特定の個人が意思決定を行うのを支援することではありません。それは大衆に対して情報を提示してアピールすることです。実際にはそれはアナリストがプロジェクトにもたらすオーダーメイドのものとは正反対です。

誤解しないでください。万能のサクセスストーリーには美しいものがあります。それは口コミで広がり、多くの人に小さな明かりを示します。しかし、それが完全に衝撃的なニュースでない限り、それは意思決定者の人生を少し変えるだけでしょう。かたや熟練したアナリストが提供できるものは、リーダーとそのビジネスの飛躍を可能にするインスピレーションです。

意思決定者について、また意思決定者の課題とプライオリティについて何も知らない場合、インスピレーションを引き出すのは困難です。あなたは結局のところ、万能のジャーナリズムに従事しようとし、きれいな筋書きとストーリーテリングで補おうとします。それでは根本的な問題を解決しません。アナリティクスは反復的、つまりはアナリストと意思決定者の会話がある時、価値が付与される機会が増えます。パート2では、反復的なアナリティクスのワークフローについて説明します。