AI・機械学習を中心に

AI/機械学習/データ分析/子育て/日々の雑感

[翻訳]AIユースケースを見つけるためのアドバイス

原文

Cassie Kozyrkov氏の記事より(2018/6/15)

medium.com

機械学習/AIはあなたの非効率を自動化します。聞こえはいいが、、、それはあなたが良いユースケースを見つけられた時だけです。

あなたがAIという驚くべき技術を利用することを助けるために、機械学習/AIに適したタスクを見つけるためのトリックがあります。これはあなたのアハ体験を引き出すための熟考のガイドです。

AIがイカサマだと想像する

AIが存在していないと想像してください。それはイカサマだと。つまり、どこか海の真ん中にある島に、私の友達がたくさんいてコンピュータの前でAIのふりをしていると考えてください。あなたが入力を送信したら、すぐに判定結果が返ってきます。

例えば、あなたが猫の写真を送ったら、彼らはしれっと”cat"を入力して送り返すので、いかにもクールな機械学習システムに見えます。

ここからが面白いところです。私はあなたにビジネスのためにこの島を貸し出します。無料です。ただ、一つ落とし穴があります。それは彼らに指示書で支持を伝えられず、事例でのみ教えられます。彼らの学習はとても速いです。1回限りのタスクに向けて彼らを教えるのは時間の無駄なので、あなたが削減したい繰り返し起きる苦痛なことに照準を合わせて下さい。あなたはこの島を何のために使いたいですか?

あなたが荷を下ろしたい繰り返しの苦痛は何ですか?

それに答えることにより、あなたは機械学習/AIの適切なアプリケーションへの道を進むことができます。そのようなタスクは”モノのラベリング”であり、一度あなたが想像力豊かになれば、あなたはそのようなものがたくさんあることに気づくでしょう。

ここにいくつか機械学習のラベルの例を挙げます。

等々…

これらは全てラベルー小さな意思決定―で、島の人たちはあなたのためにこれを学習してくれます。

彼らは酔っぱらっているかも?

しかし盲目的に彼らを信用してはなりません。まずはテストしてうまく振舞うことを確認して彼らが信用に足ることを確認して下さい。そのためにはあなたがまずタスクを正しく行うことを表現できなければなりません。AIの一般的な間違いとして、AIは魔法だからタスクが”うまく”行われることについて深く考えることをスキップしてしまうことがあります。

あなたはタスクが正しく実施されることについて知る必要がある

タスクをうまく実行することに興味がありながら、実際にタスクをうまく実行するとはどのようなことかを言えないならば、それは非常に問題です。データのことについて考え出す前に、あなたが仕事が正しく行われたことをどのように知るかについて把握しているということをしっかり確認した方がよいでしょう。別の言い方をすれば、島から帰ってきたラベルが正しいかどうか。

プロジェクトに責任ある意思決定者がタスクの性能をどうスコアリングするかを明確にできなければ、機械学習は成功の見込みがないでしょう。次の概要を説明したドキュメントを用意するまで、あなたは機械学習プロジェクトに飛び込む準備はできていません。

  • あなたのタスクが正しく実施されたとはどういう意味ですか
  • どのような(機械学習の)エラーが、他のエラーより悪いですか
  • もし1000のタスクが実施済みとなったら(一部は間違っている)、どのようにそのタスクに(性能評価の)スコアをつけますか?

AIプロジェクトはビジネスの意思決定者から始める必要がある

上の項目を説明したドキュメントを作成するために機械学習のPhDは不要であることに気づいたでしょう。一方で、ビジネスの理解が重要です。どのデータサイエンスプロジェクトも意思決定者から始まります。これは機械学習でも例外ではありません。心配はいりません。こちらに意思決定者が機械学習プロジェクトを始めるためのガイドがあります(翻訳版

スタートするための簡単な但し書き

ペンと紙を用意して、コンピュータを忘れて、(酔っぱらった?)島の労働者をイメージしてください。どのような繰り返しのタスクを彼らに助けてもらいたいですか?あなたはそのタスクを行うレシピを表現できますか?もしYESなら、単純にソフトウェアエンジニアにあなたのレシピをコードに落としてもらえばいいでしょう。もしNOなら、あなたは1000の不完全なタスクの性能スコアを言えますか?もしNOなら、思考を続けてください。もしYESなら、機械学習へようこそ!

f:id:eureka-me:20210712131421p:plain

AIをスタートするための但し書き

さらなるインスピレーションのために

以下は機械学習のラベルの例です。

  • ビーフードの成分:安全か腐っているか
  • 患者:理想的な投薬量か
  • メール:スパムかそうでないか
  • コールセンターへの録音された通話:重要なトピックか
  • ワインボトル:私が気に入るかどうか
  • ハンドル:右か左か
  • 写真:どの動物?
  • ゲームのピース:ボード上のどの場所に?
  • 文の始まり:分の終わり?
  • 在庫:明日の価格?
  • トランザクション:合法的か、不正か
  • データセンターの冷却システム:温める?冷やす?
  • 機械:いつメンテナンスが必要?
  • 在庫:いつ補充する?
  • シーンの説明:ビジュアルレンダリングピクセル
  • 今日の気温:明日の気温?
  • オークション:いくらで入札する?
  • 映画:それを好きかどうか?
  • ライブ講義:文字おこし?
  • 詩:大声でどのように聞こえるか?
  • 請求書の画像:合計金額はいくらか?
  • サービスリクエスト:待ち時間はどのくらいか?
  • 経費報告書:予算カテゴリは?
  • 録音:文字おこし?
  • 歌詞:翻訳?
  • 英語の文章:中国語の同じ意味?
  • フォームに正しく入力されていない:正しいフィールドは?
  • 衣料品:スカートか、ブラウスか、それとも?
  • ビデオ:どの俳優の?
  • テレビゲーム:ジョイスティックの動作
  • トイレ利用者:彼らは手を洗ったか?

 

[翻訳]AIを始めるならまずここから

原文

Cassie Kozyrkov氏の記事より(2018/10/19)

medium.com

イントロ

AI適用プロジェクトの多くのチームが、望ましい出力と目的を明確にする前に、アルゴリズムとデータに手を付け始めてしまいます。残念ながら、それはニューヨーク市のアパートで数年子犬を飼育してから、羊を飼うことができないことに驚いているようなものです。

最初のあなたの努力無しに、魔法使いにあなたのビジネスに機械学習の魔法を振りかけるようにお願いするだけで何か有用なものが得られることを期待してはいけません。

そうではなく、最初のステップは所有者(つまりあなた!)のためのもので、あなたが犬(または機械学習/AIシステム)から何を求めているか、そして犬をうまくトレーニングしたことをどのように知るかについて明確なビジョンを形成することです。

私の過去の記事で”なぜ”について議論をしていますので、ここでは機械学習/AIの最初のステップにおける”方法”について、やっかいな小さなサブステップも含めて記していきます。

以下が目次です。

  1. 誰が責任者かを明らかにする
  2. ユースケースを特定する
  3. 現実の確認を実行する
  4. 賢明に性能指標をつくり上げる
  5. 人間によるバイアスに打ち勝つためのテスト基準を設定する

以下が以降で登場するキャストです。

  • 意思決定者
  • 倫理専門家
  • 機械学習/AIエンジニア
  • アナリスト
  • 定性専門家
  • 経済学者
  • 心理学者
  • 信頼性エンジニア
  • AI研究者
  • ドメイン専門家
  • UXスペシャリスト
  • 統計専門家
  • AI制御理論専門家

1. 誰が責任者かを明らかにする

私たちが取り組もうとしているタスクは、プロジェクトに責任を持っている人間の責任のものなされます。それがプロジェクトの決定権を有する人物です。もしPhDの研究者がこの役割を担っていたとすれば、それはその人の意思決定スキルとビジネスに対する深い理解があるからです。もし誰かをその役職において、後でその人に対しとやかく周囲から言われるようならば、それは間違った人を選んだのでしょう。意思決定者(それは一人の人物の時もあればコミッティーの場合もある)という役割の人に期待されているのは、最終決定を下すことです。あなたの慈悲深い独裁者を賢く選出してください。

もし意思決定者が意思決定のアートとサイエンスに精通していない場合、定性専門家とペアにしてください。しかしその人がビジネスを理解していない場合、そのプロジェクトを降りるのが賢明でしょう。

2. ユースケースを特定する

アウトプットにフォーカスする

重要なことは機械学習やAIは魔法ではなく、すべての問題を解決できるわけではないということです。機械学習/AIは”ラベラー(ラベル付けをするもの)”であり、何にラベル付けをするかをあなたが考え出さなければなりません。

ラベル付けは何も分類問題(写真は猫か否か?のような)だけに限りません。ここでは「アウトプット」のことを「ラベル」と表現しています。それはカテゴリ、数値、文章、波形、グループID、単体の行動、ジョイスティックの動作、行動の文章、異常か否かのY/N、、、、いろんなものの可能性があります。

ML/AIシステムが稼働していると想像して、会社のリソースを使ってシステムを構築してシステムを構築して満足しているかどうか自問してみてください。いいえ?ブレインストーミングを続けてください。PhD保持者何人かが命を無駄にする前に、あなたのアプリケーションが必要ないということを発見する方がいいでしょう。

選択肢が多いのでこの作業は難しいでしょう。快適なソファに腰を下ろして熟考してください。ブレインストーミングの助けが必要なら、私のdrunk island exerciseを実施してみてください。

今はインプットの時間ではありません

意思決定者の中で、データに精通している人もいるでしょう。そういう人はインプットとアウトプットの両方を一度に議論し、、その違いも理解しているでしょう。私のアドバイスは「誘惑に打ち勝て」です。インプットについて今議論しないでください。あなたはそれができるかもしれませんが、いくつもある中で2つの理由を紹介します。

理由1:機会損失

この理由は主要な方です。ステークホルダーの何人かはあなたほどデータに精通しておらず、すぐに混乱してしまうことがあります。初めのうちは、あなたはリソースを節約したい、システムを保有するに値する理由を誤解してほしくないという想いから、アイディアをたくさん投げるかもしれません。彼らを混乱させないでください。今に集中して、それをどのように作るかではなく、それが何を作るかを彼らに伝えてください。

「それは目的なのかそれとも手段なのか」と自問してください。もしそれが手段であるならば、今はそれについて話さないでください。

 

理由2:暗黙の合意

長い間エンジニアの囲まれていたエンジニアとして、私は私たちのような人が細部にとらわれるのが大好きなんだということに気が付きました。大きな絵空事なんてくそくらえ、特に誰かが間違えている時に、物事の核心を軽視するのはとても楽しいのです。私たちは技術的な正しさが大好きです。

ここに悲喜劇があります。もしあなたが6時間もの間あなたの同僚と、変数xが目的変数yに対してよい変数かどうかについて議論しているならば、あなたは、つまり、目的変数yは追求する価値があるという意見を標準化したことになります。そもそも目的変数yに取り組むこと自体を疑問視することをやめてしまうので、構築する必要のないものを構築してしまうことになります。

ML/AIは多数の事柄に対してです

ワインボトルにY/Nをラベリングすることを自動化することに取り組もうとしているということを考えてみてください。あなたはたった1つや2つのワインボトルにラベル付けしたいわけではないということに注意して下さい。機械学習やAIはたくさんの繰り返しの意思決定を自動化することに意味があります。それは1回限りのものに対してではありません。

機械学習は1回限りのものに対してのものではありません。なので、あなたのビジネスが相当量の数のモノに対するラベリングをしているかどうかを確認してください。

あなたは少なくとも数千以上のものに対するラベル付けをイメージしていますか?そしてそれが実際の利用場面で、あなたはそれを予測する代わりにただ答えを調べることはできないということを確信していますか。OKなら、次に進みましょう。

まずペンをもってあなたが受け取るラベルをまず書き出してみましょう。(この例のY/Nは簡単に書き出すことができますが、よりクリエイティビティを発揮してエキゾチックなものを選択することもできます。)あなたが適切な答えが何かを知りたいものをかき出してください。ラベリングの誤りがどのようになるかを書き出してください。機械学習の間違いを予想してください!もしあなたが完璧さを期待しているならば、失望があなたの心を押しつぶしてしまう前に静かに立ち去ってください。

あなたは機械学習の準備ができていないかも

まだ、ユースケースを見つけ出すのに苦労していますか?しばらくの間、アナリティクスを優先して機械学習/AIの検討を一時停止してください。アナリティクスの目的は意思決定者のインスピレーションを引き出すことです。一度インスピレーションを受けたら再度機械学習/AIに戻ってきて始めればいいのです。機械学習/AIのプロジェクトのゴールはすべてラベリングを自動化することであるのに対し、アナリティクス(データマイニングとも言う)は全てのプロジェクトにおいてよいアイディアです。根底にある数学はほぼ同じであるのに、プロセスは全く異なります。データマイニングは発見のスピードを最速化することが全てであり、かたや機械学習/AIは自動化の性能が全てです。データマイニングでは、あなたのチームはたった一つのミスにしかなりませんが、ML/AIではたくさんの失敗のリストが存在します。あなたの悩みにあったユースケースがある場合のみ、機械学習/AIにサインアップしてください。

それは誰のためのもの?ユーザーのことを考えよう

あなたの眩いばかりの発明は誰のためのもの?誰が恩恵を受けるの?UXスペシャリストに相談して、あなたの対象ユーザーを設定する良い機会です。

新しいテクノロジーはしばしば”What”から始まります。しかし、”How”に進む前に”Who”をカバーしておくことは重要です。

UXデザイナーと過ごす時間で学んだことは、ユーザーが誰であるかについての私の反射的な説明は、通常非常に単純で深堀が足りないということです。間接的な受益者、全体としての社会、他のビジネス、その出力を入力とする他のシステム、デバッグ作業に当たるエンジニア等にとってのユーザビリティについて考えましたか?見苦しいUXデザインとなることを避けるために、先に進む前に時間をかけて可能性のあるすべてのユーザーカテゴリについて考えてみてください。ユーザーは顧客やエンドユーザーだけではありません。

それは倫理的に問題ないですか

もしあなたのアイディアが全ての人に一律に有益でないとしたらどうしますか?理想的なユースケースを計画する際には、あなたのシステムの存在により害を受ける可能性がある人を考慮してください。あなたの事業の競合他社のことを言っているわけではありません。あなたのアプリケーションによって害を受ける人間はいませんか?このことは、そのテクノロジーが数百から数億に拡大する場合には特に重要です。

あなたのシステムの想像により影響を受ける人のことを考えてください!だれが利益を得て、だれが危害を受ける可能性がありますか?

もし倫理専門家がいればこの段階で加わってもらうと役に立つでしょう。

3. 現実のチェックを実行する

あなたが求めているラベルが明確に表現できたらば、素早く現実をチェックします。つまり、このビジネス上の問題に関するデータを保有していますか?

もしデータがなければそれ以上進むことはできません。もしかするとオンラインでデータを取得できるかもしれません。無料でデータを利用可能にする流れが存在します。例えばコレ

しかしそれでも関連性がなければなりません。明らかに無関係なデータは無意味です。あなたは現段階でそれを分析する必要はありあせんが、のちに分析をするためのデータが実際にあるかどうかはチェックしなければなりません。

関連するデータにアクセスできない、またはそれを処理するためのコンピュータがない?それでは何もできません。

現実のチェックリスト

  • 適切なタスク:たくさんの意思決定/ラベリングを自動化しようとしていますか?それは完璧な答えを毎回見つけることができないものですか?
  • 現実的な期待:そのシステムは優秀でも完璧ではないことを理解していますか?偶発的な間違いがあっても利用できますか?
  • 稼働可能性:あなたはそれらを本番環境で提供することができますか?あなたが予測しているスケールで実行するためのエンジニアリングリソースを集めることができますか?エンジニアと一緒になった後でより詳細にこの質問について調べることになるので、この段階では問題がないことのざっくりとした確認で十分です。
  • 学習データ:有用であることが期待できる入力データが存在しますか?それにアクセスできますか?
  • 十分な学習データセット:統計専門家や機械学習エンジニアの仲間とコーヒーを飲んでいるときに、利用できるデータセット数について何気なく話してみてください。彼らの眉間にしわが寄っていませんか?
  • 計算機:データセットサイズを処理するのに十分な処理能力を持った計算機にアクセスできますか?
  • チーム:必要なスキルを持ったチームを編成できると確信していますか?
  • 正解、教師データ(Ground Truth):(教師無し学習を行わない限り、)出力(正解)を取得できますか?ない場合、正解を作るために人員を割くことができますか?
  • 健全な記録:どの入力がどの出力に結び付くか判断することは可能ですか?
  • 記録の品質:データは信じられるほど正確ですか?

チームを集める

チェックリストをクリックしたら、次は人員を集めてチームを作っていきます。これに関しては、こちらの記事を参照。

4. 賢明にパフォーマンスメトリックをつくり上げる

トレードオフを把握する

あなたはoutcomeがどれだけの価値があるかを決める責任があります。Yを取得したまずいワインボトルは、私たちが機械を失ったおいしいワインボトルの2倍悪いですか?それとも3.48倍?それはあなた次第です。

苦戦していますか?数字が好きな人を巻き込んでブレインストーミングを手伝ってもらいましょう。定性専門家(Qualitative experts)はこのことに対し特別にトレーニングされています。最良の助っ人が必要な場合には、正式なジャーゴン無差別曲線を導き出したい)を五芒星で発生して、経済学者を召喚します。

経済学者はAIプロジェクトにおいて驚くほど便利な助っ人になります。

これで、一つの出力でさまざまな結果をトレードオフする方法を見つけ出しましたので、次は一度に数千の出力をスコアリングする方法を考えましょう。ここでは意思決定者がボスなので、正しいスコアリングの方法はあなたのビジネスにおいて何が正しいかによって異なります。

(任意)エキスパートモード:シミュレーション

トリッキーで複雑なプロジェクトはシミュレーションから多大なる恩恵を受けます。ここでフェイクの、しかしもっともらしいデータを生成するのに長けたアナリストが、選択の期待される結果を確認するのに役立ちます。

シミュレーションはドレスリハーサル(本番同様に衣装を着けて行うリハーサル)です。実際にプロジェクトをスタートさせる前に、多くのよじれをただすのに役立ちます。アナリティクスのように熟考してすべての事柄について考えることは、意思決定者の任務のいくらかの負担を取り除きます。

あなたのパフォーマンスメトリックを作る

パフォーマンスメトリックを作成するには様々な方法があります。ワインの例では、とても単純なものを選べます。それはaccuracy正解率、通称”間違えるな”)です。全ての間違いは等しく悪く(0)、すべての正解は等しく良い(1)とし、平均を取ります。

もしあなたがよいワインの取りこぼしを非常に恐れていて、ハズレが含まれることは問題ないのであれば、異なるパフォーマンスメトリックであるrecall再現率)を使用します。またはあなたはお金を無駄にしたくない、予算が厳しい時など。システムがおいしいと言っていたら、絶対においしくあって欲しい、けれどおいしいボトルを見逃してしまうことはOKな時、precision適合率)というパフォーマンスメトリックを選択します。ここでは、あなたのビジネスに対して適切なことを反映するパフォーマンスメトリックを作りましょう。

専門家によるレビューを求める

人間の幸福が実質的に懸かっているようなアプリケーションでは、専門家のパネルと相談して、何らかのひねくれた有害な方法でメトリックが高得点を獲得できないことを確認してください。

何の専門家?意思決定者、倫理専門家、AI制御理論専門家、統計専門家、UX研究者、行動経済学者、ドメインエキスパート、信頼性エンジニア等。

確かに悪意がないビジネスアプリケーションにおいてはやりすぎになる可能性があるため、定性専門家などがこの内容をカバーできる可能性があります。

ハロー!ビジネスパフォーマンスメトリック!

これでビジネスのパフォーマンスを測るメトリックの完成です!

これは後に触れる損失関数と同じものではありません。メトリックに関しては、可能性は無限大であり、実際に何が重要かを判断するのは意思決定者の責任です。

[専門用語注意!]AI専門家が知っておくべきこと

損失関数とパフォーマンスメトリック、2つの指標が存在しているということが分かるでしょう。

損失関数は最適化のためのものであり、テストのためのものではありません。

統計的検定では「この仕組みは構築/ローンチに値する程度に性能を発揮するか」と問いかける必要があります。性能を発揮するとは、ビジネス上の課題とビジネスオーナーによって定義されるべきです。凸型最適化に合うようにビジネスの問題定義を変更するようなことはしてはなりません。便宜的にはリーダーが生み出した関数と同じ方向に移動する標準的な損失関数を使用して自由に最適化することはできます(分析的に、またはシミュレーションで相関係数チェックを実行※1)。しかし、彼らの関数(パフォーマンスメトリック)をテストしてください※2。一般的な誤りは、ソフトウェアの欠陥、大学のコースの形式、意思決定者のAIに関する

 

※1 標準的な損失関数がパフォーマンスメトリックとうまく相関しない場合、意思決定者にアラートを上げ、要求事項は非常に難しく最適化の研究者を雇う必要があるかもしれないことを伝えた方がよいでしょう。

※2 異議を唱えるAIエキスパートはこれを読んでください。

5. 人間によるバイアスに打ち勝つためのテスト基準を設定する

関心のある母集団を定義する

システムが”稼働している”ということは、あなたが稼働することを意図しているインスタンス(≒データポイント、観測値、例)を指定するまでということを意味しています。全てのUSの夏の入力か、グローバルの入力か、これらによって異なります!

次に進む前に、あなたは関心のある統計的な母集団を定義する必要があるでしょう。それは、システムが優れたパフォーマンスを発揮する必要があるインスタンスの集合です。二部構成のガイドを用意してあります。

プロジェクトを潰すことをコミットする!

これであなたはパフォーマンスメトリックと母集団を手にしました。もう一つやるべきことがあります。ここまで来るのに何カ月もかかることがあります。

最後のタスクは、「サインオフ(承認)しようと考える最小のパフォーマンスを決定する」です。つまり、あなたに、このシステムが十分に良くない限り、このシステムにラベリング(AIにさせようとしている作業)をさせないということを約束させようとしています。

十分に良いとはどういうことでしょう。それはあなた次第です。しかし、今すぐにコミットしなければなりません。

テスト基準の設定は、あなた(や私)が恐ろしい機械学習やAIから身を守るための方法です。

この基準は目標とする星ではありません。チームに対して伝える到達目標とするパフォーマンスレベルを別に設定しても構いません。しかしそれはあなたがテストする基準ではありません。単純に最低ラインに対してテストを行います。

私たちはバイアスを持つ生き物

なぜプロジェクトチームの編成をする前に、この基準を考えているのでしょう。なぜなら、人間として私たちは多少の愛すべき認知バイアスに晒されてしまうということが分かっています。人間が何かに時間と労力を費やすとき、私たちは自分たちが作ったものが好きになってしまいます、たとえそれが有毒なゴミの山だったとしても。その時私たちは自分と次のように交渉していることに気づくでしょう。

「うーん、けれどパフォーマンスはそれほど悪くはない。私は12%の精度に一定の誇りを持っています。いずれにしてもシステムをローンチできるんじゃないですか?テスト基準を10%ということにしてはどうですか?ほら、クリアするでしょう?それは統計的に十分良いということになります。」

 こちらに悲しいトピックがあります。

私たちがまだ冷静である間に、そしてまだ多くのリソースを注ぐ前に、冷静にビジネスの問題を見つめ、「この最小要件を満たさない場合、私はそれを殺すことを約束します」と言わなくてはなりません。

人間より良い?

人間より良い?無意味な言葉です。

機械が私たちよりも優れているかどうかについて、あまり気にしないでください。コンピュータはいつも私より優れています、乗算の計算において。私のバケツは私より水を保持するのに優れています。労力を削減したり、達成できることを増やしたりすること以外に、道具に求めるポイントはなんでしょうか。

そうではなくて、それが役立つのに十分かどうかに照準を合わせましょう。

あまり求めすぎないこと

常に人間よりも優れたパフォーマンスを要求すると、利益を逃してしまう可能性があります。それはレンガを敷くためだけにオリンピックの金メダリストを雇うといっているのと少し似ています。もちろん、オリンピック選手はそこらの平均的な人よりも強いですが、そのような厳格な採用基準を持っていると、労働者が全くいないということになる可能性があります。

ビジネス上意味がある範囲で基準を下げてください。

過剰に高い採用条件を設定することで有益な解決策を逃さないでください。

自動化により、時に手作りの商品のユニット当たりの品質が低下する場合があります。しかし、マシンの規模と速度はビジネスにとって価値があります。それはあなたのビジネスにとって価値がありますか?

 

以上が機械学習/AIのステップ1です。ステップ2はデータやハードウェア、エンジニアが加わります。

[翻訳]決定インテリジェンスの概要~AI時代のリーダーシップのための新しい学問分野~

原文

Cassie Kozyrkov氏の記事より(2019年8月3日)

towardsdatascience.com

 

イントロ

サバンナでライオンを回避するための心理学が、責任あるAIリーダーシップやデータウェアハウスの設計の課題と共通しているということをご存じですか。ようこそ決定インテリジェンス(decision intelligence)へ。

決定インテリジェンスはオプション間の選択の全ての側面に関係する新しい学問分野です。それは、応用データサイエンス、社会科学、経営科学を統合した分野にまとめ、人々がデータを使って生活、ビジネス、そして周囲の世界をよりよいものにすることを支援します。それはAI時代における不可欠な科学であり、AIプロジェクトを責任をもって主導し、目的、メトリック、大規模自動化するためのセーフティネットなどを設計するために必要なスキルを網羅しています。

決定インテリジェンス(decision intelligence)は情報をあらゆる規模においてよりよい行動に変換するための学問分野です。

その基本的な用語の定義と概念を見てみましょう。各セクションはskim-reading(文章の全体像をつかむためにざっと読むこと)に適した形で構成されています。

決定(decision)とは何か

データは美しい。しかしそこからの意思決定が重要です。私たちの意思決定―つまり行動―によって、私たちは世界に影響を与えます。私たちは「決定(decision)」という言葉を「任意のエンティティにおけるオプション間の選択」という風に定義しており、(例えばビジネスにおいてロンドンに支社を開くかどうかといった)MBAで扱うような二者択一よりも広い話となります。

この用語の定義において、ユーザーの写真に猫か否かのラベルを付与することがコンピュータシステムにおける決定であり、一方でそのシステムをローンチするか否かを判断することがプロジェクト責任者であるリーダーの人間が下す決定です。

意思決定者(decision-maker)とは何か

私たちの用語の定義においては、「意思決定者(decision-maker)」とはプロジェクトチームの計画を拒否/不承認するような利害関係者や投資家のことを指すのではなく、むしろ意思決定アーキテクチャやコンテクストフレーミングの責任者のことを指します。別の言い方をすれば、「細心の注意を払って表現されたプロジェクトの目的を考える人」のことであり、それを壊そうとする人ではありません。

意思決定(decision-making)とは何か

「意思決定(decision-making)」とは各分野において異なった使われ方をしています。そのため、それは以下のようなことを指します。

  • 複数のオプションがある中で一つの行動をとること(この意味においては、コンピュータでもトカゲでも意思決定(decision-making)をすることはできます)
  • (人間の)意思決定者の機能を発動すること、その一部としては判断(decision)に責任を持つということ。つまり、コンピュータシステムも判断を下すことはできますが、それは意思決定者とは呼ばれません。なぜならその出力に対し責任を負っていないからです。その責任はそれを生み出した人の肩に乗っています。

「計算結果の出力」と「意思決定」の違い

全ての出力/提案は決定(decision)ではありません。Decision analysis(決定分析)の定義によると、決定は取り返しのつかないリソースの割り当てが行われた場合のみ成されます。何のコストもなくあなたが心変わりができる限り、何の決定も成されてはいません。

決定インテリジェンスの分類

決定インテリジェンスについて学習するための一つの方法は従来の方針に沿って、それを定量的側面(応用データサイエンスと大部分が重複しています)と定性的側面(主に社会科学と経営科学の研究者によって発展させられています)に分解することです。

定性的側面:決定科学(decision science)

定性的側面に対する学問分野は伝統的に決定科学(decision science)と呼ばれてきました。決定科学は次のような質問と関係しています。

  • どのように決定基準を設定し、メトリックを設計すべきか(全て)
  • あなたが選択したメトリックはincentive-compatible(インセンティブ互換)か(経済学)
  • この決定を下すにはどれだけの情報の品質が必要であり、完璧な情報を得るためにはどれだけのコストが必要か(決定分析)
  • 感情、ヒューリスティクス、バイアスは意思決定にどれだけ影響するか(心理学)
  • コルチゾールレベルのような生物学的要因は意思決定にどのように影響するか(神経経済学)
  • 情報の提示方法を変更すると、選択行動にどのように影響するか(行動経済学
  • グループで意思決定を行うとき、どのように得られる成果を最適化するか(実験ゲーム理論
  • 意思決定のコンテキストを設計するとき、たくさんの制約と多段階の目的のバランスをどのようにとるか(デザイン)
  • 決定の結果を誰が経験し、各グループがその経験をどのように認知するか(UXリサーチ)
  • 決定の目的は倫理的にどうか(哲学)

これはほんのごく一部です。関係する分野のリストも全く網羅しているとは言えません。決定科学(decision science)サイドは、データと呼ばれる(紙や電子といった)半永久的な記録媒体にきちんと記録されているものというより、人間の脳というあいまいな記録媒体における決定に向けた準備と情報処理を扱うと考えてください。

あなたの脳の問題

前世紀には、無邪気な人間の努力のたまものに膨大な数式を詰め込んだものが賞賛される風潮がありました。通常、定量的なアプローチをとることは無思慮なカオスよりも優れていますが、しかしさらに優れた方法があります。

意思決定や人間行動の定性的理解の無い純粋な数学的合理性のみに基づく戦略は非常にナイーブ(単純でだまされやすい、考えが甘い)であり、定量的と定性的を組み合わせた方法に基づく戦略と比べてパフォーマンスが劣化する傾向があります。

人間はoptimizer(最適解を求めるもの)ではありません。私たちはsatisficer(最低限満足のいく解を求めるもの)です。(このことは私たちの種の傲慢さに衝撃を与えるコンセプトだと考えます。これはノーベル賞にも値するでしょう。)

実際、私たち人間は時間と労力を節約するため認知的なヒューリスティクスを使用しています。それはしばしば良いことです。サバンナのライオンから逃げるための最適なルートを考え出すと、計算を開始する前に私たちは食べられてしまいます。私たちの脳は途方もなくエネルギーを消費するデバイスであり、重量がわずか約3ポンドであるにもかかわらず体全体のエネルギー消費の5分の1も消費しています。そのためSatisficing(不満なく事足りていること)は生きるコストを節約できます。

 私たちのほとんどはライオンから逃げる日々を送っていないので、私たちは手を抜いた結果ゴミのような結果につながることがあります。私たちの脳は現代の環境に合わせて最適化されているわけではないのです。私たち人間が情報を行動に変換する方法について理解することで、意思決定プロセスを使って自分の脳の欠点から身を守ることができます。そうすることで、あなたのパフォーマンスを増強し、あなたの環境を脳に適用するのを助けるツールを構築するのにも役立ちます(ダーウィンの進化論にあなたの脳が間に合わないならば)。

ちなみにAIが人間を数式から解放すると考えるならば、考え直してください!すべてのテクノロジーはそれを生んだ人の反映であり、大規模に動作するシステムは人の欠点を増強することができます。それが、責任あるAIリーダーシップのために決定インテリジェンスが必要である一つの理由です。より詳しく知りたい場合はコチラ

おそらくあなたは意思決定をしていない

時に、あなたの意思決定の基準について注意深く考えてみることで、あなたの心を変えるような事実(fact)は世界に存在しないと気づくことがあります。あなたはすでに行動を選択しており、あなたはより快く感じる方法を探しているに過ぎないということです。それは便利な現実です。つまりそれはあなたが時間を無駄にするのを防ぎ、あなたがいずれにしろやろうとしていたことをやっている間、感情的な不快感を別に向けることを助けます。データなんてへったくれです。

「彼は統計を、まるで酔っ払いが街灯を照明ではなく支えのように使うかのように、利用します」- Andrew Lang(イギリスの詩人、小説家)

あなたが、未知のさまざまな事実に対応して、さまざまな行動をとるわけでない限り、そこに決定はありません。決定分析のトレーニングはこのような状況をよりはっきりと把握するのに役立つことはありますが。

完全な情報の下での意思決定

あなたは事実に敏感に反応する決定問題を注意深く定義でき、指をパチンと鳴らすだけで意思決定を実行するために必要な事実情報(fact)を確認できるような状況を想像してみてください。何のためにデータサイエンスが必要ですか?いえ、何にも必要はないでしょう。

事実(fact)―確信をもってあなたが知っていること―に勝るものはありません。ですから、私たちはもし事実(fact)を知っているならばそれに基づいて意思決定をすることを好みます。そのため、ビジネスの最初の段階は、事実(fact)に対しどのように対処したいかを理解することです。次の用途のうち、理想的な情報(fact)を提供したいものはどれですか?

あなたは事実(fact)で何ができますか?

  • あなたはその事実を用いることで、事前に構成された1つの重要な意思決定を下すことができる。それが十分に重要である場合には、質的側面に大きく頼って決定問題を賢く構成する必要があります。もしあなたが予期しない驚くべき情報を不意に受けてしまうと、あなたが望まない方向にあなたを操作してしまう可能性があることが、心理学者の間で知られている。そのため、心理学者はあなたが受容する情報を事前に選択するアプローチについて多く語ることがある。
  • あなたはその事実を用いることで、事前に構成された特殊な種類の意思決定を下すことができる。その意思決定とはimpact (またはcausal)decisionというものである。もしあなたの決定問題が何かを引き起こすために行動を起こすという観点で構成されている場合、意思決定を下すための因果関係についての事実が必要である。このような場合には、結果に関する事実(例えば、人々はこの病気から回復するといった情報)は、もし原因(例えば、抗生物質により)と一緒に得られなければ不要である。原因と結果の情報を入手する方法は対照実験を行うことです。一方、もしあなたが因果関係のない事実への応答としての”実行”に関する意思決定を行おうとしている場合(例えば、もし銀行口座に〇以上の金額がたまったら、私は新しい靴を買おう、など)、実験は必要ない。
  • あなたはその事実を用いて、自身の意見を裏付けることができる(「おそらく外は晴れているだろうと思います」が「外は晴れているということを知っています」になる)
  • あなたは事実を用いて、一つの重要な存在ベースの意思決定を下すことができる。存在ベースの意思決定とは過去に未知であった事象の存在により、あなたのアプローチの根底が大きく揺さぶられ、後から考えて、あなたの決定のコンテキストはずさんに構成されていたということに気づき下されるものである。(「すぐ隣にエボラ出血熱の症例があることが分かったので、私はここから出ていきます」)
  • あなたはその事実を用いて、多数の決定を自動化できる。従来のプログラミングでは、人間が事実から適切なアクションに変換する命令を指定する。ルックアップテーブルのようなものはこれに当たる。
  • あなたはその事実を用いて、自動化ソリューションを明らかにすることができる。システムに関する事実を知ることで、それらに基づきコードを書くことができる。これは情報なしでひたすら考えてソリューションの構造を考え出す従来のアプローチよりも良いものである。例えば、もしあなたがセ氏温度をカ氏温度に変換する方法を知らず、ただセ氏とカ氏の対応データだけ利用できる場合、おそらくあなたはそれらの関係式を分析により導き出すことができるだろう。そしてその関係式(”モデル”)をコード化するだけで、あなたの泥臭い仕事を代わりにやってくれて、あなたは不格好なテーブルを捨て去ることができる。
  • あなたはその事実を用いて、完全な解が求められる自動化問題の最適な解決策を生成することができる。これが古典的な最適化問題である。オペレーションズリサーチの分野では、例えば一連のタスクを完了させる最良の順序など、理想的な結果を得るためにどのように制約条件を調整するかなど、多くの事例がある。
  • あなたはその事実を用いて、未来の重要な決定事項に対しどのようにアプローチするか示唆を生むことができる。これはアナリティクスといい、部分的な情報のセクションにも含まれている。
  • あなたはその事実を使用して、あなたが扱っている内容を見積もる、吟味することができる。これにより将来の決定のために利用できるインプット情報の種類を理解し、情報をよりよく収集する方法をデザインすることができる。もしあなたが未知の材料(データ)でいっぱいの暗くて大きい倉庫(データウェアハウス)を引き継いだばかりの場合、誰かがその中を見るまであなたはその中に何があるかわからないでしょう。幸運にもアナリストがその中をスピーディーに確認できる。
  • あなたはその事実を使用して、ぼやっとした決定事項を作ることができます。これは意思決定の重要度が低く、慎重にアプローチするほどでもない場合に有効である。例えば、「今日何食べる?」など。全ての決定事項に対し常に厳密であろうとすると、あまり最適ではない解が長い時間をかけて得られてしまい、いわゆる「完璧主義」に陥ってしまう。重要な決定を下す場面に備えて労力を節約しましょう。しかし、低品質-小労力のアプローチが効率的であっても、そのアプローチが低品質であるということを忘れないでください。そのアプローチから得た結果に自信過剰にならないようにしてください。

決定科学(decision science)のトレーニングにより、厳密でファクトベースの決定事項に対する労力を削減する方法を学びます。つまり同じ作業量で、全体的により高い品質の意思決定が得られるようになります。これはとても価値のあるスキルです。しかし、それを磨くにはとても多くの時間が必要です。例えば、行動経済学の学生は情報を得る前に前もって決定基準を設定する習慣が形成されます。このように決定科学のトレーニングを受けた人は、チケットの値段を見る前に、チケットに支払える最大額を自問せずにはいられなくなります。

データ収集とデータエンジニアリング

もし事実がそこにあるであれば、それはもう終わりでしょう。悲しいかな、私たちは現実世界に生きていて、しばしば自分の情報のために作業しなければなりません。データエンジニアリングはデータを大規模に、確実に利用できるようにすることに向けた洗練された分野です。1パイントのアイスをスーパーに買いに行く時のように、利用可能な全ての関係する情報が一つのスプレッドシートに収まるならば、データエンジニアリングは簡単になります。

しかし、200万トンのアイスクリームを溶かさずに配送するとなったら、、事は急にややこしくなります。巨大な倉庫を設計し、立ち上げ、保守する必要があり、将来どのようなものを保管する必要が出てくるのかわからない場合はなおさらです。それは魚かもしれません、またはプルトニウムかも、、、頑張って!

データエンジニアリングは決定インテリジェンスとは別の姉妹分野でありカギとなるコラボレーターですが、決定科学には事実情報のデザインと収集に対する助言の専門知識が多分に含まれています。

定量的側面:データサイエンス

もしあなたが決定問題を定義し、必要な事実を検索エンジンやアナリストを通じて見つけたら、あとは決定を下すだけです。それでおしまい!あいまいなデータサイエンスは必要ありません。もしその全ての”フットワーク”とエンジニアリング”柔術”をもってしてもあなたの決定問題に対して理想的な情報が得られなかったら?もし、部分的な情報しか得られなかったら?おそらくあなたは明日の事実が欲しいのでしょう。しかしあなたはあなたは過去の情報しか得ることができません。おそらくあなたはあなたの携わる製品の潜在顧客が何を考えているのか知りたいのでしょう。しかしあなたはそのうちの数百人にしか質問することはできません。この時あなたは不確実性について扱わなくてはならなくなります。あなたが知っていることは、あなたが知りたかったことではありません。データサイエンスにようこそ!

当然、あなたが持っている事実があなたが欲しい事実と異なる場合、あなたはアプローチを変えるべきです。おそらくそれはもっと大きなパズルの1ピースでしょう(大きな母数からのサンプリングのように)。おそらくすれは正しいパズルではないでしょう、しかしあなたが持っている最善のものです(過去からの未来の予測のように)。あなたがデータの範囲を飛び越えなくてはならない時、データサイエンスは面白くなります。しかし、イカロスのような断定は避けるように注意してください。

  • あなたは部分的な事実を用いて、統計的推論を用いた仮説であなたが持っている情報を補完することで、事前に定義された決定を下すことができます。これが頻度主義(古典的)統計です。もしあなたがinpact decision(何かの出来事を引き起こすために行動をするという観点で定義された決定問題。例えば、もしより多くの人がウェブサイトを訪れるようになるのならば、ロゴの色をオレンジに変更する、など)に取り組んでいる場合、ランダム化対照実験から得られたデータを使うのがよいでしょう。もしあなたがexecution decision(例えば、ユーザーの少なくとも25%がオレンジをお気に入りの色だと考えているのならば、ロゴの色をオレンジに変更する、など)に取り組んでいる場合、調査または観察研究で十分です。
  • あなたは部分的な事実を用いて、あなたの考えをより情報に基づいた(それでも依然として不十分で個人的な情報ではある)考えに論理的に変換することができます。これがベイズ統計です。もしあなたの下したい決定に原因と結果の関係性が含まれているようなら、ランダム化された対照実験からのデータを使うのがよいでしょう。
  • あなたは部分的な事実が、ある事柄の存在に関する事実に変換される可能性があります。それにより、存在ベースの意思決定を後から下すことに使用できます。
  • あなたは部分的な事実を用いて、大量の決定事項を自動化することができます。これは、過去に見たことのないものを過去の最も近いものに変換した上で行う、ルックアップテーブルのようなものです。(それが一言でいえばk-NNです)
  • あなたは部分的な事実を用いて、自動化ソリューションに示唆を与えることができます。システムに関する部分的な事実を見ながら、あなたはコードを書くことができるでしょう。これがアナリティクスです。
  • 部分的な事実を用いて、解を完全に計算で求めることができない問題に対する適切な解決策を生成することができます。これによりあなた自身で考え出す必要がなくなります。これが機械学習やAIが指すところです。
  • あなたは部分的な事実を用いて、将来の重要な決定事項にどのようにアプローチするかに関し示唆を得ることができます。これがアナリティクスです。
  • あなたは部分的な事実を用いて、あなたが扱っているシステムを理解し、高度な分析機能を有する自動化処理の開発を加速することができます。例えば、有効な入力情報を生成するために情報を混ぜ合わせる新しい方法(専門用語で言うところの「機械学習エンジニアリング」)やAIプロジェクトにおける新しいアルゴリズムの案出に示唆を与えます。
  • あなたは部分的な事実を用いて、ぼやっとした決定事項に対するずさんな形での意思決定を下すことができます。あなたが知っていることはあなたが本当に知りたいこととは一段とかけ離れているので、意思決定の質が一段と低下することに注意してください。

これらすべての用途に対し、以前はサイロ化されていたさまざまな分野の知恵を統合し、意思決定をより効果的に取り組む方法があります。それが決定インテリジェンス(decision intelligence)です。それは意思決定に関する多様な観点を一つにまとめ、私たちを強化し、元の研究分野の制約から解放された新しい声を与えてくれます。

もしあなたがさらに興味があれば、Medium.comに私のほとんどの記事があります。私の"starting AI projects"の記事がおそらく最もおおざっぱなものでしょう。なのでそこから飛び込んでみることをおすすめします。

 

 

[翻訳]データサイエンスリーダー:あなたたちは多すぎる

原文

Cassie Kozyrkov氏の記事より(2018年6月1日)

towardsdatascience.com

 

データサイエンスは実際いくつかの問題を抱えています。しかし、まず初めにある一つの問題から見ていきましょう。それはリーダーシップです。

本日、私はデータサイエンス(機械学習、AI、統計、データサマライゼーション、ビジュアライゼーションを含む領域)のリーダーの前で話しています。本日のデータサイエンスチームを率いている輝かしい先駆者たちの顔を見て思うことがあります。それは「あなたたちの数が多すぎる」ということです。

何ということか!データサイエンスの人材不足が酷いのだから、そのリーダーシップにおける人材不足はもっと酷いのではないか、と言うでしょう。

今日におけるデータサイエンスリーダーのほとんどは、私が”transcended data scientist(超越したデータサイエンティスト)"と呼んでいる方々です。科学、工学、または統計学の公式なトレーニングを終えて、奇跡的にある日、自分たちのために数学的な複雑さを追求するよりもデータを有効活用することに興味を持った方々です。

データサイエンスリーダーは、あらゆる可能性に逆らった存在です

データサイエンスのリーダーは、あらゆる可能性に逆らった存在であるため、あなた方の数は多すぎます。あなた方はほぼ何もトレーニングされてこなかったので、あなた方は値するより多く存在してしまっています。どうしてこのような幸運なアクシデントが起きたのでしょう?誰もあなたにあなたがすべきことをどのようにするかを教えてこなかったので、幸運にも存在してしまっています。10年以上数式を勉強した後、どのようにリーダーシップをとるか、どのように良い意思決定をするのかを勉強する予定でしたか?私のSRE(Site Reliability Engineering)の同僚が言うように、「希望は戦略ではありません」。

そこにはあなたよりもっとたくさんありますが、あなたの計画は?

もしあなたが定理が好きならば、定理はこうです:時間は有限です。なのでもしあなたがファインマンやデフィネッティを学ぶために時間を費やしているならば、他のスキルを構築するために多くの時間を費やすべきではありません。私たちはデータサイエンティストに、即座に良いリーダーや意思決定者になることを知ることを期待することはできません。誰がそれを彼らに教えるのですか?一日中分析コードを書いたり定理を証明することでリーダーシップを学ぶことはできません。

替わりに、よいリーダーや意思決定者になるためには、彼らの萎縮した筋肉の弱さを認識する謙虚さと、2番目の技術を習得するための勤勉さが必要なのです。彼らがその難しい事柄を学んでいる間、時に打撲傷を負うこともあるでしょう。確率論がこの宇宙で最もホットなモノであると考え出した人間として、私はこれがどれほど苦痛であるかを知っています。

そこには態度の問題があります。私たちは本当にそのスキルに価値を置いていますか?

もしあなたの経歴が私と似ていたならば、あなたは”数学礼賛の"サブカルチャーの中で育ったかもしれません。そこでは「ソフト」スキルのような臭いがするものに対して軽蔑を示す風潮があります。ある定理を証明したり、第6番目の言語でコーディングしたりして一晩中起きていることにどれだけ熱心であるかに対し胸が高鳴ります。あなたがそのカルチャーにどっぷりはまっているとき、あなたはリーダーシップ(またはコミュニケーション、ビジネスセンス、クリエイティビティ―、共感、などなど)を大切にすべきだと思わないかもしれません。そして、あなたのクラスメートはもしあなたがそのような「ソフト」スキルに走ったらあなたを尊敬すると思いますか?

私はそれらを「ソフト」スキルと呼ばず、「自動化することが最も難しい事柄」と呼びます

解決の糸口はこれらのスキルが生のデータサイエンスのように魅力的なもので、ハードコアであることに疑いのないものであるという風に風潮を変えることです。もし”気取っていること”が若者にとってなくてはならない場合には、少なくとも両方の種類の筋肉が使えることが最高の名誉であることを彼らに納得させましょう。結局のところ、それは事実です。

ハードルは高く、その仕事についている人全員がそれを満たしているわけではありません

データサイエンスのリーダーシップは、単に学期の成績がトップクラスであることのリーダーシップではありません。意思決定やいかに情報が行動をドライブするかについて深い理解を持っているだけでなく、特定のビジネスドメインに効果的に影響を与える方法のニュアンスに鋭敏な嗅覚が必要であり、大規模なデータサイエンスプロジェクトを成功させるために連携する必要のある多様なスキルのエコシステムについても理解が無くてはなりません。そしてそれは、このゲームに参加するための最低限のことです。

これは非常に高いハードルで、データサイエンスチームをリードするすべての人がそれをクリアしているわけではありません。雇用主の皆さん、データチームを率いるための本物の人物を採用しているかどうかをどのように知ればよいのでしょう?もしあなたのデータサイエンスチームがすでに悪いリーダーシップを発揮してしまっていたら?どのようにそれを判別しますか?あなたの頼れるこの役割に対する知恵はほとんどありません。誰に質問すればよいのでしょう?

データサイエンスはバブルか?

今日、世界ではいまだかつてない量のデータが生成されています。しかし、私は時に「データサイエンスはバブルでしょうか」というような質問を受けます。私は信念をもってそれに「絶対に違います」と答えます。真実は、「場合による」です。残念ながら様々な業界の方と会話すると同じ話を聞きます。「我々のデータサイエンティストチームは使えない。彼らは論文を出すことばかりを考えている。」私たちはこのあまりにも一般的な現象を防ぐことができるような有能なリーダーを獲得することができるのでしょうか。もしデータサイエンティストが自分たちが価値があることを証明できなければ、彼らがその仕事に就くことは長くはないでしょう。

新鮮な香りのする科学のPhDがビジネスに有意義に貢献する方法を知っていると期待するのは不公平でしょう。それは長年かけて彼らが学んできたことではないからです。データサイエンスの内容を理解しており、データをビジネスとをつなげる方法を知っている人からの支援がなければ、彼らにとって不利な条件でしょう。データサイエンスがバブルでないことを確かなものにするために、今すぐに特別なリーダーシップが必要です。それはどこからくるのでしょう?

データサイエンスリーダー向けトレーニングプログラムはどこにあるのか?「希望」は「戦略」ではない

皆さん、私たちは幸運であることに感謝しましょう。いくらか良いデータサイエンスリーダーは存在し、スキルはそこにあります。おそらく苦痛を伴って1つずつ獲得されたスキルであり決して効率的に獲得されたものではありませんが、それでも正しいスキルです。私はあなた方が私と同じように緊急性を感じていることを願います。困難な方法で学んだ一部の人間が、よりよい方法で他の人にトレーニングすることを始めなくてはなりません。

私はその一人として自分の役割を果たすことにコミットしています。私はGoogleにて、データサイエンスの実際に問題への適用にフォーカスを当てたチームの一員として効果的にチームリードし働く立場の、新しい種類の「思想家」を育てることに取り組んできました。正しいスキルを構築するため、データサイエンスとエンジニアリングからアイディアを取り入れ、行動科学と経営科学でそれらを強化しました。共通のコアが理解されるまでそれは学際的なものにしか見えません。その共通のコアが「意思決定とそれをドライブする情報」です。それが私たちがDecision intelligenceと呼んでいる理由です(もしあなたが好みなら応用データサイエンス++と呼んでもよいですが)。

新しい種類の「思想家」(=データサイエンスチームを成功に導くスキルを持った意思決定者)を育てよう

私はデータサイエンスはチームスポーツであると常々考えていて、スキルの多様性によって恩恵が得られると考えています。そのため、私はトレーニングプログラムに様々なバックグラウンドの人の参加を奨励しており、実際参加可能にしています。わかってきたことは、優れたデータサイエンスリーダーは必ずしも超越したデータサイエンティストである必要はないということです。

私たちはGoogleの社員の中でこうしたスキルを育成する中で達成したことを誇りに思います。しかしそれだけでは十分でありません。同じスキルを身に着けるために、他のすべての人が「幸運なアクシデント」や複数領域への完全な没頭に取り組む必要なないのです。これを読むことで、データサイエンスの意思決定者の技術を知る人を数人でもインスパイアし、私たちの知恵を広く共有することに参加するきっかけとなることを願っています。

[翻訳]優れたデータアナリストがしていること

サマリ

  • 機械学習(machine-leaning)、統計(statistics)、アナリティクス(analytics)は、”フルスタック”データサイエンティストの3本の柱
  • 機械学習、統計の卓越性がそれぞれ性能、厳格さであるのに対し、アナリティクスはスピード
  • 機械学習、統計はどちらも狭くて深い仕事であり、掘る穴を間違えると大きなリソースとコストの無駄が生じる恐れがある
  • アナリティクスは機械学習、統計のスペシャリストに依頼する価値のある探求課題(仮説)を意思決定者に発見させるのに役立つ
  • 意思決定のためのアナリティクスでは、アナリティクスの結果のうち意思決定に有望であると判定された仮説に対し、厳密な分析を行うために統計的分析を行う。つまりアナリティクス→意思決定者の判断→統計(アナリティクス→統計ではなく、意思決定が挟まる)
  • 機械学習/AIのためのアナリティクスでは、機械学習に一度に突っ込むには多すぎるデータをフィルタリングするためにアナリティクスを実施する
  • AI/データ分析PJでは、機械学習、統計よりも先にまずアナリティクスができる人材を雇え

原文

Cassie Kozyrkov氏の記事より(2018年12月4日)

hbr.org

 

フルスタック」データサイエンティストとは、機械学習(machine-learning)、統計(statistics)、アナリティクス(analytics)に精通していることを意味します。AIや機械学習が雇用市場から求められるようになったこともあり、今日のデータサイエンスには若干のSF的性質を持ちつつ派手で洗練された風潮があります。その対抗馬として統計がありますが、こちらは1世紀にもわたる厳格さと数学の優位性に対する評判の恩恵を受けています。一方でアナリティクスはどうでしょう?統計の卓越性が厳格さであり、機械学習の卓越性が性能であるのに対し、アナリティクスの卓越性はスピードが全てです。アナリティクスにより初めに仮説を思いつきます。アナリストが成熟すると、何が興味深いかではなく、何が重要かを判別するコツをつかみ始め、意思決定者が仲介者の役割をしなくてよくなります。これら3つのうち、アナリストが最も「意思決定の王位の継承者」として可能性が高いです。

二流市民としてのアナリティクス

もしあなたの主要なスキルがアナリティクス(またはデータマイニング、ビジネスインテリジェンス)ならば、企業や雇用市場、メディアで機械学習や統計がもてはやされるようになったことで自信が揺らいでいるかもしれません。

初心者の方があまり理解していないこととして、データサイエンスの傘の3つの専門性は互いに全く異なるということです。彼らは類似した数式を用いるかもしれませんが、類似性はそれ以上はありません。アナリストは他の2つの専門性のエキスパートと全く劣ることなく、むしろよいアナリストがいることはデータを用いた取り組みにおける前提条件です。もしあなたが彼らを過小評価するならば彼らは退職してしまうでしょう。それはあなたにとって最も危険なことです。

アナリストに対し機械学習のスキルを高めるよう言うのではなく、まず自身の専門性を高めることを促すようにしましょう。データサイエンスでは1つの分野での卓越したスキルを有することは、2つの分野で凡庸なスキルを有していることに勝ります。では、データサイエンスを構成する専門分野において真に優れているとはどういうことかを1つ1つ見ていきましょう。それらがどのような価値をもたらし、どのような個性がそれぞれの仕事で生き抜くために求められるのか。そうすることでアナリストがいかに価値があり、どのように組織が彼らを活用すればよいかが見えてくるでしょう。

統計の卓越性:厳格さ

統計学者はデータから安全に結論を出す専門家です。彼らは不確実な世界でだまされないための最良の防衛線です。彼らにとってはずさんな推測をすることは、何も知見を得られない事よりも罪なことです。優れた統計学者には、あなたの熱狂にブレーキをかけてくれることを期待できます。

得られる成果は?リスクコントロールされた状態でリーダーが重要な意思決定を下すのを手助けするような”視点”です。別の言い方をすれば、彼らはデータからあなたが賢明でない結論を下す可能性を最小化してくれます。

機械学習の卓越性:性能

「99.99999%の精度でテストをパスするモデルなんて作れないだろう」という言葉掛けに対する回答が「やって見せるから、見てろ」ならば、その人は応用機械学習/AIエンジニアでしょう。機械学習スペシャリストは、プロトタイピングと稼働システムの双方に向けたコーディングスキルを有しつつ、彼らは教科書には完璧な解決策は乗っていないということを理解しています。その代わり、彼らはトライ&エラーのマラソンに従事してくれます。それぞれの新しいオプションを試すのにどれくらいの時間がかかるかに対し優れた直観があることは、アルゴリズムがどのように機能するかについての詳細な知識よりも価値があります(もちろん、両方持っていることがよいですが)。性能というのは単に指標をクリアすることだけではありません。本番環境で動作可能な、信頼性があり、拡張性があり、保守が容易なモデルであることを意味します。エンジニアリングの卓越性は必須です。

得られる結果は?統計学者の要求する厳しいテスト基準をクリアし、ビジネスリーダーが要求する大胆なパフォーマンスを実現する、トリッキーなタスクを自動化するシステムです。

広さか深さか

前の二つの役割に共通しているのは、どちらも特定の問題に対して手間のかかるソリューションを提供することです。彼らが取り組む問題に解決する価値がなければ、彼らの時間とあなたのお金が無駄になります。ビジネスリーダーの間でよく聞く悩みは「我々のデータサイエンスグループは役に立たない」です。そして、その問題の根底には、アナリティクスの専門知識の不足があります。

統計専門家と機械学習エンジニアは「狭くて深い」仕事をする人です。まるでウサギの穴の形ように。そのため、彼らの努力に値する問題を指定することが非常に重要です。彼らエキスパートが間違った問題を注意深く解いている場合、あなたのデータサイエンスに対する投資はほとんどリターンを産まないでしょう。「狭くて深い」仕事をする専門家たちをうまく活用するには、すでに正しい問題をとらえていることの確証を得るか、問題を見つけるための「広く浅い」アプローチが必要です。

アナリティクスの卓越性:スピード

最高のアナリストは大量のデータセットを素早く扱える、超速コーダーです。他の専門家がホワイトボードを要求するより早く、潜在的な洞察を発見し表面化します。彼らのおよそずさんなコーディングスタイルは、従来型のソフトウェアエンジニアを困惑させます。スピードは彼らの最高の長所であり、それに続いて潜在的に有用な”宝石”(気づき)を特定する能力が来ます。また、情報のビジュアルプレゼンテーションに習熟していることも役立ちます。美しく効果的なグラフは情報を早く抽出することに役立ち、結果として潜在的な洞察をより早く得ることにつながります。

得られる成果は、”企業がそれ自身の動向を把握し、これまでは知られていなかった事柄に対し目を向けられるようになること”です。これにより得られる示唆は、意思決定者に統計専門家や機械学習エンジニアに依頼するための価値ある探求課題を選択することに役立ち、彼らスペシャリストが「数学的に印象的だが役に立たないウサギの穴の掘削」をしてしまうことから救うことができます。

ずさんなナンセンスか輝かしいストーリーテリング

「しかし、アナリストの”インサイト”のほとんどはナンセンスです」と統計専門家は反対します。つまりアナリストの探求から得られるものはノイズだけを反映している可能性があるということです。しかしおそらく話には続きがあります。

アナリストはデータのストーリーテラーです。かれらの使命は興味深い事実を集約し、示唆を与えるためにデータを使用することです。ある組織ではこれらの事実と示唆がそのまま意思決定者にとってのインプットになることがあります。しかし、より洗練されたデータの運用においては、データドリブンな示唆は適切な統計的フォローアップに向けたフラグがつけられます。

よいアナリストは「データを超えた結論を出すな(そして、オーディエンスにもさせるな)」という黄金律に対しゆるぎない敬意を持っています。優れたアナリストを見分ける1つの方法は、彼が柔らかく、断定的でない表現を使うかどうかです。たとえば、「私たちはこう結論付ける」ではなく、「私たちはこのように不思議に思うようになった」のように。彼らはまた、それぞれの示唆に対し可能性のある解釈を複数強調することによって、リーダーの自信過剰を思いとどまらせます。

アナリストが「このような結果が出ています」というだけで事実の報告に執着している限り、あまりそれを重く受け止めないでください。彼らが冒す最大の失敗は、だれかの時間を無駄にすることです。

仮説を検証するには統計スキルが必要ですが、最初に仮説を立てるにはアナリストの助けを借りるのが最善の策です。例えば、彼らは「これは相関に過ぎませんが、これは~によって引き起こされている可能性があります」などと言ってなぜそう考えるかを説明するかもしれません。

これには、データの背景で何が起こっているのかについての強い直観と、統計専門家を働かせることを正当化するのに十分重要な仮説かどうかを判断する意思決定者に選択肢を伝えるコミュニケーションスキルが必要です。アナリストが成熟すると、何が興味深いかではなく、何が重要かを判別するコツをつかみ始め、意思決定者が仲介者の役割をしなくてよくなります。

これら3つのうち、アナリストが最も「意思決定の王位の継承者」として可能性が高いです。対象分野に対する専門知識はより早くデータから興味深いパターンを見つけ出すことに役立つため、優れたアナリストはドメインに精通することに真剣に取り組みます。これを怠るとレッドフラグが立てられます。アナリストの好奇心によりビジネスに対する感覚を養われていきますので、誤報の寄せ集めのような報告から、注意深く集められた意思決定者が興味を持ちそうな報告内容へとシフトしていくことを期待してください。

意思決定のためのアナリティクス

無駄な時間を省くため、アナリストは自分の伝えたい内容に合わせてストーリーを組み立て、意思決定者のところへ出す前にその内容が筋道が通るかの詳細な確認に向けて事前にいくつかの観点でチェックしておく必要があります。この時意思決定者は探索的データ解析と統計的厳密さの間のフィルターとして機能する必要があります。もし意思決定者の誰かが、アナリストの調査結果が彼らの意思決定に対し有望であると気づいた場合、次に、より厳密な分析を行うために統計専門家がより厳密な分析をすることを承認します。(このプロセスは、なぜアナリストに統計スキルを身に着けるよう指示することだけが、重要なポイントを見逃しているかを示しています。2つの活動が分離していることに加えて、別の人がその間に存在しているのです。つまり、1人の人が両方のことを行うのが必ずしも効率的とは限りません。)

機械学習とAIのためのアナリティクス

機械学習スペシャリストは大量の潜在的な入力データを準備し、パラメータ設定を微調整し、適切な出力がされるようになるまでイテレーションを続けます。ここにはアナリティクスの要素はないように聞こえるかもしれませんが、実際にはビジネスの現場においては、一度にブレンダーに突っ込むにはあまりにも多くの材料があります。一つの有用な入力セットのフィルタリングの方法はドメインの専門知識です。事象がどのように振舞うかについて人に聞くということです。もう一つの方法がアナリティクスです。料理のたとえを出すと、機械学習エンジニアはキッチンを使いこなすのは得意ですが、彼らは実際には大量の食材でいっぱいの巨大で暗い倉庫の前に立っています。彼らは枕闇の中無計画にそれらの食材をつかんでキッチンに持っていくか、それともまずライトがついたバンで最初に倉庫内を回るか、です。アナリストはそのバンです。彼らの素早くここに”何があるのか”をまとめて伝える能力は、機械学習のプロセスにおいてとても重要です。

アナリストを過小評価することの危険性

優れたアナリストは、機械学習エンジニアの粗雑なバージョンではありません。彼らのコーディングスタイルはスピードに最適化されており、目的に沿っています。まして彼らは悪い統計専門家でもありません。なぜなら彼らは不確実性を扱っておらず、事実のみを扱っているからです。アナリストの主な仕事は次のように言うことです。「データの内容はこの通りです。私はこれが何を意味するのかを話す役割ではありません。統計専門家に質問を投げかけるように意思決定者に示唆を与えることです。」

もし機械学習と統計に採用と報酬を偏らせすぎると、アナリストを失うことになります。誰が彼ら(機械学習エンジニア、統計専門家)がどの問題を解決するのが価値があるのかを理解することを手伝ってくれるのでしょう?有用性の乏しいプロジェクトにアサインされた惨めなエキスパートたちとともにあなたは取り残されてしまうでしょう。データは役に立たないまま無造作に転がっている状態になります。

疑わしい場合は、他の役割よりも先にまずアナリストを雇ってください。彼らに感謝し、報酬を与えてください。彼らが選んだキャリアを向上させるように励ましてください(他の誰かのキャリアではなく)。この論考で言及されているキャスティングの中で、すべてのビジネスにおいて必要なのは意思決定者とアナリストだけです。それ以外のキャストが必要になるのは、あなたが彼らが何のために必要なのかをはっきりと把握している時だけです。アナリティクスから始めよ。そしてあなたの目の前にある潤沢で美しい情報に目を向ける新たな能力を誇りに思ってください。データドリブンなインスピレーションは強力なものです。

 

[翻訳]AIとデータサイエンスの10の役割

サマリー

  • AI/データ分析PJのメンバーの増やす順序は、データエンジニア→意思決定者→アナリスト(一般/高度)→統計専門家→機械学習エンジニア
  • オプショナルとしてデータサイエンティスト、分析マネージャー、定性専門家、研究者
  • データサイエンティストとは高度アナリスト+統計専門家+機械学習エンジニアのハイブリッド(レア人材)
  • 分析マネージャーはデータサイエンティスト+意思決定者のハイブリッド(最強人材)
  • 定性専門家は社会科学とデータのバックグラウンドをもち、データと意思決定の橋渡しのトレーニングを受けた人材であり、意思決定者のサポート役
  • 研究者は最後の手段
  • その他、ドメインエキスパート、倫理専門家(AI倫理)、ソフトウェアエンジニア、UXデザイナー、信頼性エンジニアなどもポイントで必要
  • プロジェクトのステージと、目指すシステムの規模を踏まえ、徐々にチームを大きくする

原文 

Cassie Kozyrkov氏記事より(2018年7月27日)

hackernoon.com

はじめに

応用データサイエンスは、非常に学際的なチームスポーツです。視点の多様性が重要!あなたがデータを活用した意思決定アプローチを実施しようとしている場合において、私が考えるチームを成長させる順序は以下の通りです。

#0 データエンジニア

もちろんデータが無ければ始まらないので、まずデータを取得する能力が必要です。もし、小さなデータセットを扱う場合には、データエンジニアリングはスプレッドシートに数値を入力するだけです。もしそれなりの規模のデータを使用する場合、データエンジニアリングはそれ自体が洗練された分野になり、チームの誰かが、メンバーの使用するデータを提供するというトリッキーな作業を担うことになります。

#1 意思決定者

PhDのデータサイエンティストを雇う前に、データドリブンな意思決定のアートとサイエンスを理解した意思決定者がいなくてはなりません。
チームがデータから価値を引き出すためには、意思決定スキルがまず先になくてはなりません
この人が以下のような判断をすることが求められます。

  •  その決定/判断がデータに基づいてなされる価値があると特定する
  •  決定/判断をフレーミングする(メトリックのデザインから、統計的仮定の采配を取ることまで含め)
  •  ビジネスに与えるインパクトに基づき、分析の厳格さに求められるレベルを決定する

「おっと、それは考えていなかったな」と決して言わないような、深い思考ができる人でなければなりません。

#2 アナリスト

次は、あなたと一緒に働いている皆さんです。皆、データを見て感銘を受ける資格があります。もしあなたがデジタルの写真を見たことがあるならば、あなたはすでにデータ可視化と分析をしているのです。RやPythonはデータ可視化のためのツールのアップグレードに過ぎません。
気を付けなくてはいけないことは、データを超えて判断を下してはならないことです。湖畔に映る黒い影の画像を見たからといって、ネッシーが実在すると判断してはなりません。

#3 高度アナリスト

次に超高速バージョンを導入してください。この人物はデータをより早く見られる人物です。ここでのゲームはスピード、探索、発見、、、面白さです。(「分析」の別の用語は「データマイニング」です。)この役割は厳密で注意深い結論を下すことではなく、意思決定者がより注意深く追求する価値があることを理解できるように、あなたのチームがデータにより多く目を向けるのを手助けする人です。
ここでの仕事はスピードであり、潜在的な洞察にできるだけ早く遭遇することです。
直観に反するかもしれませんが、立派で堅牢なコードを書くようなエンジニアにこの仕事は任せないでください。この仕事はスピード重視なので、コードの品質にこだわる人はこの仕事で求められる早さでデータを見ていくことは難しいかもしれません。
もし早くてずさんなコーディングをする人が会社で評価されていない場合、彼らは会社を去り、あなたはなぜあなたのビジネスの現況を把握できないのだろうと悩むことになるでしょう。

#4 統計専門家

メンバーがデータを闊達に分析/探求するようになったら、チームが不適当な結論を出すことを防ぐ役割が必要です。

 Inspiration is cheap, but rigor is expensive.

 「示唆」は安い、「厳密さ」は高い

 もっと多くのコストを支払わなければ、あなたは単なるインスピレーションで満足してしまうでしょう。

例えば、一つのデータセット機械学習システムが動作した場合、「そのデータセットにおいて」機械学習システムが動作したにすぎません。稼働開始後のデータで動作するか?ローンチできるか?こういった問いに答えるには統計のスキルが必要です。

もし完璧なファクトがない中で重要な決定を下したい場合には、スローダウンして慎重なアプローチを取りましょう。データから安全に結論にたどり着くために統計専門家の助けを借りましょう

#5 応用機械学習エンジニア

応用AI/機械学習エンジニアに求められていることは、アルゴリズムがどう動くかを理解することではありません。彼らの役目はアルゴリズムを使う、作ることではありません(それは研究者がやることです)。さまざまな既存のアルゴリズムを試しながら、あなたのデータをかき回すことが求められています。自分が何をしているか、何を思っているかは関係なく、とにかくたくさんのアルゴリズムを試します。仕事の大部分は盲目的に試すことであり、それを楽しめる個性が求められます。

完璧主義者はMLエンジニアとして苦労する傾向があります。何がうまくいくかは初めからわからないので、とにかくたくさんのアプローチを試して、解決策に向けてイテレーションを回していきましょう

ここでのアルゴリズムへの入力とするデータは、もちろんアナリストが興味深いと期待できると特定したものです。それがアナリストを前段で雇った理由です。

また、機械学習エンジニアは厳密さ(rigor)が求められる「評価」に細心の注意を払わなければなりません。正しい判断を下すために、前に雇った統計専門家の判断を仰ぎましょう。

#6 データサイエンティスト

私がこの「データサイエンティスト」という単語を使う場合、前3つの役割における十分なエキスパートである人を指します。すべての人がこの私の定義を使用しているわけではありません。3つの役割のうち1つを持つ人を指して「データサイエンティスト」と呼んでいる求人を目にすることもあります。

この「Three in One」の人材を雇うことは非常にコストがかかるので、#6においています。もし予算内でこの人材を雇うことができるならばもちろん良いですが、そうでない場合、既存の1つの役割におけるスペシャリストを育てていくのがよいでしょう。

#7 分析マネージャー / データサイエンスリーダー

分析マネージャーは金の卵を産むガチョウ:彼らはデータサイエンティストと意思決定者のハイブリッドです。彼らの役割は、ビジネスに新たな価値を追加するのではなく、データサイエンスチームの活動が無駄にならないようにすることで、チームの価値を増強するものです。

この人物は次のような問いかけを自身にしながら、夜寝ないような人です。

  • 正しい問い(課題)をいかにデザインすべきか
  • いかに結論に導くか
  • 我々のエキスパートをいかに配置するか
  • 何をすることが価値があるのか
  • スキルやデータは、要件に適しているか
  • どのように良いインプットデータかどうかを確認するか

もし幸運にもこのような人物を雇うことができたら、抜けられないようにしましょう。

#8 定性的専門家 / 社会科学者

時に意思決定者は意思決定のアートとサイエンスのスキルを有していないことがあります。意思決定は才能以上のものです。意思決定者がそのような技術に長けていない場合、とても大きなダメージがあります。

そのようなスキル不足の意思決定者を解雇するのではなく、定性専門家を加えることで強化するという手があります。

この人物は社会科学とデータのバックグラウンドを持っています―行動経済学者、神経経済学者、JDM(Judgement and Decision-Making)心理学者は特に専門的なトレーニングを受けていますが、独学の人でもできます。この役割は意思決定者にアイディアを明確化し、あらゆる角度から検討し、あいまいな直観をチームのほかのメンバーが実行しやすい言語で表現された良く考え抜かれた指示に転換することを助けることです。

社会科学者は通常、データサイエンティストより、意思決定者の直感や意図を具体的な指標に落とし込む能力に長けています。

社会科学者はすべての場面で采配を取ることはできませんが、意思決定者が彼らに采配を取らせることができる場面を把握させることはできます。彼らは、信頼できるアドバイザーであり、ブレインストーミングの仲間であり、意思決定者の相談役です。彼をボードメンバーに置いておくことはプロジェクトを正しい方向にスタートさせる上で非常に良いでしょう。

#9 研究者

AIとデータサイエンスのプロジェクトの最初のチームメンバーとして元教授を加えた方がよいと考えている採用マネージャーが多くいますが、その分野において必要なアルゴリズムが提供されていないことが予め分かっている場合以外はこのようなPhD保有者は必ずしも必要ではありません。まずスタートしてみて、入手可能な既製の解決策があまり役立たないと感じたら、研究者を雇うことを検討すればよいのです。チームが十分に発展し、研究者に何を求めているのかがはっきりと理解されるまで待つ方がよいでしょう。

#10 追加要員

その他、意思決定インテリジェンスプロジェクトに歓迎したい人は次のような人たちです。

  • ドメインエキスパート
  • 倫理学
  • ソフトウェアエンジニア
  • 信頼性エンジニア
  • UXデザイナー
  • インタラクティブビジュアライザー/グラフィックデザイナー
  • データ収集スペシャリスト
  • データプロダクトマネージャー
  • プロジェクト/プログラムマネージャー

多くのプロジェクトは彼らなしでは成立しません。彼らがトップ10にリストされていないのは、意思決定インテリジェンスが彼らの主要なビジネスではないからです。

大きなチームか小さなチームか

全部読んだ後、あまりにもたくさんの役割にあなたは圧倒されてしまうかもしれません。しかし、あなたのニーズに応じて、最初のいくつかの役割からでも十分な価値を得ることができます

応用機械学習とキッチンの改革のアナロジーに立ち返ると、もしあなたが革新的なピザを提供する業務スケールのピッツェリアを立ち上げたいなら、あなたは大きなチームまたはプロバイダー/コンサルタントと提携する必要があるでしょう。もしあなたがこの週末のための特別なピザを作りたいだけなら、、、それでも上で言及したすべての要素について考える必要があります。あなたは何を作るかを決め(役割#1)、どの材料を使うかを決め(役割#2, #3)、どこで食材を入手するかを決め(役割#0)、どのようにレシピをカスタマイズするかを決め(役割#5)、あなたが感動させたいお客に提供する前にどのように味見をするかを決め(役割#4)ます。しかしリスクの少ないカジュアルバージョンの場合、すべてあなた自身ですることができます。そしてもしあなたが一般的なピザを作りたいだけならば、そのようなことすらする必要はありません。誰かが試したレシピと食材をそのままつかって料理をするだけなのですから。