AI・機械学習を中心に

AI/機械学習/データ分析/子育て/日々の雑感

[翻訳]優れたデータアナリストがしていること

サマリ

  • 機械学習(machine-leaning)、統計(statistics)、アナリティクス(analytics)は、”フルスタック”データサイエンティストの3本の柱
  • 機械学習、統計の卓越性がそれぞれ性能、厳格さであるのに対し、アナリティクスはスピード
  • 機械学習、統計はどちらも狭くて深い仕事であり、掘る穴を間違えると大きなリソースとコストの無駄が生じる恐れがある
  • アナリティクスは機械学習、統計のスペシャリストに依頼する価値のある探求課題(仮説)を意思決定者に発見させるのに役立つ
  • 意思決定のためのアナリティクスでは、アナリティクスの結果のうち意思決定に有望であると判定された仮説に対し、厳密な分析を行うために統計的分析を行う。つまりアナリティクス→意思決定者の判断→統計(アナリティクス→統計ではなく、意思決定が挟まる)
  • 機械学習/AIのためのアナリティクスでは、機械学習に一度に突っ込むには多すぎるデータをフィルタリングするためにアナリティクスを実施する
  • AI/データ分析PJでは、機械学習、統計よりも先にまずアナリティクスができる人材を雇え

原文

Cassie Kozyrkov氏の記事より(2018年12月4日)

hbr.org

 

フルスタック」データサイエンティストとは、機械学習(machine-learning)、統計(statistics)、アナリティクス(analytics)に精通していることを意味します。AIや機械学習が雇用市場から求められるようになったこともあり、今日のデータサイエンスには若干のSF的性質を持ちつつ派手で洗練された風潮があります。その対抗馬として統計がありますが、こちらは1世紀にもわたる厳格さと数学の優位性に対する評判の恩恵を受けています。一方でアナリティクスはどうでしょう?統計の卓越性が厳格さであり、機械学習の卓越性が性能であるのに対し、アナリティクスの卓越性はスピードが全てです。アナリティクスにより初めに仮説を思いつきます。アナリストが成熟すると、何が興味深いかではなく、何が重要かを判別するコツをつかみ始め、意思決定者が仲介者の役割をしなくてよくなります。これら3つのうち、アナリストが最も「意思決定の王位の継承者」として可能性が高いです。

二流市民としてのアナリティクス

もしあなたの主要なスキルがアナリティクス(またはデータマイニング、ビジネスインテリジェンス)ならば、企業や雇用市場、メディアで機械学習や統計がもてはやされるようになったことで自信が揺らいでいるかもしれません。

初心者の方があまり理解していないこととして、データサイエンスの傘の3つの専門性は互いに全く異なるということです。彼らは類似した数式を用いるかもしれませんが、類似性はそれ以上はありません。アナリストは他の2つの専門性のエキスパートと全く劣ることなく、むしろよいアナリストがいることはデータを用いた取り組みにおける前提条件です。もしあなたが彼らを過小評価するならば彼らは退職してしまうでしょう。それはあなたにとって最も危険なことです。

アナリストに対し機械学習のスキルを高めるよう言うのではなく、まず自身の専門性を高めることを促すようにしましょう。データサイエンスでは1つの分野での卓越したスキルを有することは、2つの分野で凡庸なスキルを有していることに勝ります。では、データサイエンスを構成する専門分野において真に優れているとはどういうことかを1つ1つ見ていきましょう。それらがどのような価値をもたらし、どのような個性がそれぞれの仕事で生き抜くために求められるのか。そうすることでアナリストがいかに価値があり、どのように組織が彼らを活用すればよいかが見えてくるでしょう。

統計の卓越性:厳格さ

統計学者はデータから安全に結論を出す専門家です。彼らは不確実な世界でだまされないための最良の防衛線です。彼らにとってはずさんな推測をすることは、何も知見を得られない事よりも罪なことです。優れた統計学者には、あなたの熱狂にブレーキをかけてくれることを期待できます。

得られる成果は?リスクコントロールされた状態でリーダーが重要な意思決定を下すのを手助けするような”視点”です。別の言い方をすれば、彼らはデータからあなたが賢明でない結論を下す可能性を最小化してくれます。

機械学習の卓越性:性能

「99.99999%の精度でテストをパスするモデルなんて作れないだろう」という言葉掛けに対する回答が「やって見せるから、見てろ」ならば、その人は応用機械学習/AIエンジニアでしょう。機械学習スペシャリストは、プロトタイピングと稼働システムの双方に向けたコーディングスキルを有しつつ、彼らは教科書には完璧な解決策は乗っていないということを理解しています。その代わり、彼らはトライ&エラーのマラソンに従事してくれます。それぞれの新しいオプションを試すのにどれくらいの時間がかかるかに対し優れた直観があることは、アルゴリズムがどのように機能するかについての詳細な知識よりも価値があります(もちろん、両方持っていることがよいですが)。性能というのは単に指標をクリアすることだけではありません。本番環境で動作可能な、信頼性があり、拡張性があり、保守が容易なモデルであることを意味します。エンジニアリングの卓越性は必須です。

得られる結果は?統計学者の要求する厳しいテスト基準をクリアし、ビジネスリーダーが要求する大胆なパフォーマンスを実現する、トリッキーなタスクを自動化するシステムです。

広さか深さか

前の二つの役割に共通しているのは、どちらも特定の問題に対して手間のかかるソリューションを提供することです。彼らが取り組む問題に解決する価値がなければ、彼らの時間とあなたのお金が無駄になります。ビジネスリーダーの間でよく聞く悩みは「我々のデータサイエンスグループは役に立たない」です。そして、その問題の根底には、アナリティクスの専門知識の不足があります。

統計専門家と機械学習エンジニアは「狭くて深い」仕事をする人です。まるでウサギの穴の形ように。そのため、彼らの努力に値する問題を指定することが非常に重要です。彼らエキスパートが間違った問題を注意深く解いている場合、あなたのデータサイエンスに対する投資はほとんどリターンを産まないでしょう。「狭くて深い」仕事をする専門家たちをうまく活用するには、すでに正しい問題をとらえていることの確証を得るか、問題を見つけるための「広く浅い」アプローチが必要です。

アナリティクスの卓越性:スピード

最高のアナリストは大量のデータセットを素早く扱える、超速コーダーです。他の専門家がホワイトボードを要求するより早く、潜在的な洞察を発見し表面化します。彼らのおよそずさんなコーディングスタイルは、従来型のソフトウェアエンジニアを困惑させます。スピードは彼らの最高の長所であり、それに続いて潜在的に有用な”宝石”(気づき)を特定する能力が来ます。また、情報のビジュアルプレゼンテーションに習熟していることも役立ちます。美しく効果的なグラフは情報を早く抽出することに役立ち、結果として潜在的な洞察をより早く得ることにつながります。

得られる成果は、”企業がそれ自身の動向を把握し、これまでは知られていなかった事柄に対し目を向けられるようになること”です。これにより得られる示唆は、意思決定者に統計専門家や機械学習エンジニアに依頼するための価値ある探求課題を選択することに役立ち、彼らスペシャリストが「数学的に印象的だが役に立たないウサギの穴の掘削」をしてしまうことから救うことができます。

ずさんなナンセンスか輝かしいストーリーテリング

「しかし、アナリストの”インサイト”のほとんどはナンセンスです」と統計専門家は反対します。つまりアナリストの探求から得られるものはノイズだけを反映している可能性があるということです。しかしおそらく話には続きがあります。

アナリストはデータのストーリーテラーです。かれらの使命は興味深い事実を集約し、示唆を与えるためにデータを使用することです。ある組織ではこれらの事実と示唆がそのまま意思決定者にとってのインプットになることがあります。しかし、より洗練されたデータの運用においては、データドリブンな示唆は適切な統計的フォローアップに向けたフラグがつけられます。

よいアナリストは「データを超えた結論を出すな(そして、オーディエンスにもさせるな)」という黄金律に対しゆるぎない敬意を持っています。優れたアナリストを見分ける1つの方法は、彼が柔らかく、断定的でない表現を使うかどうかです。たとえば、「私たちはこう結論付ける」ではなく、「私たちはこのように不思議に思うようになった」のように。彼らはまた、それぞれの示唆に対し可能性のある解釈を複数強調することによって、リーダーの自信過剰を思いとどまらせます。

アナリストが「このような結果が出ています」というだけで事実の報告に執着している限り、あまりそれを重く受け止めないでください。彼らが冒す最大の失敗は、だれかの時間を無駄にすることです。

仮説を検証するには統計スキルが必要ですが、最初に仮説を立てるにはアナリストの助けを借りるのが最善の策です。例えば、彼らは「これは相関に過ぎませんが、これは~によって引き起こされている可能性があります」などと言ってなぜそう考えるかを説明するかもしれません。

これには、データの背景で何が起こっているのかについての強い直観と、統計専門家を働かせることを正当化するのに十分重要な仮説かどうかを判断する意思決定者に選択肢を伝えるコミュニケーションスキルが必要です。アナリストが成熟すると、何が興味深いかではなく、何が重要かを判別するコツをつかみ始め、意思決定者が仲介者の役割をしなくてよくなります。

これら3つのうち、アナリストが最も「意思決定の王位の継承者」として可能性が高いです。対象分野に対する専門知識はより早くデータから興味深いパターンを見つけ出すことに役立つため、優れたアナリストはドメインに精通することに真剣に取り組みます。これを怠るとレッドフラグが立てられます。アナリストの好奇心によりビジネスに対する感覚を養われていきますので、誤報の寄せ集めのような報告から、注意深く集められた意思決定者が興味を持ちそうな報告内容へとシフトしていくことを期待してください。

意思決定のためのアナリティクス

無駄な時間を省くため、アナリストは自分の伝えたい内容に合わせてストーリーを組み立て、意思決定者のところへ出す前にその内容が筋道が通るかの詳細な確認に向けて事前にいくつかの観点でチェックしておく必要があります。この時意思決定者は探索的データ解析と統計的厳密さの間のフィルターとして機能する必要があります。もし意思決定者の誰かが、アナリストの調査結果が彼らの意思決定に対し有望であると気づいた場合、次に、より厳密な分析を行うために統計専門家がより厳密な分析をすることを承認します。(このプロセスは、なぜアナリストに統計スキルを身に着けるよう指示することだけが、重要なポイントを見逃しているかを示しています。2つの活動が分離していることに加えて、別の人がその間に存在しているのです。つまり、1人の人が両方のことを行うのが必ずしも効率的とは限りません。)

機械学習とAIのためのアナリティクス

機械学習スペシャリストは大量の潜在的な入力データを準備し、パラメータ設定を微調整し、適切な出力がされるようになるまでイテレーションを続けます。ここにはアナリティクスの要素はないように聞こえるかもしれませんが、実際にはビジネスの現場においては、一度にブレンダーに突っ込むにはあまりにも多くの材料があります。一つの有用な入力セットのフィルタリングの方法はドメインの専門知識です。事象がどのように振舞うかについて人に聞くということです。もう一つの方法がアナリティクスです。料理のたとえを出すと、機械学習エンジニアはキッチンを使いこなすのは得意ですが、彼らは実際には大量の食材でいっぱいの巨大で暗い倉庫の前に立っています。彼らは枕闇の中無計画にそれらの食材をつかんでキッチンに持っていくか、それともまずライトがついたバンで最初に倉庫内を回るか、です。アナリストはそのバンです。彼らの素早くここに”何があるのか”をまとめて伝える能力は、機械学習のプロセスにおいてとても重要です。

アナリストを過小評価することの危険性

優れたアナリストは、機械学習エンジニアの粗雑なバージョンではありません。彼らのコーディングスタイルはスピードに最適化されており、目的に沿っています。まして彼らは悪い統計専門家でもありません。なぜなら彼らは不確実性を扱っておらず、事実のみを扱っているからです。アナリストの主な仕事は次のように言うことです。「データの内容はこの通りです。私はこれが何を意味するのかを話す役割ではありません。統計専門家に質問を投げかけるように意思決定者に示唆を与えることです。」

もし機械学習と統計に採用と報酬を偏らせすぎると、アナリストを失うことになります。誰が彼ら(機械学習エンジニア、統計専門家)がどの問題を解決するのが価値があるのかを理解することを手伝ってくれるのでしょう?有用性の乏しいプロジェクトにアサインされた惨めなエキスパートたちとともにあなたは取り残されてしまうでしょう。データは役に立たないまま無造作に転がっている状態になります。

疑わしい場合は、他の役割よりも先にまずアナリストを雇ってください。彼らに感謝し、報酬を与えてください。彼らが選んだキャリアを向上させるように励ましてください(他の誰かのキャリアではなく)。この論考で言及されているキャスティングの中で、すべてのビジネスにおいて必要なのは意思決定者とアナリストだけです。それ以外のキャストが必要になるのは、あなたが彼らが何のために必要なのかをはっきりと把握している時だけです。アナリティクスから始めよ。そしてあなたの目の前にある潤沢で美しい情報に目を向ける新たな能力を誇りに思ってください。データドリブンなインスピレーションは強力なものです。