データサイエンスは迷路を突破する事業
はじめに
こんばんは。突然な言い方ですが、今回は「データサイエンスは迷路を突破する事業」という話をします。
目次
- 今回の記事の作成の意図
- データサイエンスとは
- データサイエンスのヒント①
- データサイエンスのヒント②
- データサイエンスのヒント③
- データサイエンスのヒント④
今回の記事作成の背景
今まで、世間で言うデータサイエンスをやってきました。ですが振り返ってみると、データサイエンスをうまくやっていく方法について、これといった決定的な意見を持っていないことに気づきました。
そこで、データサイエンスをうまくやっていく方法を自問自答しました。せっかくなので、その内容をここに共有しようと考えました。
データサイエンスとは
データサイエンスを比喩で表現する
「データサイエンスとは」の厳密な説明や具体的な例をあえて割愛し、まずはデータサイエンスを比喩で表現します。1つ例えるなら、データサイエンスは迷路を突破する事業です。
この比喩の意味を説明していきます。
いったんデータサイエンスを脇に置いて、例えばモノづくりについて考えてみます。
たいていのモノづくりにおいて、ゴールまでの大まかな道筋はある程度はっきりしていると思います。モノづくりを設計し、設計に従って1つずつ組み立て作業をしてモノを作っていきます。
それに対してデータサイエンスは、これとは対照的です。データサイエンスはたいてい、ゴールまでの道筋は不明確です。特に、データサイエンスを開始したばかりの時期はそうです。
というのは、開始時点では見えていないものが多いからです。例えば何が見えていないかというと、データセットです。データセット自体は持っていたとしても、その内容や詳細面までは、最初の時点では分かりません。他には、漠然とした言い方になりますが、データセット以前の業務上の背景なども、最初から詳しく分かっているわけではありません。
そのため、特に最初は、データサイエンスをどうやって円滑に進めればよいか、見当がつきません。ゴールまでの道筋が分からないのです。
以上のことを表したのが、前述の比喩です。
サイクル
データサイエンスは迷路を突破する事業であることについて、もう少し掘り下げます。
前述のように、データサイエンスはモノづくりとは全然異なるものです。では、データサイエンスの進め方にはどのような特徴があるでしょうか。
データサイエンスは、迷路の中を小刻みに移動する小作業の繰り返しと言えます。イメージとしては下の図のような感じです。
ここでは、1つ1つの小刻みの移動をサイクルと呼ぶことにします。このサイクルという概念こそが、データサイエンスの進め方の特徴です。
データサイエンスでは、サイクルという概念は欠かしがたいものです。
先述の通り、データサイエンスは特定のプロセスを順々にやれば終わりというものではありません。それどころか、どの道に進むのが正解なのかは、想像するだけではなかなか分かりません。どうしても、いずれかの方向に進んで探っていかなければなりません。
迷路を進めば、何度も何度も、分岐点に直面します。ですから、いちいちもたついてばかりはいられません。それなりのスピードを出しながら、方向決めと移動を繰り返す。これがまさに、サイクルの繰り返しです。
まとめ:データサイエンスとは
ということで、「データサイエンスは迷路を突破する事業」という話をしました。加えて、データサイエンスはサイクルの繰り返しという話もしました。
データサイエンスをやるにあたり、前述したひと通りの内容の理解は必須と言ってもいいくらいです。以上のことを理解していないと、スピードに欠けて進行が停滞してしまいます。あるいは、間違った方向に進みやすくなってしまい、やはり停滞です。
ここまでで今回の記事の本題は終わりですが、データサイエンスを円滑に進めるためのヒントも併せて述べます。ただ、あくまでも大事なのは前述の内容です。以下の内容を参考として読む分には構わないですが、前述の内容を理解せずに読んでもあまり意味はないと思います。その点にはご注意ください。
データサイエンスのヒント①:サイクル回しの要件
1サイクルの構成要素
ざっくり言えば、1サイクルは計画立案と実行から成ります。
ここでいう計画は、長期的なものではなく、直近の比較的短期の作業の計画です。計画といっても、そんなに厳密に作る必要はないです。
各サイクルをうまく回すには
先ほど述べたように、データサイエンスにおいてやっていくのは、各サイクルを繰り返し回していくことです。そうなると大事なのは、いかにして各サイクルをうまくやっていくかです。
では、各サイクルをうまく回すための要件は何でしょうか。これを突き詰めると、次の2つが挙がってきます。
- サイクルの実行のスピード
- サイクルの実行の質
これは、特に間違っていないと思います。
先ほどの図を再掲します。この図においてゴールまで効率的に進めることを考えると、まずは各矢印の進行を高スピードで実施することが求められます。もう1つは、ゴールへ向かう矢印を選ぶ確率を上げることが求められます。端的に言えば、これらはまさにスピードと質です。
他には、立てた計画の遂行にやたらとこだわらないことも大事です。立てた計画の実行が停滞したら、計画を練り直すほうがいいです。
データサイエンスのヒント②:チーム運営
それでは、1サイクルのスピードと質を上げるにはどうすればよいでしょうか。これには、特に重要な要素が2つあると思っています。そのうちの1つは、チーム運営です。
データサイエンスにおけるチーム運営の側面
データサイエンスは、1人で進める場合と、複数人で進める場合があります。1人の場合は、特にチームとかを考えなくてもいいので、ここでは複数人を考えます。複数人の場合、データサイエンスをチームとしてやっていくことになります。
チーム運営の難しさ
データサイエンスにおけるチーム運営は、意外に難しいことだと思っています。
前述のように、データサイエンスでは迷路の中を進んでいきます。データサイエンスはサイクルの繰り返しなので、何度も何度も、どの道に進めばよいかの決断を迫られます。不確定要素が多いため、進むべき道の判断は難しいです。しかも、メンバー間で意見が分かれることが往々にしてあります。ここで意見が割れてまとまらないと、「船頭多くして船山に登る」ような事態に陥りやすくなります。
チーム運営をうまくやるには
それでは、チーム運営をどうやっていけば良いか。その答えは、特定の人が主導するようなチーム運営をすることです。メンバー間での協議を通して、データサイエンスの主導者を選任します。そしてその主導者は、どうやっていけばチームとして効率的にデータサイエンスを進められるかを考えながら、各メンバーを率いていきます。
これを軽く考えるのは禁物です。なぜなら、特に主導者には、求められる要素が多いからです。
まずは、前述したようなデータサイエンスの要点を十分に理解していること。また、それを各メンバー間に教えられること。これに加えて重要なのは、後述するようないくつかの種類の能力が全体的に高いこと。これらのことが、主導者には求められます。
チーム運営は、例えるならサッカーの試合をこなすようなものです。いろんなポジションや能力のメンバーを擁し、特定のリーダー的存在(司令塔、監督など)が試合運びを主導します。このことは、データサイエンスにおいても同様です。
データサイエンスのヒント③:個々のメンバーに求められる各能力
とは言っても、1サイクルのスピードと質を上げるうえで、チーム運営という側面だけではカバーしきれません。もう1つの重要な要素として、個々のメンバーに求められる各能力があります。
データサイエンス的戦略立案能力
データサイエンスにおいて特に求められる能力は、単刀直入に言えば戦略立案能力です。
先ほど、1サイクルの構成要素として計画立案と実行があることを述べました。これらはいずれも大事ですが、中でも計画立案が大事です。計画の方向性を間違うと、いくら計画通りに作業をすることができても、適切な方向に進めないからです。
そこで重要なのは、各メンバーが高い戦略立案能力を持っていることです。つまるところ、どういう方向に進めばよいかを判断する力です。
この能力を、データサイエンス的戦略立案能力と名付けることにします。長い名称ですが、データサイエンスという特殊な背景を強調したかったため、このように称しました。
データサイエンス的戦略立案能力の要素
そしてこの能力のベースとして特に重要なものが、例えば次の2つです。
- 統計学や機械学習の知見・スキル
- 問題設定能力
よく挙げられる統計学や機械学習が、ここでようやく出てきます。統計学や機械学習の知見・スキルは、計画の実行だけにおいて必要となるものではありません。計画立案においても必要となります。統計学や機械学習をモノにしていないと、うまく戦略を立てるのが困難になります。
他にも必要な学問的知見はありますが、細かく述べるとキリがないので、ざっくりと統計学&機械学習でまとめています。
それから重要なのは、問題設定能力です。問題設定について、詳しくはこのページをご覧ください。
「どういう方向に進むか」は、別の見方をすれば「どういう問題を設定するか」です。問題設定能力が足りないと、どういう方向に進めば良いかの判断に失敗しやすくなります。データサイエンス的戦略立案能力のうち、その他の能力として、数学的思考力や、ITの知見・スキルがあります。
ここでいう数学的思考力は、数学の断片的な知識ではありません。実際のデータサイエンスは、データセット1つ取っても、各項目間が複雑に絡み合っています。戦略を立てるには、そういう様々な事柄を理解しながら、諸々の事象をモデリングをしていくことが求められます。数学的思考力は、そういう場面などで必要になります。
また、データサイエンスはITによって成り立っています。そのため、ITの知見がないと、データサイエンスにおける戦略の立案が困難になります。
以上を図示すると、次のようになります。
データサイエンスのヒント④:オールラウンド的思考
分業的思考の限界
データサイエンスに限らず、分業は、仕事を効率よく進めるための基本中の基本だと思います。複数の種類の役割(あるいは職種)を設定し、役割ごとにメンバーを編成する。各メンバーは、自分の担当の役割に集中する。そうすると、全体として効率的になるし、作業もれも防ぎやすくなる。
こういう考え方を、分業的思考と称することにします。分業的思考は、わざわざ言うまでもなく当然の考え方に見えます。
しかし、そういう分業的思考のデメリットをおさえておくことも重要だと思っています。その代表的なものとして、よく言われる属人化がありますが、それだけではないです。
他のデメリットは、「作業ごとの需要があまり変化しない」という前提が必要になりやすいことです。ここでいう需要は、必要な作業量のことです。
極端な話、ある作業が急に必要になる、あるいは逆に急に不要になるような環境だったらどうでしょう。もちろん、需要の変化に応じてメンバーの再編成やノウハウの習得をする手はありますが、それはハードルが高いです。
ルーチンワークとかなら、作業内容はおおかた決まっています。月日が経っても、必要は作業は変化しにくいです。それに比べるとデータサイエンスは比較的、作業ごとの需要が変化しやすいです(需要というよりは、顕在的需要と言うほうが正確かもしれませんが)。それは前述のように、データセットの内容など、見えない要素が多いからです。見えていなかったものが見えてきたとき、ある作業の必要性が急に高く感じられたり、逆に低く感じられたりします。
分業的思考には大きなメリットがあるものの、そのようなわけで同時に分業的思考の限界をも感じています。データサイエンスの場合は特にそうです。
オールラウンド的思考へのシフト
そういう分業的思考とは反対のものとして、オールラウンド的思考と称するものを提案します。これは各メンバーが、(すべてではなくとも)なるべく多くの種類の作業をこなせることを是とする思考です。
そうすることのできる人材をエンジニア界隈の用語で例えるなら、いわゆるフルスタックエンジニアやマルチエンジニアです。1つ1つの能力はその道のプロには及ばないものの、優れた能力を複数兼ね備えたオールラウンダー的存在です。
オールラウンド的思考があるほど、作業ごとの需要の変化に対して柔軟に対応しやすくなります。
念のために述べると、全面的にオールラウンド的思考に傾倒する必要はありません。分業的思考のメリットを享受しつつも、オールラウンド的思考も積極的に取り入れてみるくらいのバランス感覚がいいと思います。
終わりに
以上、データサイエンスとは何かをメインで述べたうえで、データサイエンスを効率的にやっていくための4つのヒントを提示しました。参考になれば幸いです。
Discussion