【最終回】英語でデータ可視化を学ぼう:第25回
当記事の位置づけ
- この記事は、【最終回】英語でデータ可視化を学ぼう:第25回 における発表資料です。
- 参照資料は、以下です。
- 全ての発表をまとめたリンクは以下です。
「ストーリーを伝え、強調する」
はじめに
- データ可視化の目的は、コミュニケーション
- 知見を誰かに伝えたり、探索的にやり取りをしたい時に行われる。
- 相手にとって意味があり面白いストーリーでないとならない。
- ストーリーとは⋯
- でっち上げや間違った解釈や過大評価ではない。
- 人を興奮させる。
- なければ退屈になる。
- 聞き手が勝手に作り出してし合う場合もある。
- (聞いているストーリーが退屈ならば)
- 相手の頭の中のストーリが、こちらに敵対的になることもある。
- ストーリーを伝えるときには、以下が大事。
- 相手に興味をもたせ興奮させるような事実
- 納得の行く論理
- ホーキング博士のストーリーの場合
- 21歳の時に運動ニューロン疾患と診断
- 余命2年の宣告
- 困難な状況を受け入れず、全てのエネルギーを科学に注ぐ
- 76際まで生きた
- 最も影響力のある物理学者となった
- 独創性のある研究は、厳しい病状の中で全て行われた
- これは全て真実に基づいた、人を引き付けるストーリー
1.ストーリーとはなにか
- ストーリーとは、人つながりの観測、事実、イベント
- 一定の順序で並べられている
- 緊張から緩和へ
- ストーリー・アーク
- 複数回にまたがった物語の表現形式
- ストーリーのパターン1(ホーキング博士の例で使われた)
- 開始(Opening)
- 課題(Challenge)
- 行動(Action)
- 解決(Resolution)
- 先程のホーキング博士の場合に当てはめると
- ホーキング博士のストーリーの場合(開始)
- 21歳の時に運動ニューロン疾患と診断(課題)
- 余命2年の宣告(課題)
- 困難な状況を受け入れず、全てのエネルギーを科学に注ぐ(行動)
- 76際まで生きた(解決)
- 最も影響力のある物理学者となった(解決)
- 独創性のある研究は、厳しい病状の中で全て行われた(解決)
- ストーリーのパターン2
- 要旨(Lead)
- 例:ブラックホールと宇宙論の理解に革命をもたらした影響力の高い物理学者スティーブン・ホーキングは、医師の予想よりも53年長生きし、主要な成果は重度の障害の中で生み出された
- 展開(Development)
- 例:より詳細なホーキングの人生
- 例:病気
- 例:科学への専念
- 解決(Resolution)
- 要旨(Lead)
- ストーリーのパターン3
- 行動(Action)
- 例:若きスティーブン・ホーキングは、障害で衰え、早期の死亡の可能性もある中、科学に注力することを決心し、可能なうちに名を挙げることに決めました。
- (はじめに相手を引き込んで感情的につなぎとめる)
- (結末に関する情報はすぐには出さない)
- 例:若きスティーブン・ホーキングは、障害で衰え、早期の死亡の可能性もある中、科学に注力することを決心し、可能なうちに名を挙げることに決めました。
- 背景(Background)
- 展開(Development)
- 山場(Climax)
- 結末(Ending)
- 行動(Action)
- データ可視化に対して、どのようにストーリを持ち込むことができるか。
- 一つの可視化だけで全体的なストーリーは伝えられない
- 以下のどれかだけ
- 開始
- 課題
- 行動
- 解決
- 2つの図を使ったストーリー例
- 生物学におけるプレプリント(草稿)の普及
- プレプリントサーバである、arXiv.org で、2007年から2013年までは一定の成長を遂げている。
図29.1 プレプリントサーバarXiv.org における定量生物学分野での毎月の投稿数の推移。2014年近辺で成長率に明確な鈍化が確認できる。
-
- 2013年後半は生物学でプレプリントが活発になった時期なのに。
- 2013年11月に生物学に特化したプレプリントサーバー「bioRxiv」がコールド・スプリング・ハーバー研究所(CSHL)出版により創設された。
- CSHL出版は生物学者の間では高く評価されている出版社
- そこによる支援もあり、biorxiv への投稿数が伸びた
- その結果、arXiv.org への生物学の投稿が鈍化した
- という、生物学のプレプリントに関するストーリー
図29.2 arXiv の定量生物学(q-bio)の投稿数の鈍化は、bioRxiv の開始と同時に発生した。
- 図1と図2の2つを使って説明するが、SNS等の短い投稿が好まれる場では、図29.2だけのように一つの図のみを使用する。
2.司令官に伝わる図を作る
- ここからは相手をストーリーに引き込み続ける戦略について語る
- 重要なこと:相手が理解できる図を示せ
- よくある誤解2つ
- その1:聞き手はあなたの作った図を見たらすぐにその意図を理解できる
- その2:聞き手はあなたの作った複雑な図を見たらすぐにその方向性や関係性を理解できる
- 金言:Less is more(少ないほうが豊かである)
- できる限り図を簡素化しましょう。重要な点のみ残して後は削ぎ落としましょう
- アメリカ陸軍でのプロジェクトの例
- 多くの図を含めないように指示された
- 図は、プロジェクトが成功しているのが明確になるようにするべき
- 司令官「図を見たら今行っている事がどのように改善や能力向上に繋がるかがすぐにわかるようにしてほしい」
- しかし科学者の描く図はそのようにはなっていなかった。
- 司令官は頭が悪いのか?
- 否。
- 司令官は時間が足りない。短時間で明確にわかるように伝えなければならない。
- 作り手は、相手に明確に伝わる図を作らなければならないが、可視化ソフトが邪魔をすることがある。
- 様々な切り口で可視化できてしまうため、かえってわかりづらくなる。(図29.3)
図29.3 ニューヨークからの距離に対する平均到着遅延。各点は1つの目的地を表し、各点の大きさは2013年のニューヨークの主要3空港(ニューアーク、ジョンFケネディ、ラガーディア)からその到着地への便数を表す。遅延が負の場合はその便が早く到着した事を表す。線は到着遅延と距離における平均的な傾向を表す。距離に関係なく、デルタは他と比較して一環して遅延が少ない。アメリカンは短い距離では平均的に遅延が少ないが、距離が長いと遅延が多くなる。この図を不適切(bad)としているのは、過剰に複雑な為。ほとんどの読者は混乱し、この図が示す内容を直感的には理解できないだろう。データソース:アメリカ運輸省、運用統計事務局
- 図29.3で最も言いたいことは、「アメリカンとデルタの遅延が最も少ない」という点
- しかし、それを伝えたいなら図29.4のほうが適切です。
- 図29.4 2013年のニューヨーク地域からのフライトの平均到着遅延。データソース:アメリカ運輸省、運用統計事務局
- これらの航空会社の遅延が少ないのはニューヨークからのフライト数が少ないからなのではないか、という疑問があるかもしれません。
- しかし、図29.5を見れば、アメリカン、デルタの本数が、かなり多い事がわかります。(4番目と5番目に多い)
- 図29.5 2013年のニューヨーク地域からの航空会社ごとのフライト数。データソース:アメリカ運輸省、運用統計事務局
- これらのグラフのどちらにも、距離の概念は記載されていません。
- ストーリーに関係ない要素を入れる必要がありません。
- 単純明快であることは複雑で混乱させる事よりもはるかにマシです。
- あまりに多くのデータを表示しようとすると、結果的には何も伝わりません。
3.図をだんだん複雑にしていく
- 複雑な図を使いたい時はあります。
- そういうときは、比較的単純な図を示してから、だんだん複雑な図を見せるようにします。
- まず把握しやすい部分的な情報(サブプロット)を提示します。(図29.6)
- 図29.6 2013年のユナイテッド航空のニューアーク・リバティー国際空港(EWR)からの出発便数。データソース:アメリカ運輸省、運用統計事務局
- 続いて、それを含んだ全体像を提示します。(図29.7)
- 図29.6で図の味方や解釈を覚えれば、図29.7でもそれが応用できます。
- 図29.7 2013年のニューヨーク地域からの出発便数を航空会社、空港、曜日ごとに表示したもの。データソース:アメリカ運輸省、運用統計事務局
4.覚えやすい図を作る
- 単純な図は伝わりやすいですが、図が普通に見えてしまって記憶に残るような特徴がなくなります。(あまり腑に落ちていない)
- 図29.8を見ると、図29.5を思い出すかもしれませんが、棒グラフであるという共通点以外、指し示す内容は全くの別物です。
- 図29.8:1匹以上のペット(犬、猫、魚、鳥)を飼っている世帯数。データソース:2012 U.S. Pet Ownership & Demographics Sourcebook, American Veterinary Medical Association
- 図29.5(再掲)
- 人間の知覚に関する研究:視覚的に複雑で独特な図ほど記憶に残りやすい
- 視覚的に独特で複雑な図は、
- 記憶に残りやすい
- 人間が素早く情報を処理しづらい
- 記憶に残りやすく、情報を処理しやすい図をどう作るか。
- 視覚効果の追加(ピクトグラム) ⇛ 以下の図29.9を参照。
- データを表現する図を使うこと。
- 装飾や注釈は人の気を散らせがちです。
- 図29.9 一匹以上の一般的なペットを飼っている世帯数。アイソタイププロット(画像を単位量にしたプロット)で示している。データソース:2012 U.S. Pet Ownership & Demographics Sourcebook, American Veterinary Medical Association
- 図29.9 はアイソタイププロット、と呼ばれる。
- アイソタイプ:International Systems Of TYpographic Picture Education
- もの、動物、植物、人間、を表現したシンプルなロゴ風のピクトグラム
- 同じ画像を繰り返して使う可視化手法としての呼称も有りと思われます。
- アイソタイプ:International Systems Of TYpographic Picture Education
5.一貫性があるが繰り返さない
- 異なる分析をした図は見た目が異なっていることが重要です。(図21.8)
- 図21.8(21章より)男性アスリートと女性アスリートの生理情報と体組成。色や要素の位置は共通しているが、グラフの形式が異なる為、異なる分析を表示しているとわかりやすい。Data source: Telford and Cunningham (1991)
図29.10 男性アスリートと女性アスリートの生理情報と体組成、を全て棒グラフで表現したもの。わかりづらい。Data source: Telford and Cunningham (1991)
-
反復的な図は、複数部分から構成されるストーリーの結果であり、各部分が同じ形式のデータを持っている場合に作られます。
-
その場合、各部分で同じ歌詞か手法を使いがちですが、その場合は印象に残りません。
-
Facebook の株価に関するストーリー。
- Facebook は2012年から2017年にかけて株価が急成長した。
- その成長率は、他のITの企業を大幅に上回った。
-
上記の2つの点は以下図29.11で表現したくなるかもしれない。
- 図29.11 Facebook株価の他のIT企業との比較。Data source: Yahoo Finance
- 図29.11 の a は、そのままでもいいですが、b は反復的であり、主張が不明瞭になります。
- 筆者のお勧めは、 a をそのままにして、 b を、パーセント上昇率を使う棒グラフにすること。
- 図29.12 Data source: Yahoo Finance
-
こうすることで、
-
a により読み手は生データをよく把握でき、
-
b では関係ない情報がなくなって重要な部分だけが強調されます。
-
図29.12に詰まっている基本原則
- まず生データから始まり、続いて導出された値を示す
- 導出した値は全体的な傾向を把握するのに優れるが、直感的ではありません。
- 生データだけでは反復的になってしまいます。
- まず生データから始まり、続いて導出された値を示す
-
ストーリーを伝える歳に何枚の図を使うべきか
- 出版物の種類による
- SNSやブログ記事:1枚だけ
- 科学論文:5,6枚(7枚以上になるなら一部を付録や補足資料に回す)
- それ以外:もっと枚数が多い場合もあるが、それは、以下の場合などです。
- ストーリーが複数
- サブプロットを含む包括的なストーリー
- 1時間の科学プレゼンをやる場合、筆者は3つのストーリーを準備します。
- 個々のストーリーラインやサブプロットで示す図は3から6枚であるべきです。
- 実は、この本でもそうしています
- 出版物の種類による
Discussion