コーヒーの特徴量データセットを「平安京ビュー」で可視化・分析

2022/04/30に公開

なぜ「コーヒー」の可視化?

A. コーヒーが好物だからです。

コーヒーは種・環境・精製処理・焙煎方法 etc.. によって風味が変わってきます。
個人的には酸味が強くフルーティなコーヒー(特にエチオピアで浅煎りのナチュラル)が好きで、自分の中ではハズレがありません。これが店頭にあると迷わず買ってしまうほどです。
しかし、このままだと他のコーヒー豆に挑戦することなくずっとエチオピアの豆だけを飲むことになります。

そこで、コーヒーのデータを可視化・分析し、「自分の好きな風味に似ているもの」or「自分の知らない新しい風味」をデータから発見しようと思い立ったというわけです。

コーヒー豆知識その1 「アラビカ種」と「ロブスタ種」

よく飲まれるコーヒー豆の種類に「アラビカ種」と「ロブスタ種」があります。
アラビカ種が高品質で市場に出回っていることから今回はアラビカ種のみに限定します。
(ロブスタ種は安価で品質は劣り、インスタントコーヒーによく使われます。)

コーヒー豆知識その2 「ナチュラル」と「ウォッシュド」

代表的な精製処理方法として「ナチュラル」と「ウォッシュド」があります。
特徴として以下のような味の説明ができます。
ナチュラル:熟成したワインのような風味/コーヒーの果実から移った豊かなコクと甘み
ウォッシュド:スッキリとクセのない、クリーンな味

※つらつらと可視化の分析・考察を述べていくので、時短する時は「まとめ・結論」までひとっ飛びしてください😇

「平安京ビュー」って?

https://github.com/itot0103/HeiankyoView
「平安京ビュー」とは、お茶大の伊藤貴之教授(私の恩師)らが開発した「長方形の入れ子構造による階層型データ可視化手法」です。
または、「階層型データ全体を一画面に配置する手法」とも言えます。

葉ノード・枝ノードの直交配置を意識したアルゴリズムの実装がされており、平安京の地図に似ていることから命名されています。

処理手順の詳細はこちらの資料を参考にしてください。

データセット

コーヒーの詳細な特徴量データセットです。
Coffee Quality database from CQI
A database scrapped from Coffee Quality Institute 2018
https://www.kaggle.com/volpatto/coffee-quality-database-from-cqi?select=arabica_data_cleaned.csv

情報は2018で古いですが、kaggleに落ちていたので利用します。

可視化画面の構成

平安京ビューは深さのある木構造の可視化に向いていますが、今回はグルーピングの一覧可視化として使用します。グルーピングの順番は外側から、

  1. 国 (枠)
  2. 精製処理 (枠)
  3. 農場 (ノード)

となっており、1つのノードは農場を表します。イメージは以下の通り。

Table Attribute Panelで操作できる値は下の通り。

特徴量一覧
  • Aroma (香り)
  • Flavor (風味)
  • Aftertaste (後味)
  • Acidity (酸味・果実味)
  • Body (コク)
  • Balance (FlavorとAcidityとBodyのバランス)
  • Uniformity (均一性)
  • Clean Cup (雑味のなさ)
  • Sweetness (甘さ)
  • Total Cup Points (総合点)
  • Moisture (水分)
  • Altitude Mean Meters (農場の平均標高メートル)

データセット内の値を色変化によって表現しています。
平安京ビュー内での色は (暖色🟥🟨 ⇄ 🟩🟦寒色) : (値or評価点が高い🟥🟨 ⇄ 🟩🟦低い)。

可視化結果1: 数値の極端な偏り

特徴量ごとに平安京ビューを眺めた時、明らかに全体が赤い特徴量「Clean Cup (雑味のなさ)」「Uniformity (均一性)」「Sweetness (甘さ)」の3つが観察できました。
全体的に赤いということは、中央値が高く、飛び抜けて数値が低いものがあることを意味します。

そこで、「Total Cup Points (総合点)」を見ると、↑の3つの特徴量の値が低い(寒色🟦)箇所がだいたい対応していることがわかります。

「Total Cup Points (総合点)」が高ければ評価が高いコーヒーです。
「Clean Cup (雑味のなさ)」「Uniformity (均一性)」「Sweetness (甘さ)」の3つに関しては、「Total Cup Points (総合点)」とおおよその値が対応していることから、「品質」に大きく関係のある特徴であることがわかります。

逆に、評価が低い青い箇所・農場は品質が劣っていることがわかります。
これだけだとただの悪口に聞こえるかもしれませんが、品質が劣る分、安価で大量生産でき、インスタントコーヒーなどで使用されている可能性が考えられます。

「Sweetness (甘さ)」は品質に関係する...?

個人的に、「Sweetness (甘さ)」がコーヒーの品質決定にとって重要な特徴量だということに驚きでした。SCAJ(日本スペシャリティコーヒー協会)によると、

コーヒーのチェリーが収穫された時点で、熟度が良く、且つ熟度がどれほど均一であったかに直接関係する甘さの感覚。甘さとは、焙煎されたコーヒーに含まれる糖分の量が絶対的なものではなく、甘さの印象度を創造する他の成分・要素との結合にも依存する。又、糖分が高くても、甘さを感じることを阻害する要因―辛さのある苦味、刺激的な酸味、強い汚れ、渋み等が有ると甘さを感じにくくなる。

とあります。要するに、コーヒーの「甘さ」とは

  • コーヒーチェリーの熟し具合に大きく依存
  • ひとつの成分由来ではない
  • 成分と要素との繋がりによって感じるもの

であり、単純に糖度が高いというわけではないことがわかります。ということでコーヒー豆の成分について見てみます。


(円グラフの面積は (MAX - MIN) / 2 で決定しています)
※多糖類:でんぷん、デキストリン
※少糖類:①二糖類(ショ糖、乳糖、麦芽糖)②オリゴ糖
※その他:ポリフェノールやカフェインなどの微量成分

この図は、生豆のコーヒー豆と焙煎前後のコーヒー豆の成分をグラフにしたものです。糖度の観点から直接「甘さ」に関わるのは少糖類(🟠)だけです。グラフから分かる通り、糖度的な「甘さ」を引き出す少糖類は、焙煎によって減少しています。さらに、抽出時のロスもあり、熟したコーヒー豆を使っても焙煎や抽出が適正でないと甘さ成分はゼロに等しく、甘さを感じにくくなるみたいです。

しかし、少糖類は焙煎によってほぼ無くなってしまいますが、カラメル化します。
カラメル化によりキャラメルのような香り(カラメル香)がすることで「甘さ」がほんのり感じるのかもしれません。(コーヒーの生豆が焙煎によって茶色くなる理由もカラメル化が1つの要因)

コーヒーの成分はまだまだ解明されていない部分が多く、なぜ甘く感じるのかはまだ化学的に解明できていません。コーヒーの香りを正確に再現しようとしても難しいのが現状だそうです。

これらの点で考えると 「甘さ」=「どれだけ焙煎技術が優れているか」 ではないかと考えられます。コーヒー農園がどれだけ優れた豆を生産しても、焙煎士の腕によっては良さが引き出されない...焙煎技術ってとっても重要なんですね...☕️
農園と焙煎士のマッチングがいかに大事なのかもわかりました。

参考

可視化結果2: 外れ値を発見・操作・分析

次に、全体が真っ青な特徴量「Altitude Mean Meters (農場の平均標高メートル)」が観察できました。全体的にほぼ青いということは、↓図の緑と赤で表示されている2つの農園が、飛び抜けて数値が高いということを意味します。

平安京ビューはプロット表示を回転させて3D可視化も可能です。どれだけ数値が飛び抜けているかを見やすくするために、少し回転させているのが↓右図になります。

↑図から、飛び抜けている2つの農場について情報抽出しました。

精製処理 農場名 標高
🟩 ニカラグア🇳🇮 Washed / Wet cafetales santa Matilde 110000.0m
🟥 グアテマラ🇬🇹 Washed / Wet la esperanza 190164.0m

明らかに標高がおかしいです。(世界一の標高:エベレスト8848m)
そこで、この2つの農場は無視(正しい標高値がわからなかったため)して、再プロットしたのが図↓になります。
可視化により、不正値を検出することができました。

正しく表示されている可視化結果から改めて観察すると、ミャンマー(図赤枠)が特に赤く表示されていることがわかります。このことから、ミャンマーは全体的に標高が高い地域の農場が多いこともわかります。
また、「Moisture (水分)」と標高は相関があるように見えます。(標高高い🟥と水分少ない🟦、標高低い🟦と水分多い🟥)

つまり、「標高が高いほど水分量が少なく、標高が低いほど水分量が多い」です。これは、低緯度の高山地帯の気候の特徴「標高が高いほど乾燥し、標高が低いほど湿度が高くなる」と一致します。

標高の全データ平均値は1,312mで、コーヒー農場は割と標高が高い地域に立地しています。コーヒーベルトと呼ばれるコーヒーの産地エリアは低緯度の赤道付近にあり、年中暑いイメージがありますが、標高が高ければ気温も下がります。気温が低い分、生豆の成長をゆっくりと促し栄養を蓄えさせることができるみたいです。また、高山地域特有の寒暖差があることで、生豆が硬く引き締まり、成分も凝縮されて美味しいコーヒーになりやすいと言われています。

標高でコーヒーの格付けがされていたり、「『標高』でコーヒーを選んでみる」といった記事があるくらい標高によってもコーヒー豆に違いが出るみたいなので、国だけでコーヒーを選ぶのではなく農場の特徴をしっかりと調査した上でコーヒー飲み比べをすると面白いはずです。

加えて、「Moisture (水分)」の可視化結果から「水分量が多い→ウォッシュド」、「水分量が少ない→ナチュラル」であることもわかりました。これは精製処理特有の特徴であるため、データからも正しい結果が見れました。

参考

可視化結果3: 比較分析

最後に、私の好きな風味である「エチオピア/ナチュラル」を特徴量ごとに比較分析していきます。
また、気になった特徴量も国ごとに色枠をつけて分析しました。

🟥 赤枠: エチオピア (下囲み: ナチュラル、 上囲み: ウォッシュド)
🟩 緑枠: アメリカ
🟦 青枠: パプアニューギニア
🟨 黄枠: メキシコ
🟣 紫枠丸囲み:エルサルバドル/ナチュラル
⬜️ 白枠: 日本


🟥 赤枠: エチオピア (下囲み: ナチュラル、 上囲み: ウォッシュド)
🟩 緑枠: アメリカ
🟦 青枠: パプアニューギニア
🟨 黄枠: メキシコ
🟣 紫枠丸囲み:エルサルバドル/ナチュラル
⬜️ 白枠: 日本

🟥「エチオピア/ナチュラル」のコーヒー

まずはエチオピアを観察します。精製処理「ナチュラル(下囲み)」と「ウォッシュド(上囲み)」において特徴量「Moisture (水分)」を省いてほとんど値が似ていることがわかります。
焙煎方法によって「水分」は無視できるようなので、「水分」以外を無視して他要素がエチオピアと似ている国を探します。そしておおよそ似ているの国を2カ国発見しました。
以下が「自分の好きな風味に似ている」=「エチオピア/ナチュラルに似ている」とデータから言えます。

  • 緑枠🟩:US/ウォッシュド
  • 青枠🟦:パプアニューギニア/ウォッシュド

🟨「メキシコ」のコーヒー

メキシコのコーヒーは以下の特徴があります。

  • 苦味よりも爽やかな酸味がある...(1)
  • 芳醇な香りでコクがあるのにさっぱりとした後味である...(2)
  • 酸味と甘みのバランス良く万人受けする
  • etc

以前、個人的に飲んだメキシコのコーヒーは(1)の特徴がよく出ていていました。酸味を強めに感じ、メキシコはエチオピアと特徴が似ているのだと勝手に予想していました。

しかし、「Acidity (酸味・果実味)」をみると、メキシコの酸味はエチオピアほど強くないことが観察できます。一般的に酸味の役割としては、苦味をやわらげたり、逆に苦味の良さを引き立てるといったことが挙げられます。(1)の特徴としての「苦味が目立たない」というのは、成分データからでは酸味が主としてその作用を引き起こしているとは考えにくいです。

ではなぜ私が飲んだメキシコのコーヒーは酸味を強く感じたのか...??
出典:https://www.wingbeatcoffee.com/blog/1180/
↑は抽出に関する要素と苦味・酸味の関係を表している図です。このように、焙煎技術だけではなく、その後の抽出方法によってもコーヒーの味が変化していきます。おそらく私が飲んだメキシコのコーヒーは焙煎・抽出方法が工夫されており、コーヒーチェリーの果実風味を引き出すような細工が施されていたのだと思います。

この図を見れば分かる通り、抽出方法を固定することで、都度自分好みのコーヒーを飲むことが可能です。(豆の栽培からコーヒーを飲むまでの工程がありすぎて😇コーヒーは奥が深すぎです😇)

また、(2)の特徴にあるように「Aftertaste (後味)」は数値が高いと予想していたのですが、あまり高くないです。「後味」は「Body (コク)」と「Clean Cup (雑味のなさ)」と相関があるとも言われていますが、それでも全体的に評価は普通〜低いです。これに関しては理由・原因を調査しても答えが見つからないので今後の課題としておきます。※有識者からの意見もお待ちしております。

🟣「エルサルバドル」のコーヒー

個人的に、酸味があってフルーティーなコーヒーは香りが強いと感じます。なので、「Acidity (酸味・果実味)」が強ければ強いほど「Aroma (香り)」が強い、と予想していました。これは可視化結果からも観察することができます。

しかし、エルサルバドル/ナチュラルだけは、色濃く、異なる可視化結果(「Aroma (香り)」は強いが「Acidity (酸味・果実味)」は強くない)が出ています。これは大変興味深いです。
また、そのような特徴は、エルサルバドルのコーヒーの中でも精製方法ナチュラルのみが持っています。

エルサルバドルでは近年「ハニープロセス」と呼ばれる精製方法が注目されており、これによりハチミツのような自然でまろやかな甘みを出すことができます。ハニープロセスはまだまだマイナーな精製方法なので、ナチュラルとウォッシュドとの飲み比べをしてみると面白いかもしれません。
以上の数値・考察から、飲んでみたいコーヒーNo1となりました。

⬜️「日本」のコーヒー(余談)

データセットに含まれている唯一の日本のコーヒー農場「ADA FARM」で、精製方法は「パルプドナチュラル」です。
コーヒーベルトにも属していない日本の気候だとコーヒー豆栽培は難しいと言われいてますが、高品質な豆(スペシャリティコーヒー)が作れる場所として証明されつつあります。

2016年11月2日、国産スペシャルティコーヒーが国頭村安田から誕生しました。高い緯度、低い標高に加え、沖縄の厳しい環境では不可能と言われ続けた高品質生豆の生産。ついにその品質と安田(あだ)らしさを世界に認めてもらうことができました。

農園の方々のたゆまぬ努力によって国産コーヒーが生産されています。
技術が発展し、手軽に新鮮な国産コーヒーを飲めるようになる日を待ち遠しく思います☺️

参考

まとめ・結論

平安京ビュー」を用いたコーヒーデータセットの可視化・分析により、
「自分の好きな風味に似ているもの、または自分の知らない新しい風味の発見」
をしました。
ここで言う自分の好きなコーヒーの風味は エチオピア/ナチュラル です。
結論として、

  • 自分の好きな風味に似ている:US/ウォッシュドパプアニューギニア/ウォッシュド
  • 新しい風味の新規開拓: エルサルバドル/ナチュラル

を探し出すことができました。

\ 飲むぞー! /

今後の動き

  • データセットは2018年に作成されたものであるため古い(他の年の入手は有料)
     → 最新のデータでもう一度分析
  • コーヒーが手元の「飲める状態」になるまでには工程が山ほどある。例えば今回の精製方法の他にも焙煎方法、抽出方法、グラインダー性能(豆挽きの粗さ)など。今回のデータセットは精製方法の種類が少なく、また焙煎方法についてはデータがなかったため、木構造的な深さ(工程数が多ければ多いほど深い)の可視化ができなかった
     → さらに詳しく工程情報が含まれるデータセットを使用して可視化・分析(例:工程数が多い (木構造の深さが深い)のに総合点が低い、その逆も然り…etc…)
  • メキシコのコーヒーの「Aftertaste (後味)」の謎に迫る
  • 結論として出た国/精製処理/農場のコーヒー豆を手に入れて飲む
  • 国産コーヒー豆を手に入れて飲む
  • その他の気になる数値を叩き出しているコーヒー豆を手に入れて飲む
  • (コーヒーマイスター受けてみようかな...😪)
  • コーヒーについて勉強する!

謝辞

有識者の方からご指摘いただきました!追記する形で正しい情報載せております!
ありがとうございます🙇‍♀️✨

Discussion