コレスポンデンス分析(Python)
こんにちは。駆け出しデータサイエンティストの誾千代です。
今日はコレスポンデンス分析を使っていきます。
コレスポンデンス分析とは何か
インテージでは次のように紹介されています。
「コレスポンデンス分析」とは、統計学上のデータ解析手法のひとつで、アンケート調査などのクロス集計結果を散布図にして見やすくする手法です。省略して「コレポン」と呼ばれることもあります。
調査データはクロス集計表にすることが多いため、項目が多いと内容を把握しにくい場合があります。そうした際、項目間の関係性を視覚的に分かり易く表現するために、コレスポンデンス分析は頻繁に使われます。メディアや企画書などで見かけることも多い手法です。
コレスポンデンス分析と同様の手法に、1940年代後半から50年代にかけて統計数理研究所元所長である林知己夫氏によって開発された、日本独自の多次元データ解析手法である数量化Ⅲ類があります。コレスポンデンス分析はその20年ほど後に、パリ第6大学のジャン=ポール・ベンゼクリ氏によって開発されました。
コレスポンデンス分析と数量化Ⅲ類は、根本の考え方やアルゴリズム(手順)は同じです。厳密に分類すれば、数量化Ⅲ類は2値データ(する/しない、あてはまる/あてはまらない、などのYes/No回答)を対象とし、コレスポンデンス分析はより広い割合なども対象とします。
https://www.intage.co.jp/glossary/400/
このコレスポンデンス分析の良いところは、分析目的とやりたいことがわかっていれば、分析のやり方に「制約」がないことです。かなり自由度が高い、ということですね。
では早速やってみましょう。
分析
環境
Macbook Air
チップ:M2
OS:Ventura 13.4
Python 3.11
Anaconda
Jupyter Notebook
データセット
電通報の中に日本製品に対するイメージのデータがあったので、これを使って示唆を出してみましょう。
【出典】
コード(Python)
import pandas as pd #ライブラリ pandasを入れる
import mca #ライブラリ mcaを入れる
df = pd.read_excel("file pass", index_col=0, header=0)
df.head()
df.info()
データが正常に入っていることを確認した上で分析をかけます。
mca_counts = mca.MCA(df, benzecri=False)
rows = mca_counts.fs_r(N=2)
cols = mca_counts.fs_c(N=2)
分析ができたら表を描きます。
#表のサイズの調整
plt.figure(figsize=(15, 8))
# 表側のプロット
plt.scatter( rows[:,0], rows[:,1], marker="None")
labels = df.index
for label,x,y in zip(labels,rows[:,0],rows[:,1]):
plt.annotate(label,xy = (x, y), c="b")
# 表頭のプロット
plt.scatter(cols[:, 0], cols[:, 1], marker="None")
labels = df.columns
for label, x, y in zip(labels, cols[:, 0], cols[:, 1]):
plt.annotate(label, xy=(x, y), c="r")
# xy軸の表示
plt.axhline(0, color='gray')
plt.axvline(0, color='gray')
分析結果からの示唆
地域によって日本の製品に対する印象が異なることが伺えます。
まず、台湾の周りには「使いやすい」「繊細」「センスがいい」「壊れにくい」「人気がある」「安心して使えそう」という因子が見受けられます。次にタイでは「実用的」「便利」「かわいい」「環境に配慮している」という因子が周りにあります。一方で、フランス・ドイツ・イギリスは共に隣り合っており、周囲に「ハイテク」「上質」「安価」「信頼できる」「歴史や伝統を感じる」「高性能」があることがわかります。
示唆1.その国の製品と日本の製品を比較した結果が現れていることが窺える。
まず、台湾では中国と地理的近接性が高いこともあり、中国の壊れやすい製品と精密とは言えない作りと日本の製品を比較した結果が濃く強調されています。
傍ら、タイは環境に対して敏感にならざるを得ない状態(公害などに悩まされるような発展途上国から先進国へ移るステージ)であることから、環境や実用性・便利さに目が向けられていると言えます。
最後に、欧州圏では日本と同等の品質を持つ製品が多いことから、日本は高性能な製品がある国(他の一般的な国と比べて)だったり、信頼(評価とか)或いは歴史や伝統という日本固有の要素を感じるところがあるといえそうです。
示唆2.「安い」イメージが日本にあるわけではない
メディアで「安い」とよく言われる日本ですが、決して「安い」要素があるわけではなさそうです。
相対的に安い、と思うことはあっても全体的な印象で安いということはないのではないでしょうか。
示唆3.実用的・高性能・信頼性は日本の製品の全体的な強みだ。
全ての国の因子と距離が近く、中心によっていることから、これらは日本が他のどの国に対しても強みのある部分といえそうです。傍らで、「値段が安い」という因子と距離が離れていることから強みというよりは「値段に対して、相対的に品質が良いよね」という含意を汲み取りたいところです。
終わりに
結論として、それぞれの国によって、「日本」という名称を使うならば、訴求方法もそれぞれの国に合わせることが戦略として求められることがわかりました。
参考文献
Discussion