【図解】教師あり学習って何?【機械学習】
普段は YouTube で機械学習について発信しています。お時間ある方は覗いていただけると喜びます。
教師あり学習
学習方法は 3 つに分類できる
機械学習とは、機械が自動で学習してくれるとっても便利な手法です。
そして機械学習は、1. 教師あり学習 2. 教師なし学習 3. 強化学習 といった 3 つの学習方法に大きく分ける事ができます。
3つの学習方法
それぞれを一言で表すとこんな感じです↓
機械学習を使ってAIを作りたいとき、このどれかに当てはまります。
それぞれの方法は異なった特徴を持っていて、どの方法を使うのかは、目的や状況によって使い分けます。
さて、今回は、1. 教師あり学習の動きと特徴をザッと紹介します。
Created by NekoAllergy
教師あり学習とは?
教師あり学習とは?
教師あり学習とは、入力するデータと正解ラベルをセットにして学ばせる方法です。ここでの「正解ラベル」とは、「出してほしい理想の正解」といった意味です。
この説明だけでは難しいと思うので、もう少しずつ詳しく解説していきます。
まずは、教師あり学習の流れを見ていきましょう。
教師あり学習とは?
はじめに、教師あり学習のモデルを用意します。このモデルに、入力データ(画像)だけを入力し、いろいろな計算をさせることで、結果が出てきます。
教師あり学習とは?
このとき出てきた結果と、用意しておいた「出してほしい理想の正解」の差を出します。その差を減らすように何度も更新することで、理想の正解に近づいていき、だんだん賢くなっていく、という方法が 教師あり学習 です。
教師あり学習とは?
更新を何度も繰り返して、精度が良くなったら AI の完成です。このAI(モデル)に、見たことないデータ(正解ラベルが用意されてないデータ)を入力すると、いい感じの計算をしてくれて、いい感じの結果を導いてくれます。
ネコの画像を入力したら「ネコ」と出力し、イヌの画像を入力したら「イヌ」と出力してくれます。これはもう立派なAIです。
※見たことないデータ(AI に見せていないデータ)のことを 未知のデータ と呼びます。
Created by NekoAllergy
回帰と分類について
さて、上記で教師あり学習について紹介しました。
この教師あり学習はさらに 回帰(かいき) と 分類(ぶんるい) に分けることができます。
回帰と分類に分かれる
この 2 つは次のような特徴があります。
※イメージを掴むことを目的としているため、実際の数学的な両者の定義や解釈とは異なります。
それぞれについて、詳しく解説していきます。
1. 回帰(かいき)
回帰は、計算結果として「数値」が出力されます。
回帰について
「明日の気温は ○ 度?」だったり、「今度の週末に来るお客さんは ○ 人?」だったり、「この新商品の売り上げは ○ 円になりそう?」などの、具体的な数値を予測してくれます。
具体例で考えてみましょう。
たとえば、明日コンビニで何本の「水」が売れるか、を予測する AI を作る場合を考えましょう。
回帰について
最終的には、「明日は ○ 本の水が売れるはず!」という具体的な数値を予測をしてほしいです。こんなときは、 「回帰を使った教師あり学習」 が効果的です。
過去 2 年分の水の売上データを用意し、それに加えて、季節、曜日、天気、前日は何本売れたか、などの過去の情報を用意します。この時、季節、曜日、天気などの情報が入力データになり、実際に何本売れたか、の売上データが正解ラベルになります。
回帰について
これらのデータは全て、過去のデータです。入力された過去のデータを元に、どの情報(季節?曜日?天気?)が一番売り上げに影響してるかを教師あり学習していきます。
例
例1 : 1月のデータ
1 月 1 日のデータを入力 → AI の予測値:30 本 → 水の過去の実際の売上データ:12 本
→ AI が自動でズレを修正(冬は予測値より少ないなぁ)
例2 : 7月のデータ
7 月 26 日のデータを入力 → AI の予測値:9 本 → 水の過去の実際の売上データ:39 本
→ AI が自動でズレを修正(夏は予測値より多いなぁ)
このように、ズレ修正を繰り返していけば、「水売上予測 AI」の完成です。
結果は、水は明日「14 本」売れる、のように、○ 本という具体的な数値が出てきます。このAIを使うことで、明日は何本の水が売れるかを予測できるようになります。
水の売上予測AI
これにより、多く発注しすぎたり、品切れになってしまう、なんてことを防ぐことができます。このように、具体的な数値を予測するのが「回帰」という手法です。
Created by NekoAllergy
2. 分類(ぶんるい)
一方、分類は、「割合」を予測します。
分類とは
計算結果は「この確率は何パーセントだ」のように出力されます。
たとえば、動物の写真を入力すると、何の動物なのかを教えてくれる AI を作ることができます。
分類とは
モデルに、イヌの写真、ネコの写真、サルの写真を 5,000 枚ずつ(合計 15,000 枚)を学習させたとします。この時、入力するデータは動物の写真です。出力されるのは、どの動物が何パーセント当てはまるかという割合です。割合を見ることで、その対象がどのクラスに属しているのか が分かります。
学習が終わると、動物予測 AI(モデル)の完成です。
分類とは
この AI に、学習させてないネコの写真を 1 枚みせてみます。すると結果は、ネコ:94%、イヌ:4%、サル:2%、のように、割合で出力されます。つまり、ネコの画像を見たモデルは、「94%の確率で おそらくネコだろう。」と言った事になります。
この中で 1 番割合が高いものが、最終的な結果となるので、この場合の結果は「ネコ」です。かなり自信を持ってネコという結果が出てきて、入力した画像とも合っています。このように、未知のデータに対しても、精度の高い AI を作ることができました。
分類 AI の注意点
分類 AI は、とても便利ですが、注意点があります。
正解ラベルとして決めてない動物は出力することができないという点です。
注意点
たとえば、イヌ、ネコ、サルを学習した AI にトリの画像を見せても、結果は、イヌ:42%、ネコ:27%、サル:31%、のように、割合がバラけてしまいます。つまり、結果は 1 番割合が大きい「イヌ」ということになってしまいます。
このような事が起こってしまう原因は、出力先に「トリ」というラベルが存在しないからです。
注意点
したがって、異常なデータが入ってきた時を想定して、出力先として「その他」のラベルを作っておくことが一般的です。
このような分類AIは、イヌ、ネコ、サル、トリ、ウシ、ブタ、、、のように、入力データと正解ラベルのセットを多くすることで、分類できる幅が広がります。しかし、増やした分、学習回数やデータの量を増やす必要があるので結構大変です。
このように、割合を予測するのが「分類」という手法です。
Created by NekoAllergy
まとめ
今回は機械学習の学習方法の 1 つである教師あり学習を紹介しました。
まとめ
まとめ
また、回帰と分類の違いは下記のようにも言えます。
- 回帰:未知のデータを予測すること
- 分類:既にあるデータを分けること
教師あり学習を使う場合、回帰と分類のどちらの問題を解きたいかを最初に考える必要があります。それぞれ目的に適した方法を使いましょう。
状況と目的に適した方法を選ぶことで、効率よく学習でき、精度の高い AI を作る事ができます。
今回の内容は以上です。皆さんの理解が一歩でも進めば嬉しいです。
機械学習をもっと詳しく
ねこアレルギーの AI
普段は YouTube で機械学習について発信しています。お時間ある方は覗いていただけると喜びます。
Created by NekoAllergy
Discussion