✨
G検定で学習した内容のまとめ
AI白書2023
用語
- スキップ機構:スキップ接続 ある層の入力値を数層とばした後に再入力させる
- ノイズ除去拡散確立モデル:DDPM このような生成モデルを拡散モデルという
- CLIP:マルチモーダルなデータの自己教師あり学習法として「CLIP(対照的言語ー画像事前訓練)テキストデータから画像を生成
- Google Pathways Language Model(PaLM)
- Microsoft Copilotは、2023年3月にMicrosoftが発表した、Microsoft 365アプリケーションを支援するツール
OpenAIまとめ
- Dactyl(2019):OpenAIのDactylは、ロボットアームを使用してさまざまな物理オブジェクトを操作することを学習できる手作業を行うことができるロボットアームです。
- Gym(2016):OpenAI Gymは、強化学習アルゴリズムを開発およびテストするためのオープンソースのソフトウェアフレームワークです。
- Universe(2018):OpenAI Universeは、さまざまなゲームやシミュレーションを実行できるソフトウェアフレームワークです。
- GPT-3(2020):OpenAI GPT-3は、テキストとコードの大規模なデータセットでトレーニングされた大規模な言語モデルです。テキストの生成、言語の翻訳、さまざまな種類のクリエイティブコンテンツの作成、質問への回答を行うことができます。
- Clip(2021):OpenAI Clipは、テキストと画像の大規模なデータセットでトレーニングされた事前トレーニング済みモデルです。画像とテキストを関連付けることができます。
- DALL-E 2(2022):OpenAI DALL-E 2は、テキストの説明から画像を生成できるクリエイティブなAIまたは人工知能です。
DeepMindまとめ
- AlphaGo:2016年に世界最強の囲碁棋士を破った囲碁AIです。
- AlphaZero:2017年にAlphaGoを改良した囲碁AIです。
- AlphaFold:2021年にタンパク質の構造を予測したAIです。
- Gato:2022年に50種類以上のゲームをプレイできるAIです。
- LaMDA:2022年に自然言語で会話できるAIです。
ILSVRCは、画像認識の精度を競い合う大会
優勝したチーム一覧
- 2012年:チーム SuperVision(AlexNet)特徴:ReLU関数、SVM、ドロップアウト、トロント大学、Googleの猫
- 2013年:チーム ZF(ZF Net)
- 2014年:イアン・グッドフェロー GANを発明した
- 2014年:1位GoogLeNet 2位チーム VGG(VGG Net)特徴:インセプション構造、オックスフォード大学
- 2015年:Microsoft Research(ResNet=Deep Residual Learning)特徴:Skip connection、152層から構成されるCNN 残差ブロックで勾配消失問題に対応している
- 2016年:Microsoft Research(ResNet)
- 2017年:Microsoft Research(ResNet)
- 2018年:Google Brain Team(Inception-v4)
- 2019年:Google Brain Team(EfficientNet)
- 2020年:Google Brain Team(EfficientNet)
- 2021年:Google Brain Team(EfficientNet)
人口知能歴史
時期
- 1950年 人口ニューラルネットワーク研究開始
- 1982年から1992年 第五世代コンピュータ計画 日本国 実用化ならず
- 1997年 Deep Blue IBMが開発したチェス専用
- 2006年 Watson 医療系、ジョパティ!に出演チャンピオンを破る
- 2006年 Geoffrey Hintonがディープラーニングの第一人者
- 2008年 AAAI 米国人工知能学会
- 2013年 VAE KLダイバージェンス、Berkeley Vision and Learning Center社 Caffe
- 2014年 GloVe スタンフォード大学が開発したモデル、GAN JSダイバージェンス
- 2014年 Cortana(Microsoft) CNNとLSTMを組み合わせて音声認識の性能向上
- 2015年 Alpha Go Google傘下のDeep Mind社 囲碁専用、DCGAN、U-net(FCN)もSkip connection
- 2015年 google Deep Dream 画像変換プログラム、PFN社 Chainer Define by Run
- 2015年 OpenAI イーロン・マスク設立 非営利団体
- 2016年 Ponanza(ポナンザ)コンピュータ将棋
- 2016年 fastText Facebook社(現Meta社)が公開した自然言語処理ライブラリ。Word2Vecと比較して学習が速い
- 2016年 マイクロソフト社 深層学習フレームワークのCNTKを公開
- 2016年 Google GNMT機械翻訳の精度が高い
- 2016年 WaveNet DeepMind社
- 2017年 LSTMはここまで→Transformarにかわる
- 2017年 AlphaGo Zero
- 2017年 AlphaZero 囲碁・チェス・将棋のゲームAI の世界チャンピオン「AlphaGo Zero」「StockFish」「Elmo」に勝利
- 2018年 ELMo 事前学習によって文脈を考慮した単語表現方法を獲得する手法。2層のLSTMをベースとすることで、同じ単語でも文脈によって異なる表現を獲得する
- 2018年 AlphaFold
- 2019年 AlphaStar、OpenAI Five Dota2
- 2021年 OpenAI Clip
- 2020年 AlphaCode、Google Vision Transformer
- 2022年 DeepMindはトレーニングを重ねたAIによって、トカマク型核融合炉の磁気制御を行うことに成功した
- 2022年 OpenAI DALL・E2 テキストから画像生成 Clip・拡散モデル
- 2022年 OpenAI Whisper
- 2025年 ドイツの経済成長戦略 デジタル戦略2025
- 2045年 レイ・カーツワイルさん シンギュラリティの到来
活性化関数
過去の隠れ層の活性化関数一覧
- シグモイド関数:入力が大きくなると1に収束し、入力が小さくなると0に収束する
- tanh:入力の絶対値が大きい場合に0に収束し、入力が0に近づくと出力が1に近づく
最近の隠れ層の活性化関数一覧ReLuの発展型
- ReLu:入力が0以上の場合にはそのまま出力され、入力が0以下の場合には0が出力
- PReLu関数
- GELU
- Mish
- Leaky ReLU関数:入力値が0以下の場合は入力値をα倍(0.01倍など)した値を、入力値が0を超える場合はそのまま出力する
出力層の活性化関数一覧
- ソフトマックス関数:0.0~1.0。複数の出力値の合計が1.0(=100%)になるように変換して出力する関数
- シグモイド関数:入力が大きくなると1に収束し、入力が小さくなると0に収束する
分析
クラスタリング
- k-means法
- ウォード法分析
アルゴリズム系
- 主成分分析:データの中で相関を持つ多数の特徴量から相関の無い少数の特徴量へと次元削減する
- 特異値分解は、任意の行列を3つの行列の積に分解し、重要度の低い列ベクトルを削ることで元の行列に近似した低次元の行列を作成する
- バンディットアルゴリズム:学習データが無い状態から学習させていき、累積報酬を最大化させる
- OpenPose:姿勢推定アルゴリズム
- ランダムフォレスト:複数の決定木を作成し、各出力結果から多数決で最終出力を決める
- ロジスティック回帰:与えられたデータを0から1の確率に相当する値を出力し、2値の結果として表現する
音声認識まとめ
歴史
- 第1世代 1950~1960 年代 ヒューリスティック
- 第2世代 1960~1980 年代 テンプレート (DP マッチング, オートマトン)
- 第3世代 1980~1990 年代 統計モデル (GMM-HMM, N-gram)
- 3.5世代 1990~2000 年代 統計モデルの識別学習
- 第4世代 2010 年代 ニューラルネット (DNN-HMM, RNN)
- 4.5世代 2015 年~ ニューラルネットによる End-to-End
関連するモデルなど
- 音響モデル
- 言語モデル
- 単語辞書
- N-gram
用語
音響分析 録音した音声の特徴量を扱いやすいデジタルデータに変換する
↓
音響モデル 特徴量を事前に学習したデータと照らし合わせ音素を抽出する
↓
パターンマッチ 特定された音素を発音辞書と連携して単語として組み立てる
↓
言語モデル 単語の繋がりを調べ正確な文章を組み立てる
スペクトル解析:サンプリング→音声区間検出→フーリエ変換
フォルマント:音声の周波数スペクトルに現れる周囲よりも強度が大きい周波数帯域
サンプリング周波数:アナログの音声信号をデジタル信号へ変換する際、1秒間に標本をとる頻度のこと
自然言語処理(NLP)
歴史
- 2012年 AlexNet
- 2013年 word2vec
- 2014年 seq2seq
- 2017年 Transformer
- 2018年 OpemAI GPT-1、Google BERT
- 2019年 OpenAI GPT-2、ALBERT、RoBERTa、XLNet
- 2020年 OpenAI GPT-3、T5、Reformer、Meena
- 2022年 OpenAI GPT-3.5 人間のフィードバックによる強化学習 Reinforcement Learning from Human Feedback (RLHF)
- 2023年 OpenAI GPT-4
仕組み
- 形態素解析→構文解析→意味解析→文脈解析
自然言語処理の分野で単語を記号の集合体として扱うモデル
- ELMo:文脈から意味を演算するモデルである。双方向のLSTMで同じ単語でも異なる表現を獲得することができる手法である
- fastText:個々の単語を高速でベクトル変換しテキスト分類を行うモデルである
- スキップグラム:ある単語を与えて周辺の単価を予測するモデルである
- CBOW:スキップグラムの逆で周辺の単語からある単語を予測するモデルである。
言葉の意味まとめ
よくでる言葉
- 松尾豊氏は、「ディープラーニングは目の技術である」と表現
- ジョン・サールは強いAIを、人間が心を持つのと同じ意味で心を持つAIと区分する
- 深層学習のパイオニアであるジェフリー・ヒントン:ノーフリーランチ定理とは、あらゆる問題を効率よく解ける万能なアルゴリズムはない
- みにくいアヒルの子定理とは、何らかの仮定がないと分類することは不可能である
- バーニーおじさんのルールとは、ニューラルネットワークの重みパラメータの数に対して、その10倍以上の訓練データ量が最低限必要、とする経験則
- オッカムの剃刀とは、何かの現象を説明する際、必要以上に多くのことを仮定すべきではない
- プライバシー・バイ・デザイン:AIサービスの企画や開発、設計段階から運用にかけてプライバシー保護対策に配慮する考え方
- Attentionは時系列のどの時点が重要であるかという重みづけを行うことができる
- 回帰と分類の違いは、目的変数が離散値か連続値か否か
- 重回帰分析には決定係数がある
- SVNではかーネルトリックにより精度を向上
2値分類における機械学習モデルの性能を測る指標
- 真陽性とは、実際の値が正(TRUE)のものに対して、正(TRUE)と予測したもの
- 偽陽性とは、実際の値が負(FALSE)のものに対して、正(TRUE)と予測したもの
- 偽陰性とは、実際の値が正(TRUE)のものに対して、負(FALSE)と予測したもの
- 真陰性とは、実際の値が負(FALSE)のものに対して、負(FALSE)と予測したもの
物体検出タスクモデル
- R-CNN
- FPN
- YOLO:You Only Look at Onceは元画像をグリッド領域に区切ってバウンディングボックスを推定する手法。Faster R-CNNが抱えていた処理速度の問題を解決したモデル
- SSD:デフォルトボックスを配置してバウンディングボックスを推定する手法
- Faster R-CNN:Region Proposal NetworkというCNNを使用した手法
- SHAP
- Mask R-CNN:faster R-CNNにピクセルレベルの意味検出のためのモジュールを付加したモデル
その他モデル
- Transformerとは、RNNを使わずにAttentionを使用することで高速化や長文対応を可能にしたモデル
- Seq2Seq(sequence to sequence)は文字列や画像の特徴量などの系列データを受け取り、別の系列データに変換するモデル。Seq2SeqはRNN Encoder-Decoderと呼ばれ、2つのRNNから構成される
- BERT:Googleによって開発された事前学習モデル
- BiRNN:過去から未来へと出力値を順伝播ネットワークと未来から過去への逆伝播ネットワークも取り入れたモデル
- CBOW:周辺の単語からある単語を予測するモデル
- LSTM:RNNの一種であり、長期の系列における学習を可能とするモデル
- CNNは人間がもつ視覚野の神経細胞の2つの働きを模倣するアプローチで生まれたモデルであり、初期モデルはネオコグニトロンという
- sim2real:シミュレーションによって予めポリシーを学習し、学習したポリシーを現実世界へ移行していく強化学習手法
- ARモデル:Auto Regression:自己回帰モデルは、1変量の時系列データを扱い、過去の自分のデータから将来の自分を予測するというモデル 株価予測
xxネット
- MobileNet:スマートフォンなどのモバイル端末でも学習できる程に計算量やメモリー使用量が少ない。計算量を減らすために用いられる手法:Pointwise convolution、Depthwise convolution
- GoogLeNet:インセプション構造とよばれる横にも層にも広がる構造
- NASNet:AutoMLを利用して自動学習で作られたモデル
- EfficientNet:モデルの幅、深さ、解像度を一定のスケーリング係数を使って複合的にスケールアップする
xx勾配降下法
- SGD 確率的勾配降下法:連続最適化問題に対する勾配法の乱択アルゴリズム。 バッチ学習である最急降下法をオンライン学習に改良したアルゴリズム
- 勾配降下法:コスト関数を最小にするためにパラメータを繰り返し操作して最適なパラメータを算出
- バッチ勾配降下法:関数の傾き、すなわち 1 次導関数に着目して最小値を求める方法
機械学習ライブラリ
- TeandorFlow
- Caffe
- Pytorch
- CNTK
- Chainer
- Numpy
忘れる1~5文字
- A3C:Asynchronous Advantage Actor Criticは、複数のエージェントが同じ環境で非同期に学習できることが特
- AIC:赤池情報量基準、説明変数として利用する変数ができるだけ少なくなるようなモデルを高くする指標
- A-D変換:Analog to Digital Conversionは、アナログデータを離散的なデジタルデータに変換する
- AE:オートエンコーダ
- AUC:ROC曲線の下部分の面積のことを指し、1に近ければ近いほど優れた分類モデルとなる
- BIC:ベイズ情報量規準
- BPR:既存の業務を見直して再設計すること
- BPTT(Back Propagation Through Time):RNNの逆伝播のパラメータ更新のこと
- カテゴリカルDQN:分布を計算する
- DQN:強化学習の一手法で、Q学習に深層学習を取り入れたもの
- DDQN:ダブルDQNは、DQNの改良版。深層強化学習を二重化することで状態行動価値「Q値」の過大評価を軽減することで精度を高める
- ELSI:技術以外の課題のEthical(倫理)、Legal(法律)、Social Issues(社会課題)の頭文字をとった
- F値:トレードオフの関係にある適合率と再現率の調和平均
- LSI:潜在的意味解析は、トピックモデルの一つであり、文章の類似性を抽出するため、特異値分解を使って同義な単語をグルーピングして文章の情報量を凝縮します。1文章に1トピックしか持てないことが特徴
- LDA:ディリクレ分布という確率分布を仮定して確率を生成するトピックモデルの一種
- LOD:ウェブ上でコンピュータが処理しやすいデータを公開・共有するための技術
- Q値:状態行動価値関数。強化学習で重要となってくる行動価値関数の式の頭文字をとる
- MDS:多次元尺度構成法はデータ同士の距離情報を維持するように低次元にプロットする手法
- NAS:ニューラルネットワークの構成やパラメータを自動で最適化する仕組み
- ROC曲線:Receiver Operating Characteristic Curveは、縦軸に真陽性(TP)率、横軸に偽陽
- SOTA:State-of-the-Artは、製品や科学などの、ある特定の専門技術領域において現時点での最先端レベル(=最高/最良)の性能(=機械学習では正解率などのスコア/精度)を達成していることを表す
- SVM:サポートベクターマシンは、マージン最大化やカーネル法によって学習する
- t-SNE:t分布の確率的近傍埋め込み法を用いて高次元のデータを次元圧縮する手法
- VARモデル:多変量の時系列データを扱うモデル
- VAE:変分オートエンコーダ オートエンコーダを活用した深層生成モデル
- VAD:音声区間検出
性(FP)率で表される曲線
Discussion