AWS MLS 勉強メモ 2 ~ 機械学習用語 ~
AWS MLS 勉強メモ 1 ~ AWS サービス ~ の続きです。
今回は機械学習用語についてのメモです。
多重共線性 (マルチコ)
多重共線性の問題点をわかりやすく!基準や目安はvifと相関係数のどちらを使う? | いちばんやさしい、医療統計
- 多重共線性とは説明変数同士に相関がみられること
- 多重共線性があると、間違った分析結果になる(βエラーの増加)
- 多重共線性の判定には相関係数ではなくVIFを用いる
- VIFの基準は一般的には10だが、5以下が理想
トレンドと季節性
時系列データとは?メリットや活用例、分析の手法をわかりやすく紹介 | TROCCO®(トロッコ)
トレンドは、時系列データにおける最も基本的な要素のひとつです。各要素は、データの上昇または下降の動きを指します。
季節性は、一定期間ごとに繰り返し現れる変動パターンを指します。
XGBoost
Amazon で XGBoost アルゴリズムを使用する SageMaker - Amazon SageMaker
XGBoost は、回帰、分類 (バイナリとマルチクラス)、ランキングの問題に使用できます。
NLP
自然言語処理(NLP)の前処理とは、プログラムまたは機械学習モデルによる分析のための生のテキストを準備することを指します。
- 小文字への変換
- ステミング
- トークン化
- ストップワードの除去
残差
回帰分析の残差の求め方について解説!誤差との違いと残差プロットについて分かりやすく!|スタビジ
残差とは「実測値と予測値の差分」と定義されています。
クラスタリング
クラスタリングとは?分類との違いやメリット・手法・事例を紹介!
クラスタリングは「データ間の類似度に基づいてデータをグループ分けしていく手法」のことです。
ロジスティック回帰分析
ロジスティック回帰分析とは?用途、計算方法をわかりやすく解説! - GMOリサーチ&AI
ロジスティック回帰分析は、いくつかの要因(説明変数)から「2値の結果(目的変数)」が起こる確率を説明・予測することができる統計手法です。
ROC 曲線
白黒はっきりしない判定の評価のしかた 〜ROC曲線と AUC〜 | Tech Blog | CRESCO Tech Blog
判定の良し悪しを見るために「閾値を変えたときにどれくらい切り分けられかたが変わるか」をグラフに表したのが、ROC曲線です。
AUC
【評価指標】ROC 曲線と AUC についてわかりやすく解説してみた | キカガクブログ
AUC は Area Under the Curve の略であり、ROC 曲線の下部分の面積のことです。
Data Augmentation
データ拡張(Data Augmentation)徹底入門!Pythonとkerasでデータ拡張を実装しよう
Data Augmentation(データ拡張)とは、学習用の画像データに対して「変換」を施すことでデータを水増しする手法です。
バイナリ分類
二項分類(にこうぶんるい、英: Binary classification)は、オブジェクトの集合を個々のオブジェクトがある特定の属性を持つかどうかで2種類にグループ分けする分類作業である。二値分類(にちぶんるい)、2クラス分類とも呼ばれ、多クラス分類において分類先のクラス数が2の場合と考えることができる。
再帰的特徴量削減 (RFE)
再帰的特徴量削減 (Recursive Feature Elimination, RFE) : 化学とAI
特徴に重みを割り当てるアルゴリズム(ランダムフォレストや線形モデルなど)において、特徴量を削減して最適化する方法。
L1 正則化
L1正則化は目的関数にパラメータの絶対値の和(の係数倍)を加える正則化の手法です。この正則化手法ではパラメータが0になりやすくパラメータが減少するため、次元圧縮が可能です。
L2 正則化
機械学習における正則化とは?L1正則化とL2正則化やPythonでの実装までわかりやすく解説!
L1正則化は要らない変数を減らし、L2正則化は値の大きい係数にペナルティを与えます。
L2正則化は重み(係数)が大きいものの値を下げる効果があるため、1つの変数の影響を下げられるのが特徴です。
TFRecord
人工知能フレームワーク入門(第4回):TensorFlowのデータフォーマット「TFRecord」を使う | さくらのナレッジ
TensorFlowでTFRecordを利用してデータを読み込みたい場合、まずは事前に画像など必要なデータファイルをTFRecord形式のファイルに変換しておく必要がある
TFRecordでは複数の学習データを1つのファイルにまとめることも可能だ。もちろんデータ数に応じてファイルサイズは大きくなるものの、これによって学習時のデータファイルの管理が容易になるというメリットがある
ビニング (離散化)
【初心者】特徴量エンジニアリング(データのビニング)について調べてみた #AWS - Qiita
データのビニングとは、値を並べ一定の数で分割します。
前処理で実施する手法の一つ。ビニングを行うことで誤差などの雑音を除き適切な値を保管する。その結果、モデルの質が向上するようです。
対数 (log)
対数とは?logとは?基本の性質や計算方法、ビジネスでの活用例の解説|データ分析ブログ|データ分析をもっと簡単に思い通りに|株式会社Srush
対数(logarithm、log)とは、数学において重要な概念の一つであり、ある数を別の数の何乗で表現することを意味します。
対数変換
対数変換とは?対数正規分布や幾何平均についてもわかりやすく解説! | いちばんやさしい、医療統計
10、100、1000といった値を基底10の対数を取れば、それぞれ
log10=1、log100=2、log1000=3と、対数変換をすることができます。
なぜ対数変換に対して対数正規分布が重要かと言うと、対数正規分布を対数変換すると正規分布に近づく、という性質があるからです。
SSD (Single Shot Multibox Detector)
【物体検出】SSD(Single Shot MultiBox Detector)の解説
SSDでは"Single Shot"という名前が暗示しているように、1度のCNN演算で物体の「領域候補検出」と「クラス分類」の両方を行います。これにより物体検出処理の高速化を可能にしました。
RecordIO
Amazon SageMaker を使用して画像を分類する | Amazon Web Services ブログ
RecordIO は、画像を NN にストリームとして入力するのに効率的なファイル形式です。
主成分分析
わかりやすく言えば、たくさんの次元(指標)のデータから、全体をわかりやすく見通しの良い1~3程度の次元に要約していくことです。たとえば、身長と体重という2次元から、BMI(ボディマス指数)という肥満度を表す1次元の指標に要約するのが主成分分析、と言えばイメージしやすいでしょうか。
正規化
第365話|標準化か正規化か?機械学習データ処理の選択肢 – セールスアナリティクス
正規化の主な目的は、異なるスケールを持つ特徴量を統一された範囲内に調整し、モデルの学習において各特徴量が均等に寄与するようにすることです。
protobuf recordIO 形式
トレーニングの共通データ形式 - Amazon SageMaker
データの準備に Python を使用している場合は、これらの既存の変換を使用することを強くお勧めします。
リカレントニューラルネットワーク
リカレントニューラルネットワーク (RNN) とは - MATLAB & Simulink
リカレントニューラルネットワーク (RNN) は、過去の情報を利用して現在および将来の入力に対するネットワークの性能を向上させる、ディープラーニングの構造です。
オートエンコーダー
オートエンコーダとは?事前学習の仕組み、活用方法を解説!|ITトレンド
オートエンコーダとはニューラルネットワークの仕組みの1つです。入力されたデータに次元削減の処理をして、特徴抽出するものです。
CNN
CNN(畳み込みニューラルネットワーク)とは? わかりやすく解説 | 株式会社 日立ソリューションズ・クリエイト
CNNは主に画像認識の分野で活用されており、そのなかでも「一般物体認識」と呼ばれる画像認識のタスクにおいて優れた性能を発揮することから注目されています。
Parquet
Apache Parquet:効率的なデータストレージ|Databricks
Apache Parquet は、効率的なデータの保存と検索のために設計された、オープンソースの列指向データファイル形式です。複雑なデータを一括処理するための効率的なデータ圧縮と符号化方式を提供し、パフォーマンスを向上させます。
seq2seq
seq2seqの仕組みを解説!Pythonで翻訳モデルを呼び出して使ってみよう!|スタビジ
RNNという自然言語処理に強いディープラーニングのモデルをエンコーダ・デコーダモデルに投入したもの。
Attention mechanism
Sequence to Sequence の仕組み - Amazon SageMaker
アテンション機構では、デコーダーが最も重要な情報が存在する可能性があるエンコーダーシーケンス内の場所の検索を試行し、その情報と以前にデコードした単語を使用して、シーケンス内の次のトークンを予測します。
ドロップアウト
【ニューラルネットワーク】Dropout(ドロップアウト)についてまとめる #機械学習 - Qiita
Dropoutとは、ニューラルネットワークの学習時に、一定割合のノードを不活性化させながら学習を行うことで過学習を防ぎ(緩和し)、精度をあげるために手法。
学習率
機械学習における学習率とは?最適化・損失関数についても解説 | TRYETING Inc.(トライエッティング)
学習率とは、機械学習の最適化において、重みパラメータを一度にどの程度変化させるかを表すハイパーパラメータのことです。学習率の値が高いほど一度に変更する重みパラメータの大きさが大きくなるので学習のスピードは上がり、反対に低ければ学習のスピードは下がります。
horovod
horovodを用いたPytorchの分散学習 - Stimulator
horovodとは、バックエンドをOpenMPIとしTensorFlow、Keras、PyTorchを最小限のコード変更で分散学習できるようにするためのパッケージである。
平均絶対誤差
[損失関数/評価関数]平均絶対誤差(MAE:Mean Absolute Error)/L1損失(L1 Loss)とは?:AI・機械学習の用語辞典 - @IT
平均絶対誤差(MAE:Mean Absolute Error)とは、各データに対して「予測値と正解値の差(=誤差)」の絶対値を計算し、その総和をデータ数で割った値(=平均値)を出力する関数である。
転移学習
転移学習とは?ファインチューニングとの違いや活用例をご紹介 - 顧問、専門家のプロ人材紹介サービス
転移学習とは、効果的な仮説を効率的に見つけ出すために、別のタスクで学習された知識を転移する機械学習の手法である。
ソフトマックス関数
SoftMax(ソフトマックス)関数とは?文系の人にもわかりやすく #DeepLearning - Qiita
ソフトマックス関数とは、出力されたごちゃごちゃした数字を和が綺麗に100%(1.0)になる数字に変えてくれる関数です。
Inceptionモジュール
Inceptionモジュールとは – 【AI・機械学習用語集】
Inceptionモジュールは、3つの異なるサイズの畳み込みフィルタ(1×1、3×3、5×5)と3×3のmaxプーリングから構成されています。
損失関数
損失関数(Loss function)とは? 誤差関数/コスト関数/目的関数との違い:AI・機械学習の用語辞典 - @IT
機械学習における損失関数(Loss function)とは、「正解値」と、モデルによる出力された「予測値」とのズレの大きさ(これを「Loss:損失」と呼ぶ)を計算するための関数である。
残差
残差とは何か?正規分布していることの意味をわかりやすく解説! | いちばんやさしい、医療統計
残差とは、分析によって推定したモデルと観測された各データとのズレであり、推定したモデルによって説明できずに残った差のことです。
max_depth
XGBoostやパラメータチューニングの仕方に関する調査 – かものはしの分析ブログ
木の深さの最大値
過学習を制御するために用いられる。
高いと過学習しやすくなる。
min_child_weight
子ノードにおいて観察されるデータの重み付けの合計値の最小の値で、過学習を避けるために用いられる。
高い値にすることで特定のサンプルに観察されるような傾向を学習することを避けられる。ただし、高くし過ぎるとフィッティングが悪くなる。
単語埋め込み
単語埋め込みとは何ですか?|包括的な単語埋め込みのガイド | Elastic
単語埋め込みとは自然言語処理(NLP)で使用される技法で、単語を数値で表してコンピュータが扱えるようにします。
ワンホットエンコーディング
単語埋め込みとは何ですか?|包括的な単語埋め込みのガイド | Elastic
ワンホットエンコーディングは、テキスト本文の各単語に一意の数値を割り当てます。
コーパス
コーパスとは?基本的な意味からAIへの活用についても解説 | DXを推進するAIポータルメディア「AIsmiley」
「コーパス(Corpus)」とは、自然言語の文章や使い方を大規模に収集し、コンピュータで検索できるよう整理されたデータベースのことです。日本語では「言語全集」などとも呼ばれます。
Word2vec
単語埋め込みとは何ですか?|包括的な単語埋め込みのガイド | Elastic
Word2vecは、2層のニューラルネットワークベースのアルゴリズムで、文章のコーパスを入力してベクトルのセット(すなわち名前)を出力します。
セマンティックセグメンテーション
セマンティックセグメンテーションとは? 仕組みや技法など | 株式会社 日立ソリューションズ・クリエイト
領域分類、画像のピクセル一つひとつに対してラベル付け
エルボー法
クラスタリングにおいて、最適なクラスタ数を求めるための手法。
ベイジアンネットワーク
ベイジアンネットワーク | 用語解説 | 野村総合研究所(NRI)
データの因果関係を分析する手法の1つで、因果関係の強さを、ある事象が起こった場合に他の事象が起こる確率である「条件付き確率」の大きさから判断し、多数の事象間の因果関係をグラフィカルに整理する方法。
ナイーブベイズ
ナイーブ・ベイズモデルの予測子は条件付きで独立している、つまりモデル内の他の特徴とは無関係であると仮定します。
ターゲットリーク
ターゲット漏れ(リーク)がないか調べましょう - Prediction One クラウド版
予測精度が極めて高い場合、予測モデル作成に使用した項目に予測時に使用できない項目が混ざっている可能性があります。
層化K分割交差検証
交差検証(Python実装)を徹底解説!図解・サンプル実装コードあり
層化K分割交差検証(以下:Stratified K-fold)は目的変数の割合が等しくなるように分割する交差検証です。データセットの目的変数は常に同じ割合であるとは限りません。目的変数の一つが極端に少ない場合、テストデータに目的変数の全種類が存在しない可能性が考えられます。Stratified K-foldはそのような問題を解決します。
データドリフト
データドリフトとは、機械学習モデルをトレーニングした時のデータと、予測を行う時点でのデータがずれていく現象です。
ステミング
ステミングは動詞や形容詞等の活用形の違いの差を吸収して、より多くのドキュメントをヒットさせるテクニックとして有益です。
NLTK
Pythonでの自然言語処理:NLTKを使ってテキストデータを処理する方法 - PyDocument
NLTKは、Pythonのためのオープンソースのライブラリであり、言語処理の機能を提供します。その機能には、トークン化、品詞タグ付け、ステミング、レンマ化、構文解析、意味解析などがあります。
自己回帰モデル
時系列分析におけるARモデル(自己回帰モデル)とは |AVILEN
ARモデル(AutoRegressive model)は自己回帰モデルと呼ばれ、現在の値を過去のデータを用いて回帰する時系列モデルです。失業率といった経済指標、また株価の分析などに用いられます。
One-Hotエンコーディング
ダミー変数(One-Hotエンコーディング)とは?実装コードを交えて徹底解説
機械学習の分野ではダミー変数を用いた前処理をOne-Hotエンコーディングと呼びます。
t-SNE
t-SNEを理解して可視化力を高める #Python - Qiita]
t-SNEは高次元データを2次元や3次元に落とし込むための次元削減アルゴリズムです。
ポアソン分布
ポアソン分布とは?わかりやすく簡単に例を用いて二項分布との関係も | いちばんやさしい、医療統計
ポアソン分布は、「ランダムに起きる事象」がある期間に何回起こるかの確率を調べるときに用いる分布です。
コンバージョンレート
コンバージョンレート(CVR)とは|市場調査・アンケート調査のマクロミル
コンバージョンレート(CVR)とは、Webサイト訪問者のうち、購入や問い合わせなどそのWebサイトの最終成果に至った件数の割合のことである。
学習率と振動
traingda - 適応学習率を使用した勾配降下法による逆伝播 - MATLAB - MathWorks 日本
学習率が高すぎる場合、アルゴリズムが振動して不安定になることがあります。学習率が小さすぎる場合、アルゴリズムの収束に時間がかかります。
リストワイズ法
欠損値とは?Pythonを使って欠損値の処理方法と実装を徹底解説【機械学習 入門編】
リストワイズ法は欠損値が含まれているサンプルデータ自体を削除してしまう方法です。
LOCF
機械学習ド素人が2週間で、AWS Certified Machine Learning - Specialty(MLS)に合格した要点まとめ #MachineLearning - Qiita
last observation carried forward(LOCF)
最後に観測された値でその特徴量の全ての欠損値を補完する単一補完法の一種
マルチプルインピュテーション
【多重代入法を使おう】R studio解説: mice()パッケージ
多重代入とは、シンプルに言うと「欠損している変数を、欠損していない他の変数で予測してやり、埋めちゃおうぜ」という欠損の対処法です。
協調フィルタリング
協調フィルタリングって何?商品のおすすめ機能を学ぼう!|Udemy メディア
協調フィルタリングとは、レコメンドシステム(推薦システム)を実現する手法の一つです。
レコメンドシステムは、ECサイトなどでサイトの運営者がサイトの訪問者の好みに合うアイテムを「おすすめ」する際に使用するものです。
コンテンツベースフィルタリング
協調フィルタリングって何?商品のおすすめ機能を学ぼう!|Udemy メディア
コンテンツベースフィルタリングでは、事前にアイテムを属性に応じてグルーピングしておき、訪問者が検索したり購入したアイテムと似たアイテムを特徴が似ている順に表示し、おすすめしていきます。
RTSP
RTSP(Real Time Streaming Protocol)とは?ネットワークカメラに関する知識 - システムケイカメラ
より正確には、「映像・音声のリアルタイムなストリーミング配信を制御する為のプロトコル」です。
アーリーストッピング
「学習が進んで精度の向上がこれ以上見込めないとなったら、そこで学習を止める」という方法です。
分散が小さい特徴量
特徴量の選択について勉強したことをまとめてみた #Python - Qiita
分散がかなり小さい場合、その特徴量は一定に近いため、どのモデルに対しても特徴量として加える価値がない
SMOTE
分類問題のデータ不均衡を解消するSMOTE(Python版)- その1:SMOTEの基礎と imbalanced-learn の使い方 - – セールスアナリティクス
SMOTEは、少数派クラスのデータを合成的に増やすことでデータ不均衡を解消する手法です。この手法では、既存の少数派クラスのサンプルから新しいサンプルを合成し、クラス間のバランスを改善します。
L1 正則化のペナルティ係数
正則化項の強さを制御するハイパーパラメータで、大きいほど正則化の効果が強くなる
ピアソン相関係数
2 つの変数間の線形関係の強さを -1 から 1 の範囲で示す統計量で、絶対値が大きいほど強い相関を示す
CountVectorizer
scikit-learn ライブラリの機能で、テキストデータを固定長の特徴ベクトルに変換し、単語の出現頻度をカウントする際に、ストップワード(機能語)の除去などの前処理を行うことができる
機能語
文法的な機能を果たす単語 (冠詞、前置詞、接続詞など) で、テキスト分析においてしばしばノイズとして扱われ、除去される
ベクトル化
テキストデータを機械学習モデルが理解できる数値形式に変換するプロセス
XGBoost
勾配ブースティングアルゴリズムを基にした高性能な機械学習ライブラリで、多クラス分類問題に適している
multi:softmax
XGBoost の目的パラメータの一つで、多クラス分類問題において各クラスの確率を出力するために使用される
双方向アテンションフロー
質問応答タスクに特化した深層学習モデルで、文脈と質問の間の複雑な関係を捉えるために双方向のアテンション機構を使用する
時系列データのスムージング
時系列データの短期的な変動や外れ値を軽減し、長期的なトレンドや季節性パターンを明確にする統計的手法
カルバック-ライブラー情報量
カルバック-ライブラー情報量〜赤池情報量規準(AIC)までの概略をわかりやすく②【統計検定1級対策】 - 脳内ライブラリアン
カルバック-ライブラー情報量とはある2つの確率分布がどれくらい似ているのかをみるための指標です。
ジェンセンシャノン情報量
JS divergence|キーワード集|実験医学online:羊土社 - 羊土社
2つの確率分布の間の類似性を測る指標の1つである
頻度エンコーディング
カテゴリを、そのカテゴリがデータセットに出現する頻度に置き換えます。
非線形データ変換
入力データを非線形関数を用いて変換する技術で、線形モデルでは捉えきれない複雑なパターンを表現するのに役立つ
データセグメンテーション
データを特定の基準に基づいて異なるグループに分割する手法で、各セグメントに対して個別のモデルを適用することで予測精度を向上させることができる
適合率
予測モデルが「陽性」と予測したケースのうち、実際に陽性であった割合を示す指標で、偽陽性を最小化したい場合に特に重要
二乗誤差の合計
クラスタリングの品質を評価する指標で、各データポイントとそのクラスター中心との距離の二乗和を表し、値が小さいほどクラスタリングの精度が高いことを示す
ResNet-50
50 層の深さを持つ残差ネットワークで、画像分類タスクにおいて高い精度を実現する深層学習モデル
BERT
自然言語処理タスクで高性能を発揮する双方向 Transformer ベースの言語モデルで、文脈を考慮した深い言語理解を可能にする
データリーケージ
テストデータの情報が訓練プロセスに漏れることで、モデルの汎化性能の過大評価につながる問題であり、適切なデータ分割とスケーリングの順序で防ぐことができる
プルーニング
深層学習モデルの不要なパラメータや接続を削除し、モデルサイズを縮小しつつ性能を維持する最適化技術
平滑化
時系列データのノイズや短期的な変動を減少させ、長期的なトレンドや周期性を明確にするための統計的手法
CNN-QR
系列予測に特化した深層学習アルゴリズムで、畳み込みニューラルネットワークと分位点回帰を組み合わせて、予測の不確実性を考慮した予測を行う
重み付き分位点損失
予測モデルの評価指標の一つで、過小予測と過大予測に異なる重みを付けることができ、ビジネスの損失を最小化するのに適している
Factorization Machines
協調フィルタリングと特徴エンジニアリングを組み合わせた推薦システムアルゴリズムで、高次元で疎なデータセットに対して効果的
ニューラル協調フィルタリング
深層学習を用いた協調フィルタリング手法で、非線形な関係性を捉えることができるが、 Factorization Machines よりも計算コストが高くなる傾向がある
マルチエージェント強化学習
複数の自律的なエージェントが相互作用しながら学習を行う強化学習の一種で、複雑な環境での協調や競争を模倣するのに適してる
シャプレー値
協力ゲーム理論に基づく概念で、機械学習モデルにおいて各特徴量の予測への貢献度を公平に評価する手法
SHAP
シャプレー値を基にした手法で、複雑な機械学習モデルの予測を解釈可能な形で説明するために使用される
Prophet
主に季節性と休日の効果を考慮した単変量時系列予測に適している
Flatten 層
多次元の入力データを 1 次元に変換し、全結合層に渡すための層で、ドロップアウトを適用できる重要な箇所
IP インサイト
IP アドレスの使用パターンを分析し、異常な動作を検出するための Amazon SageMaker の組み込みアルゴリズム
共起分析
共起分析は、単語や句が一緒に出現する頻度を調べるもの
TF-IDF
単語頻度-逆文書頻度は、文書内の各単語の重要性を数値化する手法
語幹抽出
語幹抽出は、単語を基本形に還元する処理
トピックモデル
潜在的ディリクレ配分LDAとは?基本的なことをまとめてみた | AIZINE(エーアイジン)
トピックモデルとは文書などのデータに隠れた潜在的なトピックを確率的に推定するモデルのことです。
潜在的ディリクレ配分
トピックモデリングに使用される確率的生成モデルで、文書コレクション内の潜在的なトピック構造を発見するのに適している
線形出力層
ニューラルネットワークの最終層で、入力を直接出力に変換し、二値分類問題での確率予測に適している
JSON Lines
各行が有効なJSONオブジェクトを表す、大規模データセットの効率的な処理に適したテキストフォーマット
Discussion