😸

わっしー機械学習記事まとめ

2021/06/22に公開

機械学習

idea

こんにちは、わっしーです。
機械学習関連の記事を分散して書きすぎたので、まとめます。

2022

SimCTG: テキスト生成におけるContrastive学習推論の解説・実装

文章生成のモデルの生成テキストの不自然さや、望ましくない単語の繰り返しを抑える手法として、A Contrastive Framework for Neural Text Generationで提案されたSimCTG(a SIMple Contrastive framework for neural Text Generation)を解説した記事です。また、論文の実装コードを参考にし、Encoder-Decoder形式の文章生成モデルであるT5にSimCTGを適用してみたので、実装方法も解説しています。

VOS: Learning What You Don't Know by Virtual Outlier Synthesis の解説・実装

OOD(Out-of-distribution)検出でSoTAのVOS(Virtual Outlier Synthesis)を提案した論文の解説記事です。今までの手法は、実際のクラス外のデータが必要で、データ作成にコストがかかったり、そもそも取得不可能場合もありました。しかし、VOSでは、仮想的なクラス外データを効率よく作成し、学習するためクラス外のデータは必要ないため、かなり実用的です。実際に実験を行い、OOD検出の性能の良さに驚きました！

2021年

Solafuneの市街地画像の超解像化コンペのまぁまぁ高精度な解法

Solafuneの市街地画像の超解像化コンペにて、SwinIRを用いた手法・実装についてまとめた記事です。
Solafune Award受賞しました！

顔編集で表情や年齢を変えてみた！Pivotal Tuning for Latent-based Editing of Real Imagesの解説

顔の向きや表情、年齢などの属性を変更する最新の顔編集技術である、Pivotal Tuning for Latent-based Editing of Real Imagesについて解説しています。Pivotal Tuningは、学習済みの生成器を入力データに対してわずかにチューニングする技術で、メイクが濃い顔やメガネをかけた人など、学習データにあまり含まれていないような画像に対しても納得感のある顔編集を可能にします。

人の顔を入れ替えてみた！最新の顔すり替え手法 SimSwapの解説！

従来の顔すり替え技術では、対象の顔を目的の顔にすり替えるためにチューニングする必要があったり、すり替え対象の顔における表情や視線などの属性をすり替え後に保持できていないなどの課題がありました。そこで、SimSwap: An Efficient Framework For High Fidelity Face Swappingという論文では、Simple Swap (SimSwap)と呼ばれる効率的で、任意の顔の属性を保持したまま、目的の顔にすり替えるフレームワークが提案していました。

GANs N' Roses: Stable, Controllable, Diverse Image to Image Translation の解説！

GANで多様なスタイル変換を行う論文です。1枚の画像をデータ拡張した画像を一つのバッチとすることで、コンテンツ情報は変化し、スタイル情報は一定という学習ができ、多様なスタイル変換を可能にしている。

【論文解説】Self-Attention Between Datapoints - ノンパラメトリック深層モデル Non-Parametric Transformers の解説

21年6月６日、「○○ is Not All You Need」系の論文の系譜である「Tabular Data: Deep Learning is Not All You Need](https://arxiv.org/abs/2106.03253)という研究が発表された。この研究では、表形式のデータにおいて、XGBoostの精度が深層ニューラルネットワークを上回ることが分かったと主張されていた。

しかし、この2日前(21年6月4日)に、表形式のデータで、競争力ある新たな深層学習アーキテクチャである、Self-Attention Between Datapoints: Going Beyond Individual Input-Output Pairs in Deep Learningという研究が発表されていた。このカオス具合が面白くて記事を書いた。論文にて提案されているNon-Parametric Transformers (NPTs)は、Boosting系の手法と比較しても同等以上の結果を示していた。

【論文読み】SegFormer: Simple and Efficient Design for SemanticSegmentation with Transformers の解説

セマンティックセグメンテーションで軽量で性能も良いSegFormerというAttentionベースの最新手法に関する記事。論文には、「Transformerと軽量な多層パーセプトロン(MLP)デコーダを統合した、簡素で効率的でかつ強力なセマンティックセグメンテーションフレームワーク」と書かれていた。画像におけるAttentionに関して勉強になる論文だった。

動画にない視点の画像を作成してみた! NeRFを時間方向に拡張したNSFF : Nural Scene Flow Fieldの解説

最近できた新しい分野であるNeural Radiance Fields(NeRF)において、動的な物体にも対応したNeural Scene Flow Fields (NSFF)に関する記事。下図が試した結果。実際には、カメラを動かしながら撮った動画だが、NSFFを学習することで、ある時刻のある視点からの画像を表現できている。この出力のために学習に4日ほどかかった。

オンライン複数物体追跡 SiamMOT: Siamese Multi Object Trackingの解説

（株）Fusicでは、スポーツxAIに力を入れていて、その一環で調査した論文 SiamMOTに関する記事。2021年5月末に発表されたstate-of-the-artなリアルタイムMOTの手法となる。実際にサッカーの試合動画に試し、精度が良さそうだった。

Involution: Inverting the Inherence of Convolution for Visual RecognitionをEfficientNetで試してみた

Involutionという、新しい演算手法を提案した論文に関する記事。空間に依存し、チャンネルに依存しないという利点があるとのこと。論文は、Resnetだったが、EfficientNetにInvolutionを導入して実験した結果も記事にした。畳み込み演算に取って代わるかというと今後に期待！

Attenton is All You Need in Speech Separation. 音源分離にもAttentionの時代が到来！

音源分離タスクにもAttentionが使われたという論文Attenton is All You Need in Speech Separationを読んだ記事。学生時代、音源分離の研究をしていたが、1chでここまで性能がでるとは思っていなかった。提案手法であるSepFormerがHugging Faceにて公開されているので、簡単に試せて、実際性能が良かった。当たり前だが、似た声の人の音源分離は難しかった。

【論文読み】 Nomalizer-Free ResNets (NFNet) with AGC - EfficientNetの画像認識精度を超えた最新のモデル

CHARACTERIZING SIGNAL PROPAGATION TO CLOSETHE PERFORMANCE GAP IN UNNORMALIZEDRESNETSで発表された、バッチ正規化なしの最先端のモデルに、学習を安定されるための適応勾配クリッピング(adaptive gradient clipping; AGC)を加えることで、ImageNetデータセットでSOTAを達成した論文の解説。バッチ正規化なしという珍しさで読んだ。試したが、論文通りの性能がでなかった。

【論文読み】Exploring Simple Siamese Representation Learning

表現学習を行う手法の一つであるSiamese学習の新しいアーキテクチャを提案された論文の解説記事。ネガティブサンプリングが必要なく、stop gradient(勾配停止)と、予測レイヤを追加するのみで実装が簡単だった。性能が良くなる理由が、かなり納得がいくもので、表現学習Loveの私には、最高の論文だった。