😸

わっしー 機械学習記事まとめ

commits6 min read

こんにちは、わっしーです。
機械学習関連の記事を分散して書きすぎたので、まとめます。

2021年

顔編集で表情や年齢を変えてみた!Pivotal Tuning for Latent-based Editing of Real Imagesの解説

顔の向きや表情、年齢などの属性を変更する最新の顔編集技術である、Pivotal Tuning for Latent-based Editing of Real Imagesについて解説しています。Pivotal Tuningは、学習済みの生成器を入力データに対してわずかにチューニングする技術で、メイクが濃い顔やメガネをかけた人など、学習データにあまり含まれていないような画像に対しても納得感のある顔編集を可能にします。


人の顔を入れ替えてみた!最新の顔すり替え手法 SimSwapの解説!

従来の顔すり替え技術では、対象の顔を目的の顔にすり替えるためにチューニングする必要があったり、すり替え対象の顔における表情や視線などの属性をすり替え後に保持できていないなどの課題がありました。そこで、SimSwap: An Efficient Framework For High Fidelity Face Swappingという論文では、Simple Swap (SimSwap)と呼ばれる効率的で、任意の顔の属性を保持したまま、目的の顔にすり替えるフレームワークが提案していました。


GANs N' Roses: Stable, Controllable, Diverse Image to Image Translation の解説!

GANで多様なスタイル変換を行う論文です。1枚の画像をデータ拡張した画像を一つのバッチとすることで、コンテンツ情報は変化し、スタイル情報は一定という学習ができ、多様なスタイル変換を可能にしている。


【論文解説】Self-Attention Between Datapoints - ノンパラメトリック深層モデル Non-Parametric Transformers の解説

21年6月6日、「○○ is Not All You Need」系の論文の系譜である「Tabular Data: Deep Learning is Not All You Need](https://arxiv.org/abs/2106.03253)という研究が発表された。この研究では、表形式のデータにおいて、XGBoostの精度が深層ニューラルネットワークを上回ることが分かったと主張されていた。

しかし、この2日前(21年6月4日)に、表形式のデータで、競争力ある新たな深層学習アーキテクチャである、Self-Attention Between Datapoints: Going Beyond Individual Input-Output Pairs in Deep Learningという研究が発表されていた。このカオス具合が面白くて記事を書いた。論文にて提案されているNon-Parametric Transformers (NPTs)は、Boosting系の手法と比較しても同等以上の結果を示していた。


【論文読み】SegFormer: Simple and Efficient Design for SemanticSegmentation with Transformers の解説

セマンティックセグメンテーションで軽量で性能も良いSegFormerというAttentionベースの最新手法に関する記事。論文には、「Transformerと軽量な多層パーセプトロン(MLP)デコーダを統合した、簡素で効率的でかつ強力なセマンティックセグメンテーションフレームワーク」と書かれていた。画像におけるAttentionに関して勉強になる論文だった。


動画にない視点の画像を作成してみた! NeRFを時間方向に拡張したNSFF : Nural Scene Flow Fieldの解説

最近できた新しい分野であるNeural Radiance Fields(NeRF)において、動的な物体にも対応したNeural Scene Flow Fields (NSFF)に関する記事。下図が試した結果。実際には、カメラを動かしながら撮った動画だが、NSFFを学習することで、ある時刻のある視点からの画像を表現できている。この出力のために学習に4日ほどかかった。


オンライン複数物体追跡 SiamMOT: Siamese Multi Object Trackingの解説

(株)Fusicでは、スポーツxAIに力を入れていて、その一環で調査した論文 SiamMOTに関する記事。2021年5月末に発表されたstate-of-the-artなリアルタイムMOTの手法となる。実際にサッカーの試合動画に試し、精度が良さそうだった。


Involution: Inverting the Inherence of Convolution for Visual RecognitionをEfficientNetで試してみた

Involutionという、新しい演算手法を提案した論文に関する記事。空間に依存し、チャンネルに依存しないという利点があるとのこと。論文は、Resnetだったが、EfficientNetにInvolutionを導入して実験した結果も記事にした。畳み込み演算に取って代わるかというと今後に期待!


Attenton is All You Need in Speech Separation. 音源分離にもAttentionの時代が到来!

音源分離タスクにもAttentionが使われたという論文Attenton is All You Need in Speech Separationを読んだ記事。学生時代、音源分離の研究をしていたが、1chでここまで性能がでるとは思っていなかった。提案手法であるSepFormerがHugging Faceにて公開されているので、簡単に試せて、実際性能が良かった。当たり前だが、似た声の人の音源分離は難しかった。


【論文読み】 Nomalizer-Free ResNets (NFNet) with AGC - EfficientNetの画像認識精度を超えた最新のモデル

CHARACTERIZING SIGNAL PROPAGATION TO CLOSETHE PERFORMANCE GAP IN UNNORMALIZEDRESNETSで発表された、バッチ正規化なしの最先端のモデルに、学習を安定されるための適応勾配クリッピング(adaptive gradient clipping; AGC)を加えることで、ImageNetデータセットでSOTAを達成した論文の解説。バッチ正規化なしという珍しさで読んだ。試したが、論文通りの性能がでなかった。


【論文読み】Exploring Simple Siamese Representation Learning

表現学習を行う手法の一つであるSiamese学習の新しいアーキテクチャを提案された論文の解説記事。ネガティブサンプリングが必要なく、stop gradient(勾配停止)と、予測レイヤを追加するのみで実装が簡単だった。性能が良くなる理由が、かなり納得がいくもので、表現学習Loveの私には、最高の論文だった。


2020年

【論文読み】A Survey on Deep Learning for Localization and Mapping - 自律ロボット × Deep Learning の研究動向

A Survey on Deep Learning for Localization and Mapping: Towards the Age of Spatial Machine Intelligence という自律ロボットのSLAMに関するサーベイをまとめた記事。SLAM欲に飢えていたため書いた。


【論文読み】SuperGlue - ロボティクスに欠かせない、GNNによる特徴マッチング手法

案件で、画像同士の特徴マッチングに関して調査していて面白かったSuperGlueのまとめ記事。特徴抽出は、SuperPointなどで行い、その後のマッチングにAttentionを導入して精度向上している。下の図が実際に試した結果。


【論文読み】Learning to Cartoonize Using White-box Cartoon Representations - 写真をイラスト化するAI

CVPR2020で個人的に面白かった 写真のイラスト化に関する論文 Learning to Cartoonize Using White-box Cartoon Representationsに関する記事。損失関数の設計が、イラスト化とは?ということを明確に定義して設計されていた。下の図が試した結果。

GitHubで編集を提案

Discussion

ログインするとコメントできます