💡

2024/02/08 論文読み勉強会

2024/03/06に公開

論文読み勉強会とは

機械学習の分野は日進月歩で、日々沢山の論文が出てきます。最新の技術動向を知るためには日頃から論文を読む習慣をつける必要があります。また、沢山読むためには論文を速読するスキルも必要です。そこで、弊社来栖川電算ではみんなで論文を読んで発表する社内勉強会(論文読み勉強会)を始めました。論文読み勉強会では、はじめて読む論文を50分間のタイムアタックで読み、最後に1人1, 2分程度で分かったことを発表する形式で実施しています。

2月8日(木)の勉強会

この日の参加者は3人でした。各メンバーが読んだ論文とそのまとめを紹介します。

これから論文を読んで知識を付けていきたいと思っている参加者が1時間のタイムアタックで読んでまとめた内容なので誤った内容が含まれている可能性がありますのでご了承ください。

各論文の概要

  • Voice Conversion With Just Nearest Neighbors[1]
    • kNNを用いたシンプルな手法で良い精度が出る音声変換手法(ボイスチェンジャー)を提案
  • End-To-End Planning of Autonomous Driving in Industry and Academia: 2022-2023[2]
    • 産学両面の自動運転技術の end-to-end planning (周囲認識、経路計画、車両制御まで一貫した planning) を総合的にレビュー(サーベイ論文)
  • Single-Shot Global Localization via Graph-Theoretic Correspondence Matching[3]
    • 大域的自己位置推定において、点群地図と画像のような、別のモダリティ同士でもマッチング可能なフレームワーク

勉強会の議事録

読んだ人:https://zenn.dev/masahiro_k

  • 論文名
    • Voice Conversion With Just Nearest Neighbors [1]
    • 著者:Matthew Baas, Benjamin van Niekerk, Herman Kamper
  • どんなもの?
    • kNNを用いたシンプルな音声変換手法を提案
  • 先行研究と比べてどこがすごい?
    • 最近の論文で提案されている複雑な手法とは違い、kNNによるシンプルな音声変換手法を提案して良い結果を得た
  • 技術や手法のキモはどこ?
    • エンコーダ
      • ソース話者とターゲット話者から特徴量を抽出する(クエリシーケンス)
      • ターゲット話者の複数の発話データのクエリシーケンスをシャッフルする(bag-of-vectorsマッチング集合)
      • WavLM-Largeエンコーダを使用。このモデルのfinetuneや学習は行わない
    • kNNマッチング
      • 変換した特徴量を生成
    • Vocoder
      • 変換された特徴量を音声波形に変換するボコーダ
  • どうやって有効だと検証した?
    • LibriSpeechデータ(40人分の英語音声)を使用
    • 評価指標
      • 主観評価
        • 自然さ(MOS)
        • 類似性
      • 客観的評価
        • W/CER:明瞭度を評価(この数値が低いほうが明瞭度が高い)
        • ERR:変換された音声と本物の区別が付きにくい場合にこの数値が高くなる
  • 議論はある?
    • ノンパラメトリックな手法であるため、他の言語/ささやき/動物-人間の声の変換などに応用しやすいかもしれないことが今後の展望として述べられている

読んだ人:https://zenn.dev/wakodai

  • 論文名
    • End-To-End Planning of Autonomous Driving in Industry and Academia: 2022-2023
    • https://arxiv.org/abs/2401.08658
    • 著者:Gongjin Lan, Qi Hao
      • Southern University of Science and Technology
      • IEEE Member
  • どんなもの?
    • 産業界
      • 一般に詳しく紹介されていないため、口頭発表、ビデオ、ニュースなど入手可能な情報を組み合わせて、そのソリューションを要約する
      • Tesla FSD V12 2023
        • 最近の研究成果は、CVPR 2023 Workshop on End-to-End autonomous drivingなどのワークショップやカンファレンスで発表
        • 複数のカメラ入力(おそらくカメラのみのはず)
        • RegNets、BiFPNsによる画像特徴抽出
        • 抽出された特徴に対して、Multicam クエリ embedding と spacial (空間) クエリを使って Attention 機構を適用 → Spacial Features(空間的特徴)
        • Trajectory (軌跡) を用いて過去の特徴を現在のフレームに合わせ込む → Spaciotemporal Features(時空間的特徴)
        • 特徴を Deconvolution して、Surface(道路幾何など) や Volume (空間占有率、形状情報など)などの 3D データ出力
        • 自車 360deg で、自車以外のオブジェクトまでの距離などを把握
        • 3D データは Queryable になっていてさらに詳細な情報を提供するために問い合わせ可能な形式になっている
      • Momenta 2023
        • テスラの場合と同様、モメンタの計画手法に関する公開情報は不足
        • CVPR 2023 Workshop on Autonomous Drivingで発表
        • ディープラーニングに基づくエンド・ツー・エンドのプランニングが軌道設計に使用されていると推測
        • テスラの占有ネットワークとは異なり、モメンタはオンライン高精細マップ構築を使って計画用のリアルタイムマップを生成
        • 2025年までにエンド・ツー・エンドのプランニングと完全なエンド・ツー・エンドの自律走行を完成させると主張
      • Woven Planet (Toyota): Urban Driver
        • Woven Planet Urban Driverは2022年に提案され、これはよく知られたベースラインかもしれないが、最先端の手法ではない。
        • 実走行データを使って認識を訓練
        • クローズドループ訓練
        • 実世界のデモ
        • (時間の都合で以下読み飛ばし)
  • 先行研究と比べてどこがすごい?
    • 著者が主張する良いところ
      • 産業界、学術研究両者の自動運転技術を詳細かつ総合的にレビューしたことで、初心者が最先端の研究をフォローするのを助けるとともに上級者向けの補足資料としても有益な論文になった
  • 次に読むべき論文は?
    • 自動運転の planning にも Transformer の応用が目立つ。やはりこの辺の理解を深めたい。

読んだ人:https://zenn.dev/asobod11138

  • 論文名
  • どんなもの?
    • 大域的自己位置推定において、点群地図と画像のような、別のモダリティ同士でもマッチング可能なフレームワーク
      • 既存の手法はデータセットとクエリのモダリティは同じ
      • → 点群地図には点群をクエリにしてマッチング、画像の集合なら画像をクエリにする
    • 大域的自己位置推定(global localization)
      • センサ情報(クエリ)から、マップ(データセット)内でのセンサのpose(位置、回転)を初期poseの情報なしで求める問題
    • 提案手法は、最大クリーク問題(maximum clique problem)に基づくマッチングを採用
    • semantic 3D point cloud map(データセット)とsemantic segmentation image(クエリ)で実装した
    • グラフ理論を使って、マップとクエリのみを使用して、global localization(大域的自己位置推定)を実現
    • 都市部のシーンの大規模なシミュレーションマップで有望な結果を示した
  • 先行研究と比べてどこがすごい?
    • global localizationで、モダリティの違うデータセットとクエリでマッチング可能になったこと
      • 点群地図、HD maps, tagged maps(Google mapみたいな)などいろいろなマップの表現がある
      • クエリに別のモダリティのデータが使えるなら、マップとセンサの選定が柔軟にできる(マップとクエリ(センサ情報)で同じモダリティにする必要性がなくなる)
  • 技術や手法のキモはどこ?
    • クエリとマップの対応関係を照合して、対応を最もよく説明するマップ内のposeを見つける
      • グラフ理論を使ってこの問題を最大クリーク問題として扱う
    • 対応候補の局所的な一貫性を表現する一貫性グラフを構築
    • この一貫性グラフの上で、最も良い対応をMCPで見つける
      • これにより、一般的なグラフ問題を抽象化して、クエリとマップでモダリティの制約をなくすことができる
    • この手法は適切な一貫性基準が定義できれば、cross-modal global localization問題に適用できる
    • 今回の実装で使われたクエリ(semantic image)とマップ(semantic 3D pointcloud map)のフレームワーク
  • どうやって有効だと検証した?
    • CARLAを使ってシミュレーション実験で検証して、有望な結果を得た
      • Town01 ~ 05を使った
      • セマンティック3D点群地図(マップ)とセマンティックセグメンテーション画像(クエリ)のみを使用
    • 現在のposeの計算がインスタンスクラスタリングのノイズにセンシティブなので、その影響で一部の結果が悪い結果になっている
    • Town4の結果が著しく悪い
      • 1.他のシーンと比べて。Town4の画像枚数が少ない。そのため、少数の画像はMCPで拒否されるので、正しい対応ができない可能性がある
      • 2.点群地図の範囲が限られているので、画像(クエリ)で遠くに見える山や地形がマッピングされない→クエリとマップの記述で大きな違いがあった
        • これは山のある開けた高速道路のシーンであるTown04で特に顕著
  • 議論はある?
    • poseの計算がセンシティブなことは、実世界での利用も考えると良く起こる事なので、よりノイズにロバストなpose計算をする必要がある
      • 実世界応用を考えると、多くの場合はDNNによる推定で得られるセマンティック画像を用いる → インスタンスクラスタリングのノイズが多くなる

感想

今回の論文読み会は11回目でした。僕が読んだVoice Conversion With Just Nearest Neighbors[1]の感想です。

今の会社に入社する前、機械学習の勉強を始めて本1冊読み終わったくらいの頃に「何か論文読んでみよう」と思って最初に読んだのが音声変換の論文でした。仕事では主に画像を扱っていたので、それ以来音声の勉強はしていませんでしたが、最新の手法はどんな感じなのか気になりこの論文を読みました。新しい手法なのでTransformerとか出てくるのかと思っていましたが、kNNを使って良い結果を得られたということが書かれていて以外でした。

これからも執筆者交代しながら論文読み勉強会の内容を紹介していきます。

参考文献

[1] Voice Conversion With Just Nearest Neighbors

https://arxiv.org/abs/2305.18975

[2] End-To-End Planning of Autonomous Driving in Industry and Academia: 2022-2023

https://arxiv.org/abs/2401.08658

[3] Single-Shot Global Localization via Graph-Theoretic Correspondence Matching

Advanced Roboticsリンク
https://www.tandfonline.com/doi/full/10.1080/01691864.2024.2307607
arxivリンク
https://arxiv.org/abs/2306.03641

来栖川電算

Discussion