2020年10月の振り返り
2020年10月の個人的な振り返り記事です。
やったこと
9月の終わりぐらいからZennで記事を書き始め、10月は全部で5つ記事を書いてました。
今までのアウトプットの量やペースと比べると先月は多かった気がします。
iOSで利用できる機械学習系のText Recognitionフレームワークの調査
指差し確認をApple Watchと機械学習を使って検出する
WCSessionを使ってファイル転送するときの注意点
AirPods Proのモーションセンサーを使って体の動きを機械学習で判定する
AirPods Proのモーションデータをcsvファイルに記録する
Apple Watchで指差し確認の記事は、以前からApple Watchと機械学習を連携したアプリを作ってみたいと思っていて、うまく作れたのでとても楽しかったです。
学習用のデータを収集したり、モーションセンサーから学習に使うパラメータを選ぶ作業などは試行錯誤が必要でしたが、自分が面白そうだ・やってみたいと思ったことを、実際に手を動かして試すことができたので満足感があります。
他には日本語OCRについてiOSで使える機械学習系のフレームワークについて調べてみました。
iOSのVisionに付属しているText Recognitionは日本語対応していないため、Google系のオンデバイス/クラウドAPIのフレームワークを調査しました。Firebase MLから利用できるCloud Vision APIがiOSから手軽に利用できることがわかりました、認識の精度も良い印象です。ただし一定規模の利用から有料です。具体的な使い方などはいずれ記事にしたいと思います。
また、ZennのCLIを使った執筆も始めました。記事をGitで管理できるのはプログラムを書く作業と体験が似ていてフィーリングがとても良いです。誤植やTypoの修正をしてコミットするとプログラミングしているような気分になります。今後は基本的にCLIで書くことになりそうです。
やること
引き続きCore ML関連の機械学習の簡単な実装を試したり、その周辺などを触って記事を書いていきたいと思います。機械学習のモデルを作成する Create ML App でまだ試していないモデル作成があるのでそちらを取り組めたらいいなと思っています。
具体的には
- Sound Classification(音声分類)
- Action Classification
などです。
気になる話題
Microsoftの機械学習モデル作成ツール
MicrosoftからGUIで機械学習のモデルを作成するツールがリリースされました。
GUIで画像分類のモデルなどが作成できるようです。動画ではWebCAMの映像を使って飲み物を飲む様子を認識する例が紹介されています。作成したモデルはmlmodel形式(Core ML)でexportすることができるそうなので後で試してみたいと思います。
Google Meetの背景ぼかし機能の技術解説
Google Meetの背景ぼかし機能の技術解説です、
機械学習(MediaPipe)、WebAssembly、WebGLなどを使って高速な処理を実現しているようです。日本語で詳細に解説した記事がありました。
なぜGoogle Meetの背景ぼかしが最強なのか(一般公開版)
機械学習を使った画像フィルター
機械学習を使っていると思われる画像フィルター。
フィルターの進化がすごい。
まとめ
11月もペースを維持して記事をかけるように続けられると良いです。習慣化を意識して続けてみたいと思います。
Discussion