エッジAIで実現する視覚障がい者の買い物補助
こんにちは!『麦ちゃーはん』です。
今回は、音声認識ライブラリ VOSK と物体検出モデル YOLO を組み合わせ、視覚障がい者の買い物補助装置を開発した経緯とその内容についてご紹介します。本作品は、NVIDIA製の小型コンピュータ Jetson を活用し、エッジAIのコンセプトに基づいて構築しました。これまでの記事で培った技術を応用し、実際の買い物シーンでどのように活用できるのかを詳しく解説します。ぜひ最後までご覧ください!
以前の記事
本作品の制作にあたり、以前から VOSK と YOLO の学習を進めながら、基礎的な内容を中心に記事を執筆してきました。下記の記事が本プロジェクトの理解に役立つかと思いますので、ぜひ参考にしてください。
作品制作の背景
視覚障がい者の買い物事情
視覚障がいのある方々の買い物環境をより良くするために、実際の現状を調査しました。
ある記事によると、視覚障がいのある方は主にインターネットで食料品を注文しています。しかし、注文後の商品到着までの時間や、配送料の負担が大きいという問題もあります。
また、店舗での買い物においては、全盲の方の場合、店員さんのサポートが必要なケースが多く、弱視の方はスマートフォンで商品の写真を撮り拡大して内容を確認する方法を用いています。
ただし、撮影が禁止されている店舗ではこの方法が使えないなど、現状には様々な課題が存在しています。
参考記事
作品の目的
本作品の目的は、エッジAIの力を借りることで、視覚障がいのある方でも一人で安心して買い物ができる環境を実現することです。
具体的には、以下の点を目指しています。
-
音声認識による操作の簡素化
使用者が音声入力で商品を指定できるようにすることで、機器操作の負担を軽減します。 -
物体検出による状況把握
カメラ映像から使用者の手や商品を正確に検出し、現在の状況をリアルタイムで把握します。 -
音声ガイドによる補助
使用者の手と商品の相対位置に基づいて、どの方向に手を伸ばせばよいかを音声で案内します。
使用技術
以下は、装置使用時のイメージ図です。
ハードウェア
-
Jetson Orin Nano
高速なエッジAI処理が可能な小型コンピュータを採用。 -
マイク付きヘッドセット
音声入力および音声出力のためのデバイス。 -
Webカメラ
実際のシーンを捉え、物体検出に利用。
ソフトウェア
-
Ubuntu
Jetson Orin NanoのOS。 -
VOSK
音声認識ライブラリ。使用者の音声指示をテキスト化し、処理に利用します。 -
YOLO
物体検出モデル。商品の位置と使用者の手の位置を高精度に検出します。 -
VOICEVOX
音声ガイドシステム。事前に作成した音声データを用いて、方向指示を行います。
システム概要
本システムは、視覚障がいのある方が安全に買い物できるよう、以下の3つの主要機能を組み合わせています。
1. VOSKによる音声認識
使用者がマイク付きヘッドセットを通じて、探したい商品名や指示を音声で入力します。VOSKがその音声をテキスト化し、後続の処理に引き渡します。
2. YOLOによる物体検出
次に、Webカメラが使用者の正面の映像を捉え、YOLOが商品と使用者の手を検出します。特に、使用者の手の位置情報は、どの方向に手を伸ばすべきかの判断において重要な役割を果たします。
検出できる商品は、「おにぎり」、「パン」、「カップラーメン」、「ペットボトル」、「お菓子」の5種類です。以下に例を掲載します。
3. VOICEVOXによる音声ガイド
検出された使用者の手と商品の相対位置情報をもとに、事前に用意した音声ガイドを再生します。ガイドは「右」や「上」、「左下」など8方向にわたる指示を提供し、使用者がスムーズに商品に手を伸ばせるようサポートします。
※ 使用音声には、VOICEVOXの「四国めたん」を採用させていただきました。
デモ動画
実際のシステム動作を収めたデモ動画掲載します。
解説は英語になってしまっていますが、デモの部分は日本語音声が流れますので、ぜひご覧ください。
今後の改善点
今後の開発では、以下の点を重点的に改善していく予定です。
-
商品数の増加
現在は対象商品の数に限りがありますが、より多くの商品に対応するためのデータ拡充を検討中です。 -
カメラの画角改善
広範囲の商品を把握するため、カメラの設置位置や画角の最適化を行います。広角カメラの採用も検討しています。 -
手と商品の重なりの問題
使用者の手と商品が重なる状況でも正確な位置検出が可能となるよう、YOLOの学習モデルの改善を進めます。 -
商品価格の認識
将来的には、商品識別だけでなく、価格情報も音声ガイドで提供できるようにしたいと考えています。 -
装置の持ち運び
外出時にしようする装置なので、Jetsonごと持ち運べるようにする必要があります。
おわりに
今回は、エッジAIによる視覚障がい者買い物補助装置について、技術的背景からシステム構成、実際の動作デモまで解説しました。今後も多くの改善点を反映させ、より使いやすいシステムを目指して開発を進めていく予定です。
GitHubも公開していますので、良ければご覧ください。
最後までお読みいただき、誠にありがとうございました!
Discussion