📝

Yolo26: キーアーキテクチャの改良と性能ベンチマーク

に公開

https://www.arxiv.org/pdf/2509.25164

概要

本研究では、Ultralytics社が開発したYOLO26について包括的な分析を行い、その主要なアーキテクチャ改良点と、エッジデバイス向けリアルタイム物体検出における性能ベンチマーク結果を明らかにする。YOLO26は2025年9月にリリースされた最新かつ最も先進的なYOLOファミリーの一員であり、エッジ環境や低消費電力デバイスにおいて、効率性・精度・展開準備の整った性能を実現することを目的として設計されている。

本稿では、YOLO26のアーキテクチャにおける主要な革新点を段階的に解説する。具体的には、Distribution Focal Loss(DFL)の廃止、エンド・ツー・エンドNMSフリー推論の採用、ProgLossとSmall-Target-Aware Label Assignment(STAL)の統合、そして安定した収束を実現するMuSGDオプティマイザの導入などが挙げられる。アーキテクチャ面に加え、本研究ではYOLO26をマルチタスクフレームワークとして位置付け、物体検出、インスタンスセグメンテーション、姿勢/キーポイント推定、指向性検出、分類といった多様なタスクをサポート可能であることを実証する。

NVIDIA Jetson NanoやOrinなどのエッジデバイスにおけるYOLO26の性能ベンチマーク結果を提示し、YOLOv8、YOLOv11、YOLOv12、YOLOv13、およびトランスフォーマーベースの検出器との比較を行う。

さらに本論文では、リアルタイム展開の実現方法、柔軟なエクスポートオプション(ONNX、TensorRT、CoreML、TFLite)、およびINT8/FP16への量子化手法についても考察する。ロボット工学、製造業、IoT分野におけるYOLO26の実用的な活用事例を紹介し、これらの産業分野における汎用性の高さを実証する。最後に、展開効率に関する知見とより広範な技術的意義について論じるとともに、YOLO26およびYOLOファミリーの今後の発展方向について展望を示す。

1. イントロダクション

物体検出はコンピュータビジョン分野において最も重要なタスクの一つとして台頭し、機械が画像や動画ストリーム内の複数の物体を特定・分類することを可能にしている[1, 2]。

その応用範囲は自動運転技術やロボット工学から監視システム、医療画像診断、農業、スマート製造業に至るまで多岐にわたり、リアルタイム物体検出アルゴリズムは人工知能(AI)アプリケーションの基盤技術として機能している[3, 4]。

これらのアルゴリズムの中でも、You Only Look Once(YOLO)ファミリーはリアルタイム物体検出分野で最も影響力のあるモデル系列として確立されており、高い検出精度と前例のない推論速度を両立させている[5, 6, 7, 7]。

2016年の登場以来、YOLOは多数のアーキテクチャ改良を経て進化を続けており、各バージョンは前バージョンの課題を克服するとともに、ニューラルネットワーク設計、損失関数、展開効率における最先端の研究成果を統合している[5]。

2025年9月にリリースされたYOLO26は、この進化の軌跡における最新のマイルストーンであり、アーキテクチャの簡素化、新規最適化アルゴリズム、低消費電力デバイス向けの強化された展開機能を導入している。

表1では、YOLOv1からYOLOv13およびYOLO26までの各モデルを詳細に比較し、リリース年、主要なアーキテクチャ革新点、性能向上、および開発フレームワークについて明らかにしている。

YOLOフレームワークは2016年、Joseph Redmonらによって初めて提案された(redmon2016you)。これは物体検出の分野においてパラダイムシフトをもたらす画期的な手法であった。
従来のR-CNN he2017maskやFaster R-CNN ren2016fasterといった2段階検出器が領域提案と分類処理を分離していたのに対し、YOLOは検出問題を単一の回帰問題として定式化したdiwan2023object。
畳み込みニューラルネットワーク(CNN)を通じた単一のフォワードパスで、バウンディングボックスとクラス確率を直接予測するこの手法により、YOLOはリアルタイム処理を実現しつつ、従来の手法に匹敵する精度を達成したali2024yolo; diwan2023object。
この高い効率性により、YOLOv1はロボット工学、自律ナビゲーション、ライブ映像解析など、遅延が重要な要素となるアプリケーション分野で特に注目を集めた。その後リリースされたYOLOv2(2017年 redmon2017yolo9000)およびYOLOv3(2018年 redmon2018yolov3)は、精度を大幅に向上させつつリアルタイム性能を維持した。
YOLOv2ではバッチ正規化、アンカーボックス、マルチスケール学習が導入され、様々な物体サイズに対する頑健性が向上した。
YOLOv3ではDarknet-53ベースのより深いアーキテクチャを採用し、さらにマルチスケール特徴マップを活用することで、小さな物体の検出精度を高めた。これらの改良により、YOLOv3は学術研究分野および産業界において数年間にわたり事実上の標準技術として広く採用されることになったapostolidis2025delving; sapkota2025yolo; edozie2025comprehensive。

特に航空写真、農業、医療画像解析といった精度要求の厳しい分野において、より高い精度への需要が高まるにつれ、YOLOモデルはより高度なアーキテクチャへと進化を遂げた。
2020年にリリースされたYOLOv4(bochkovskiy2020yolov4)では、Cross-Stage Partial Networks(CSPNet)の導入、Mish関数などの改良された活性化関数、モザイクデータ拡張やCIoU損失関数といった高度な学習手法が採用された。

非公式ながらPyTorch実装と広範なコミュニティサポート、多様なプラットフォームへの容易な展開が可能だったYOLOv5(Ultralytics、2020年)は、大きな人気を博した。YOLOv5ではモジュール化も実現され、セグメンテーションや分類タスク、エッジデバイスへの適応が容易になった。

さらにYOLOv6li2022yolov6やYOLOv7 wang2023yolov7(2022年)では、先進的な最適化技術、パラメータ効率に優れたモジュール、トランスフォーマーに着想を得たブロックなどが統合された。これらの進化により、YOLOはリアルタイム推論を維持しつつ、最先端(SoTA)の精度ベンチマークにますます近づくこととなった。この時点までに、YOLOエコシステムは物体検出分野における研究と実用化の両面で、確固たる地位を確立した主要なモデルファミリーとしての地位を確立していた。

現代的なYOLOモデルの主要なメンテナンス担当者であるUltralyticsは、2023年にリリースしたYOLOv8においてフレームワークを抜本的に再構築した(sohan2024review)。
YOLOv8では、分離型検出ヘッドアーキテクチャ、アンカーフリー予測方式、および最適化された学習戦略を採用し、精度と多様な展開環境への適応性の両面で大幅な性能向上を実現した。このクリーンなPython API、TensorRT/CoreML/ONNXとの互換性、そして精度と速度のトレードオフを考慮した各種バリアント(nano、small、medium、large、extra-large)の提供により、産業界において広く採用されることになった。YOLOv9 wang2024yolov9、YOLOv10 wang2024yolov10、YOLO11と続く一連のアップデートでは、各バージョンごとにアーキテクチャと性能の限界をさらに押し広げる改良が加えられた。

YOLOv9ではGELAN(Generalized Efficient Layer Aggregation Network)とプログレッシブ蒸留技術を導入し、効率性とより高い表現能力の両立を達成した。

YOLOv10では、ハイブリッド型タスクアラインメント割り当て方式により、精度と推論遅延のバランス最適化に注力した。

YOLOv11ではUltralyticsのビジョンをさらに洗練させ、GPU上でのより高い効率性を実現しつつ、小型オブジェクトに対する優れた性能を維持している sapkota2025yolo。

これら一連のモデルの登場により、Ultralyticsは現代の展開パイプラインに最適化されたプロダクション対応YOLOモデルを提供する企業としての評価を確固たるものとした。

YOLO11を基盤として、代替バージョンであるYOLOv12tian2025yolov12およびYOLOv13 lei2025yolov13では、注意機構を中心とした設計と高度なアーキテクチャ要素が導入され、多様なデータセットにおいて精度の最大化が図られた。

これらのモデルでは、マルチヘッドセルフアテンション機構、改良されたマルチスケール融合手法、より強力な学習正則化戦略などが探究された。強力なベンチマーク性能を示したものの、依然としてNon-Maximum Suppression(NMS)とDistribution Focal Loss(DFL)に依存していたため、特に低消費電力デバイスにおいて、処理遅延の増加やモデルエクスポート時の課題が生じていた。
NMSベースの後処理の限界と複雑な損失関数の設計が課題となる中、YOLO26(Ultralytics YOLO26公式ソース)が開発された。2025年9月、ロンドンで開催されたYOLO Vision 2025イベントにおいて、Ultralyticsはエッジコンピューティング、ロボティクス、モバイルAI向けに最適化された次世代モデルとしてYOLO26を発表した。

YOLO26は「簡潔性」「効率性」「革新性」という3つの基本原則に基づいて設計されており、図1の概要図ではこれらの設計選択が、物体検出、インスタンスセグメンテーション、姿勢/キーポイント検出、指向性検出、分類という5つのサポートタスクとどのように関連しているかが示されている。

推論処理において、YOLO26はNMSを排除することで、従来の後処理ボトルネックを解消し、遅延変動を低減するとともに、デプロイメント環境全体での閾値調整を簡素化した。回帰処理面では、DFLを廃止し、分布型ボックスデコーディングをより軽量かつハードウェアフレンドリーな形式に変換した。
これにより、ONNX、TensorRT、CoreML、TFLiteへのクリーンなエクスポートが可能となり、エッジデバイスやモバイルパイプラインにとって実用的な利点をもたらした。
これらの変更により、より軽量なグラフ構造、高速なコールドスタート、実行時依存関係の削減が実現し、特にCPU負荷の高い環境や組み込みシステムにおいて大きな利点となる。
学習安定性と微小物体の識別精度については、ProgLoss(漸進的損失バランス調整)とSTAL(小規模対象認識ラベル割り当て)によって対処されている。ProgLossは学習後期における容易な事例の支配を防ぐため、目的関数の重み付けを動的に調整する。一方、STALは微小物体や遮蔽物体に対する割り当てを優先することで、航空画像、ロボティクス、スマートカメラフィードなどで一般的な、雑然とした環境や植生、モーションブラー条件下における再現率の向上を実現する。
最適化手法としては、MuSGDを採用している。これはSGDの汎化性能と、Muonスタイルの手法に着想を得た運動量/曲率挙動を融合したハイブリッド手法であり、より高速で滑らかな収束と、スケールを超えた信頼性の高いプラトーの達成を可能にする。

機能構成上、図1で改めて強調されているように、YOLO26の5つの機能は統一されたバックボーン/ネック構造と最適化されたヘッド構造を共有している:

図1:YOLO26の統一アーキテクチャは、物体検出、インスタンスセグメンテーション、姿勢/キーポイント検出、方向付き検出、および分類という5つの主要な視覚タスクをサポートしている。
図1:YOLO26の統一アーキテクチャは、物体検出、インスタンスセグメンテーション、姿勢/キーポイント検出、方向付き検出、および分類という5つの主要な視覚タスクをサポートしている。

この統合設計により、アーキテクチャの再設計を必要とせずにマルチタスク学習やタスク特化型のファインチューニングが可能となる。また、簡素化されたエクスポート機能により、異なるアクセラレータ間でのポータビリティが維持される。要するに、YOLO26はエンドツーエンド推論とDFLフリー回帰をProgLoss、STAL、MuSGDと組み合わせることで、YOLO系の進化形を実現した。このモデルは展開速度が速く、学習安定性に優れ、視覚的に図1に要約されているように機能範囲も拡大している。

2. YOLO26におけるアーキテクチャの改良点

YOLO26のアーキテクチャは、エッジデバイスからサーバープラットフォームまでを対象としたリアルタイム物体検出に特化して設計された、最適化された効率的な処理パイプラインを採用している。
図2に示すように、処理はまず画像または動画ストリーム形式の入力データの取り込みから始まる。これらのデータはまず、モデル推論に適した標準サイズへのリサイズや正規化といった前処理工程を経る。
その後、データは特徴抽出の中核ステージに入力され、コンパクトで強力な畳み込みニューラルネットワークが視覚的パターンの階層的表現を抽出する。
スケール変動に対する頑健性を高めるため、本アーキテクチャではマルチスケール特徴マップを生成する(図2)。これにより、大サイズ・小サイズの物体双方において意味的情報を保持した特徴表現が可能となる。
これらの特徴マップは、軽量な特徴融合ネック部で統合され、計算効率に優れた方法で情報が統合される。検出専用処理は直接回帰ヘッドで行われ、従来のYOLOバージョンとは異なり、Non-Maximum Suppression(NMS)に依存することなくバウンディングボックスとクラス確率を出力する。
このエンドツーエンドのNMS非依存推論(図2)により、後処理のオーバーヘッドが排除され、展開プロセスが高速化される。訓練の安定性と精度向上を図るため、ProgLoss平衡化モジュールとSTAL割り当てモジュールを採用している。
これらのモジュールは損失関数項の公平な重み付けを保証し、特に小規模対象物の検出精度を向上させる。モデル最適化にはMuSGDオプティマイザを採用しており、SGDとMuonの長所を融合させることで、より高速かつ信頼性の高い収束を実現する。展開効率はさらに量子化技術によって向上しており、FP16およびINT8精度をサポートすることで、CPU、NPU、GPU上での処理速度向上が可能で、精度低下も最小限に抑えられる。最終的に、パイプラインは入力画像上にオーバーレイ表示可能なバウンディングボックスとクラス割り当てを含む出力予測の生成に至る。総じて、YOLO26のアーキテクチャは、精度・安定性・展開容易性という三つの要素をバランスよく両立させた設計思想を体現している。

図2:Ultralytics YOLO26の簡略化アーキテクチャ図
図2:Ultralytics YOLO26の簡略化アーキテクチャ図

図3:YOLO26における主要なアーキテクチャ改良点:
(a)Distribution Focal Loss(DFL)の削除により、バウンディングボックス回帰処理が簡素化され、処理効率とエクスポート互換性が向上した。
(b)エンドツーエンドのNMS不要推論方式を採用することで、後処理のボトルネックを解消し、より高速かつ簡便な展開を可能にした。
(c)ProgLossとSTALの導入により、学習の安定性が向上するとともに、小型物体の検出精度が大幅に改善された。
(d)MuSGDオプティマイザはSGDとMuonの長所を統合した最適化手法であり、学習時の収束速度の高速化と安定性向上を実現している。
図3:YOLO26における主要なアーキテクチャ改良点:
(a)Distribution Focal Loss(DFL)の削除により、バウンディングボックス回帰処理が簡素化され、処理効率とエクスポート互換性が向上した。
(b)エンドツーエンドのNMS不要推論方式を採用することで、後処理のボトルネックを解消し、より高速かつ簡便な展開を可能にした。
(c)ProgLossとSTALの導入により、学習の安定性が向上するとともに、小型物体の検出精度が大幅に改善された。
(d)MuSGDオプティマイザはSGDとMuonの長所を統合した最適化手法であり、学習時の収束速度の高速化と安定性向上を実現している。

YOLO26では、従来のYOLOモデル世代との差別化を図るため、複数の重要なアーキテクチャ革新が導入されている。これらの改良は、学習の安定性と推論効率の向上だけでなく、リアルタイムエッジデバイス向けの展開パイプラインを根本的に再構築するものである。
本節では、YOLO26の4つの主要な技術的貢献について詳述する:(i)分布焦点損失(DFL)の廃止、(ii)エンドツーエンドの非最大抑制(NMS)不要推論の導入、(iii)段階的損失バランス調整(ProgLoss)や小型対象物対応ラベル割り当て(STAL)を含む新規損失関数戦略、(iv)安定かつ効率的な収束を実現するMuSGDオプティマイザの開発である。これらのアーキテクチャ改良についてはそれぞれ詳細に解説し、YOLOv8、YOLOv11、YOLOv12、YOLOv13といった先行するYOLOバージョンとの比較を通じて、その優位性を明らかにする。

2.1 Distribution Focal Lossの削除

YOLO26における最も顕著なアーキテクチャ簡素化の一つは、YOLOv8やYOLOv11といった従来バージョンに搭載されていたDistribution Focal Loss(DFL)モジュールの削除である(図3a)。DFLは当初、バウンディングボックス回帰の精度向上を目的として開発されたもので、ボックス座標の確率分布を予測することで物体の位置特定をより精密に行うことができた。
この手法は初期モデルにおいて精度向上をもたらした一方で、無視できない計算負荷とモデルエクスポート時の課題も引き起こした。実際には、DFLは推論時およびモデルエクスポート時に特別な処理を必要とし、ONNXやCoreML、TensorRT、TFLiteといったハードウェアアクセラレータ向けの展開パイプラインを複雑化していた。

DFLの削除により、YOLO26はモデルアーキテクチャを簡素化し、バウンディングボックス予測をより単純な回帰タスクとして扱えるようになった。これにより性能を損なうことなく、より直感的な実装が可能となっている。
比較分析によれば、YOLO26はProgLossやSTALといった他の革新的技術と併用した場合、DFLを採用したYOLOモデルと同等かそれ以上の精度を達成している。さらに、DFLの削除によって推論遅延が大幅に短縮され、クロスプラットフォーム互換性も向上した。これにより、YOLO26はエッジAI環境――軽量でハードウェアフレンドリーなモデルが最重要視される分野――により適したソリューションとなっている。

これに対し、YOLOv12やYOLOv13などのモデルではDFLがアーキテクチャに残存しており、GPUリソースが豊富な環境では優れた精度指標を示すものの、制約のあるデバイス環境での適用性が制限されていた。この点において、YOLO26は最先端の物体検出性能を、モバイル機器や組み込みシステム、産業用アプリケーションといった現実的な環境要件と整合させる決定的な一歩と言える。

2.2 エンド・ツー・エンドでNMSフリーな推論

YOLO26のもう一つの画期的な特徴は、Non-Maximum Suppression(NMS:非最大抑制)を用いないエンド・ツー・エンド推論をネイティブにサポートしている点である(図3b参照)。従来のYOLOモデル群(YOLOv8からYOLOv13まで)では、NMSは後処理ステップとして必須の機能であり、最も高い信頼度スコアを持つバウンディングボックスのみを保持することで重複予測を除去する役割を果たしていた。
NMSは効果的ではあるものの、パイプラインに余分な遅延を生じさせる上、Intersection-over-Union(IoU:重複率)閾値などのハイパーパラメータを手動で調整する必要がある。
この手作業による後処理ステップへの依存は、特にエッジデバイスや遅延に敏感なアプリケーションにおいて、デプロイメントパイプラインの脆弱性を引き起こす要因となっていた。

YOLO26は予測ヘッドの設計を根本から見直し、NMSを必要とせずに直接的で重複のないバウンディングボックス予測を生成する方式を採用した。このエンドツーエンド設計により、推論の複雑さが軽減されるだけでなく、手動で調整した閾値への依存も解消されるため、本番システムへの統合が容易になる。比較ベンチマークテストによれば、YOLO26はYOLOv11やYOLOv12よりも高速な推論速度を実現しており、nanoモデルではCPU推論時間を最大43%短縮している。この特性は、ミリ秒単位の遅延が運用上重大な影響を及ぼすモバイルデバイスやUAV、組み込み型ロボットプラットフォームなどにおいて、特に大きな利点となる。

速度面に加え、NMSを不要とするこのアプローチは、モデルが大規模な後処理コードを必要としないため、再現性とデプロイメントのポータビリティも向上させる。RT-DETRやSparse R-CNNといった他の先進的な検出器でもNMS不要の推論が試みられているが、YOLO26はYOLOシリーズとして初めてこのパラダイムを採用しつつ、YOLOならではの速度と精度のバランスを維持したリリースとなった。NMSに依存し続けるYOLOv13と比較しても、YOLO26のエンド・ツー・エンドのパイプラインは、リアルタイム検出を実現する先進的なアーキテクチャとして際立っている。

2.3 安定した収束を実現するMuSGDオプティマイザ

YOLO26における最終的な革新点は、MuSGDオプティマイザの導入である(図3d)。これは確率的勾配降下法(SGD)の強みと、大規模言語モデル(LLM)の訓練で用いられる最適化手法に着想を得たMuonオプティマイザの特性を融合させたものである。MuSGDはSGDの持つ頑健性と汎化性能を維持しつつ、Muonの適応的特性を取り入れることで、多様なデータセットにおいてより高速な収束と安定した最適化を実現する。

このハイブリッド型オプティマイザは、現代の深層学習における重要なトレンドを反映している。すなわち、自然言語処理(NLP)とコンピュータビジョン分野の技術的進歩が相互に影響し合う現象である。Moonshot AIのKimi K2などLLM訓練の実践手法を取り入れることで、YOLO26はこれまでYOLO系列では未開拓だった安定性向上の恩恵を受けることができる。実証結果によれば、MuSGDを採用することでYOLO26はより少ない訓練エポック数で競争力のある精度を達成可能となり、結果として訓練時間と計算コストの双方を削減できる。

2.4 スケールコンバージェンスのためのMuSDG オプティマイザー

YOLOv8からYOLOv13までの従来バージョンのYOLOは、標準的なSGDまたはAdamWのバリエーションを最適化アルゴリズムとして採用していた。これらの手法は効果的ではあったものの、ハイパーパラメータの調整に多大な労力を要する場合があり、特にデータセットの変動性が高い場合には収束が不安定になる傾向があった。これに対しMuSGDは、YOLOの軽量訓練という理念を維持しつつ、信頼性の向上を実現している。実務者にとってこれは、開発サイクルの短縮、訓練の再起動回数の減少、および様々な展開シナリオにおける予測可能な性能を意味する。MuSGDを統合することで、YOLO26は単なる推論最適化モデルとしてだけでなく、研究者や業界実務者にとって訓練しやすいアーキテクチャとしても位置付けられることとなった。

3 ベンチマーク分析と比較分析

YOLO26の場合、その性能を前世代のYOLOモデルや最先端の代替アーキテクチャと比較評価するため、一連の厳格なベンチマークテストを実施した。
図4はこの評価結果をまとめたもので、NVIDIA T4 GPU上でTensorRT FP16最適化を適用した場合のCOCO mAP(50~95)と遅延時間(画像1枚あたりのミリ秒数)の関係を示している。YOLOv10、RT-DETR、RT-DETRv2、RT-DETRv3、DEIMといった競合アーキテクチャを含めることで、リアルタイム検出分野における最新の技術的進歩を包括的に把握できるようになっている。図から明らかなように、YOLO26は特徴的な位置付けを示している。トランスフォーマーベースのモデルであるRT-DETRv3と同等の高い精度を維持しつつ、推論速度においてはそれを大きく上回っている。具体的には、YOLO26-mとYOLO26-lはそれぞれ51%超、53%超という競争力のあるmAPスコアを達成しながら、大幅に低い遅延時間を実現しており、NMS不要アーキテクチャと軽量な回帰ヘッドの利点が明確に表れている。

図4: COCOデータセットにおけるYOLO26の性能ベンチマーク結果を、YOLOv10、RT-DETR、RT-DETRv2、RT-DETRv3、およびDEIMと比較したグラフ。プロットは、NVIDIA T4 GPU上でTensorRT FP16推論を実行した際のCOCO mAP(50-95)と遅延時間(画像1枚あたりのミリ秒数)の関係を示している。YOLO26は精度と効率性のバランスにおいて優れた性能を示し、競合する検出性能を維持しつつ遅延を大幅に低減することに成功している。この結果から、YOLO26はリアルタイムエッジデバイスやリソース制約のある環境への展開に特に適していることが明らかである。
図4: COCOデータセットにおけるYOLO26の性能ベンチマーク結果を、YOLOv10、RT-DETR、RT-DETRv2、RT-DETRv3、およびDEIMと比較したグラフ。プロットは、NVIDIA T4 GPU上でTensorRT FP16推論を実行した際のCOCO mAP(50-95)と遅延時間(画像1枚あたりのミリ秒数)の関係を示している。YOLO26は精度と効率性のバランスにおいて優れた性能を示し、競合する検出性能を維持しつつ遅延を大幅に低減することに成功している。この結果から、YOLO26はリアルタイムエッジデバイスやリソース制約のある環境への展開に特に適していることが明らかである。

この精度と処理速度のバランスは、リアルタイム処理の維持が信頼性の高い検出品質の確保と同様に重要なエッジデバイス展開において特に重要である。
YOLOv10と比較して、YOLO26はモデル規模を問わず一貫して低いレイテンシを達成しており、CPU負荷の高い推論処理においては最大43%の処理速度向上を実現している。
同時に、ProgLossとSTALメカニズムによって精度を維持または向上させている。トランスフォーマーのエンコーダ/デコーダに大きく依存するDEIMやRT-DETRシリーズと比較すると、YOLO26の簡素化されたバックボーンとMuSGD駆動の学習パイプラインにより、より高速な収束と軽量な推論処理が可能でありながら、小型物体の認識性能も損なわない。
図4のグラフはこれらの違いを明瞭に示している。RT-DETRv3は大規模モデルにおける精度ベンチマークで優れた性能を発揮するものの、そのレイテンシ特性はYOLO26に比べて必ずしも有利とは言えず、YOLO26のエッジデバイス向け設計思想を裏付けている。
さらに、ベンチマーク分析からは、YOLO26が精度-レイテンシ曲線のバランスにおいて高い頑健性を備えており、高スループットが求められるサーバー用途からリソース制約のあるデバイスまで、幅広い用途に適した汎用性の高い検出器であることが明らかとなった。
この比較結果は、YOLO26が単なるマイナーアップデートではなく、YOLO系列におけるパラダイムシフトであり、従来のYOLOモデルの効率性重視の哲学と、トランスフォーマーベース検出器の精度重視の方向性との間のギャップを見事に橋渡しするものであるという主張を裏付けるものである。
最終的に、ベンチマーク結果が示すように、YOLO26は特に厳しいレイテンシ制約下で信頼性の高い性能が求められる実環境において、明確な展開上の優位性を提供する。

Ultralytics YOLO26によるリアルタイムデプロイメント

4.1 柔軟なエクスポートと統合されたパスウェイ

YOLO26の最大の利点は、既存の生産パイプラインにシームレスに統合できる 点にある。Ultralytics社は継続的に開発を行っているPythonパッケージを提供しており、トレーニング、検証、エクスポートを統一的にサポートすることで、YOLO26の導入を目指す実務者の技術的障壁を大幅に低減している。
従来のYOLOモデルでは、ハードウェアアクセラレーションを活用するために専用の変換スクリプトを詳細に作成する必要があった(pestana2021full; nguyen2019high; ding2019req)。一方、YOLO26は幅広いエクスポート形式をネイティブでサポートしている。具体的には、GPUアクセラレーションを最大限に活用できるTensorRT、幅広いプラットフォーム互換性を実現するONNX、iOSネイティブ統合が可能なCoreML、Androidやエッジデバイス向けのTFLite、Intelハードウェア上で最適化された性能を発揮するOpenVINOなどが挙げられる。このように豊富なエクスポートオプションを備えているため、研究者やエンジニア、開発者はプロトタイプ段階から本番環境への移行において、従来世代のモデルで頻繁に発生していた互換性の問題に直面することなく作業を進めることができる。

歴史的に見ると、YOLOv3からYOLOv7では、特にNVIDIA TensorRTやApple CoreML kusuma2023multi; surantha2025keyといった専用推論エンジンをターゲットとする場合、エクスポート時に手動による介入が必要となることが多かった。同様に、DETRやその後継モデルのようなトランスフォーマーベースの検出器も、PyTorch環境外で変換を行う際に、動的注意機構に依存している点で課題を抱えていた。これに対し、YOLO26のアーキテクチャはDFLの削除とNMSフリーの予測ヘッドの採用によって簡素化されており、精度を犠牲にすることなくプラットフォーム間の互換性を確保している。この特徴により、YOLO26は現時点で最もデプロイメントが容易な検出器の一つとなっており、エッジデバイス向けモデルとしての位置付けをさらに強固なものにしている。

4.2 量子化とリソースが制約されたデバイス

エクスポート時の柔軟性を超えて、実際の運用環境における真の課題は、計算リソースが限られたデバイス上での効率性確保にある。
スマートフォンやドローン、組み込み型ビジョンシステムなどのエッジデバイスには、通常専用のGPUが搭載されておらず、メモリ容量、電力消費、遅延制約といった複数の制約条件のバランスを取る必要がある hossain2019deep; setyanto2023near。モデルサイズと計算負荷を削減するための一般的な手法として量子化が広く採用されているが、多くの複雑な検出器では積極的な量子化によって精度が大幅に低下する問題がある。YOLO26はこの制約条件を前提として設計されている。

その簡素化されたアーキテクチャと簡素化されたバウンディングボックス回帰パイプラインにより、YOLO26は半精度(FP16)と整数精度(INT8)の両方の量子化方式において一貫した精度を発揮する。FP16量子化はGPUがネイティブにサポートする混合精度演算を活用することで、メモリ使用量を抑えつつ高速な推論処理を実現する。INT8量子化ではモデルの重みを8ビット整数に圧縮するため、モデルサイズとエネルギー消費量が劇的に削減される一方で、競争力のある精度レベルを維持できる。ベンチマーク実験の結果、YOLO26はこれらの量子化レベルにおいて安定性を保ち、同一条件下でYOLOv11やYOLOv12を上回る性能を示すことが明らかになった。この特性により、YOLO26はNVIDIA Jetson OrinやQualcomm Snapdragon AIアクセラレータ、さらにはスマートカメラに搭載されるARMベースCPUといった小型ハードウェアへの展開に特に適している。

一方、RT-DETRv3などのトランスフォーマーベースの検出器は、INT8量子化を適用すると性能が急激に低下する傾向がある wang2025rt。これは主に、注意機構が精度低下に対して敏感であるためである。同様に、GPUサーバー環境では優れた精度を発揮するYOLOv12やYOLOv13も、量子化後に低電力デバイス上で競争力のある性能を維持するのに苦労する。このようにして、YOLO26は物体検出分野における量子化対応設計の新たな基準を確立し、アーキテクチャの簡素化が直接的に展開時の堅牢性向上につながることを実証している。

4.3 業界横断的な応用事例:ロボティクスから製造業まで

これらの展開機能の実用的な効果は、業界横断的な応用事例を通じて最も明確に理解できる。ロボティクス分野では、リアルタイム認識がナビゲーション、マニピュレーション、そして安全な人間-ロボット協働において極めて重要である(bonci2021human; SAPKOTA2026103575)。YOLO26はNMS不要の予測と一貫した低遅延推論を実現することで、ロボットシステムが環境をより迅速かつ確実に認識できるようにする。例えば、YOLO26を搭載したロボットアームは、動的な環境下においても物体の識別と把持をより高精度に行えるようになる。また、移動型ロボットにおいては、複雑な空間における障害物認識能力が向上する。YOLOv8やYOLOv11と比較して、YOLO26は推論遅延の短縮を実現しており、これは高速動作時において安全な動作と衝突回避の分かれ目となる重要な要素である。

製造業分野では、YOLO26は自動欠陥検出と品質保証システムに大きな変革をもたらす可能性を秘めている。従来の手動検査は単に労働集約的であるだけでなく、人的ミスが発生しやすいという課題があった。特にYOLOv8などの過去のYOLOバージョンは既にスマートファクトリーで導入されていたものの、エクスポートの複雑さやNMSによる遅延オーバーヘッドが大規模展開の障壁となる場合があった。YOLO26はOpenVINOやTensorRTを通じた軽量な展開オプションを提供することで、これらの障壁を解消し、製造業者が生産ライン上で直接リアルタイム欠陥検出システムを導入できるようにしている。初期のベンチマーク結果によれば、YOLO26ベースの欠陥検出パイプラインは、YOLOv12やDEIMなどのトランスフォーマーベースの代替システムと比較して、処理スループットの向上と運用コストの低減を実現している。

4.4 YOLO26の展開がもたらすより広範な知見

YOLO26の展開機能を総合すると、物体検出技術の進化における重要なテーマが浮き彫りになる。それは、アーキテクチャの効率性が精度と同様に極めて重要であるということだ。過去5年間で、畳み込みベースのYOLO派生モデルからDETRやRT-DETRといったトランスフォーマーベースの検出器に至るまで、ますます高度なモデルが登場してきたが、実験環境における性能と実運用環境での実用性の間にはしばしば隔たりがあり、これらのモデルの影響力は限定的なものとなっていた。YOLO26はこのギャップを埋めるため、アーキテクチャの簡素化、エクスポート互換性の拡大、量子化処理下での堅牢性確保を実現し、最先端の精度と実用的な展開ニーズとの整合性を図っている。

モバイルアプリケーションを開発する開発者にとって、YOLO26はCoreMLとTFLiteを通じたシームレスな統合を可能にし、モデルがiOSおよびAndroidプラットフォーム上でネイティブに動作することを保証する。クラウド環境やオンプレミスサーバーでビジョンAIを展開する企業にとっては、TensorRTとONNX形式へのエクスポートにより、スケーラブルな高速化オプションが提供される。産業用システムやエッジデバイスのユーザーに対しては、OpenVINOとINT8量子化によって、リソース制約が厳しい環境下でも一貫した性能が保証される。この意味で、YOLO26は物体検出研究における単なる進化の一歩であるだけでなく、展開の民主化という観点においても重要なマイルストーンと言える。

5結論と今後の方向性

総括すると、YOLO26はYOLOシリーズの物体検出モデルにおいて重要な進化を遂げたモデルである。アーキテクチャの革新と実用的な展開可能性の両立を実現しており、分布焦点損失(DFL)モジュールの削除と非最大抑制処理の不要化によって設計を簡素化している。DFLを廃止したことで、YOLO26はバウンディングボックス回帰処理を効率化し、エクスポート時の複雑さを回避することに成功。これにより様々なハードウェア環境への適応性が拡大した。さらに、エンドツーエンドでNMSを必要としない推論方式を採用しており、後処理工程を経ずに直接最終的な検出結果を出力可能である。この設計は遅延時間の短縮だけでなく、展開パイプラインの簡素化にも寄与しており、YOLO26は従来のYOLOコンセプトの自然な進化形と言える。学習段階においては、YOLO26は漸進的損失バランス調整(ProgLoss)と小型対象物対応ラベル割り当て(STAL)という新たな手法を導入。これらの技術は学習の安定化と困難な小型物体に対する精度向上に相乗的に作用する。加えて、SGDとミューオンの特性を融合した新規最適化アルゴリズムMuSGDを採用することで、収束速度の向上と学習安定性の改善を実現している。これらの改良技術が一体となって機能することで、YOLO26は単なる高精度・高堅牢性だけでなく、実際の運用環境において顕著な高速化と軽量化を達成している。

ベンチマーク比較結果が示す通り、YOLO26はその前身モデルであるYOLOシリーズや現代の競合モデルと比較しても優れた性能を発揮している。YOLO11などの先行バージョンはより効率的な処理で従来モデルを凌駕し、YOLO12は注意機構の導入によってさらに精度を向上させた。YOLO13ではハイパーグラフベースの改良が加えられ、さらなる性能向上が実現されている。トランスフォーマーベースの競合モデルと比較すると、YOLO26はその差を大きく縮めている。YOLO26のネイティブNMSフリー設計は、トランスフォーマー型検出器のエンドツーエンドアプローチと類似した特徴を持ちながら、YOLOならではの効率性を維持している。YOLO26は競合モデルに匹敵する精度を実現しつつ、一般的なハードウェア環境における処理スループットを大幅に向上させ、システムの複雑性を最小限に抑えている。実際、YOLO26の設計はCPU上での推論速度において従来のYOLOバージョン比で最大43%の高速化を達成しており、リソース制約のある環境における実用的なリアルタイム検出器として最も優れた選択肢の一つとなっている。このような性能と効率性の調和により、YOLO26はベンチマークランキングでの優位性だけでなく、速度・メモリ使用量・エネルギー効率が重視される実際の現場展開においても優れた性能を発揮する。

YOLO26の重要な貢献の一つは、展開面での優位性を重視した設計にある。本モデルのアーキテクチャは実運用環境への適応を意図して最適化されており、DFLとNMSの削除によって、専用ハードウェアアクセラレータ上での実装が困難な処理を回避することで、多様なデバイスへの互換性を向上させている。ネットワークはONNX、TensorRT、CoreML、TFLite、OpenVINOなど多岐にわたるフォーマットへのエクスポートが可能であり、開発者はモバイルアプリ、組み込みシステム、クラウドサービスなどへの統合を同等の容易さで実現できる。さらに重要なのは、YOLO26が堅牢な量子化処理をサポートしている点である。簡素化されたアーキテクチャにより、精度への影響を最小限に抑えつつ、INT8量子化や半精度FP16形式での展開が可能となっている。これは低ビット幅推論にも耐えられる設計特性によるもので、モデルの圧縮と高速化を実現しながらも信頼性の高い検出性能を維持できることを意味する。これらの特徴は、ドローンからスマートカメラに至るまでのエッジデバイスにおいて、YOLO26が従来のYOLOモデルでは困難だったCPU搭載小型デバイス上でのリアルタイム動作を可能にする。これらの改良技術はすべて、最先端の研究アイデアと実用化可能なAIソリューションの間のギャップを埋めるという一貫したテーマを体現している。このアプローチは、YOLO26が学術的革新と産業応用の橋渡し役として果たす役割を浮き彫りにしており、最新のビジョン技術の進歩を実務者の手に直接届けることを可能にしている。

5.1 今後の研究方向性

今後の展望として、YOLOおよび物体検出研究の方向性にはいくつかの有望な方向性が考えられる。一つの明確な方向性は、複数の視覚タスクをより統合的なモデルへと発展させることである。YOLO26は既に物体検出、インスタンスセグメンテーション、姿勢推定、方向付きバウンディングボックス、分類といった複数のタスクを単一のフレームワークでサポートしており、これはマルチタスク対応型モデルへの傾向を示している。今後のYOLOの進化においては、さらにこの方向性を推し進め、オープンボキャブラリー機能や基盤モデルの能力を組み込むことが期待される。具体的には、強力な視覚-言語モデルを活用することで、検出器が固定されたラベルセットに依存することなく、ゼロショット方式で任意の物体カテゴリを認識できるようになる可能性がある。基盤モデルと大規模事前学習の知見を基盤とすることで、次世代YOLOは検出・セグメンテーション、さらには文脈に応じた新規物体の記述までをシームレスに処理可能な汎用視覚AIとして機能するだろう。

もう一つの重要な進化の方向性として、物体検出における半教師あり学習および自己教師あり学習の領域が挙げられる。tang2021proposal; sohn2020simple; huang2022survey; rani2023selfの研究が示すように、最先端の検出器は依然として大規模なラベル付きデータセットに大きく依存しているが、未ラベルデータや部分ラベルデータを用いた学習手法の研究が急速に進展している。teacher-student学習 li2022cross; xu2021end; mi2022active、擬似ラベル手法 li2022pseco; caine2021pseudo、自己教師あり特徴学習 jing2020selfなどの技術をYOLOの学習パイプラインに統合することで、大量の手動アノテーションの必要性を軽減できる可能性がある。将来のYOLOモデルは、膨大な未アノテーション画像や動画データを自動的に活用することで、認識の頑健性をさらに向上させることができるだろう。これにより、ラベル付きデータの量に比例してモデルの性能を向上させる必要がなくなり、新たなドメインや稀少な物体カテゴリへの適応性が高まる。

アーキテクチャ面では、物体検出器においてトランスフォーマーとCNNの設計原理が引き続き融合していくものと予想される。近年のYOLOモデルの成功が示すように、注意機構やグローバルな推論機能をYOLO型アーキテクチャに組み込むことで、精度向上が可能であることが実証されている kang2024asf; vijayakumar2024yolo。今後のYOLOアーキテクチャでは、畳み込みベースのバックボーン(効率的な局所特徴抽出のため)とトランスフォーマーベースのモジュールまたはデコーダ(長距離依存関係や文脈情報の捕捉のため)を組み合わせたハイブリッド設計が採用される可能性がある。このようなハイブリッドアプローチにより、例えば混雑したシーンや高度に文脈依存する環境において、純粋なCNNや単純な自己注意機構では捉えきれない複雑なシーン関係をモデル化することが可能になる。次世代の検出器は、これらの技術をインテリジェントに融合させることで、豊かな特徴表現と低レイテンシの両立を実現するだろう。要するに、「CNNベース」と「トランスフォーマーベース」の検出器の境界線はますます曖昧になり、両者の優れた特性を統合することで、多様な検出課題に対応できるようになると考えられる。

最後に、展開時の性能が依然として最重要課題であることから、今後の研究ではエッジ環境を考慮した学習と最適化がさらに重視されるでしょう。これは、モデル開発において訓練段階からハードウェア制約を考慮する必要性が高まることを意味し、単なる後付けの対応では済まなくなります。例えば、量子化を考慮した訓練手法では、モデルを模擬的な低精度演算環境で訓練することで、最終的にINT8形式に量子化した後でもネットワークの精度を維持することが可能です。また、ニューラルアーキテクチャ探索や自動モデル圧縮技術がYOLOモデルの開発において標準的な手法となり、各バージョンが特定のターゲットプラットフォームを念頭に置いて共同設計されるようになることも予想されます。さらに、展開時のフィードバック(デバイス上での遅延測定値や消費電力など)を訓練ループに組み込むという新たなアプローチも登場しています。エッジ環境向けに最適化されたYOLOモデルであれば、例えば実行時の制約条件に応じて動的に深度や解像度を調整したり、大規模モデルから性能低下を最小限に抑えつつ小規模モデルへ蒸留したりする機能を備えることが可能になります。こうした考慮事項を踏まえた訓練を行うことで、実際に使用される環境において、精度と効率性の最適なバランスを実現した検出器が実現できるでしょう。このような効率的なAI技術の追求は、物体検出器がIoTやAR/VR、自律システムといった分野へ進出する上で極めて重要です。これらの分野では、限られたハードウェア環境でのリアルタイム性能が不可欠であるためです。

注記:本研究では、YOLO26の性能をYOLOv13、YOLOv12、YOLOv11と比較評価する実験を行います。農業環境においてマシンビジョンカメラを用いて独自に収集したデータセットを使用し、手動でラベル付けした対象物体を対象とします。モデルは同一の条件で訓練を行い、その結果を精度、再現率、正解率、F1スコア、mAP、推論速度、および前処理/後処理時間の観点から報告します。さらに、NVIDIA Jetsonプラットフォームを用いたエッジコンピューティング環境での実験により、リアルタイム検出能力を評価し、YOLO26がリソース制約のある農業用途において実際に展開可能かどうかについての知見を得る予定です。

6謝辞

本研究は、米国国立科学財団(NSF)および米国農務省(USDA)食品農業研究所(NIFA)による「人工知能(AI)農業研究所」プログラム(助成番号AWD003473およびAWD004595)、および「ソフトマニピュレータを用いたロボットによる花芽間引き技術」プロジェクトに対するUSDA-NIFAアクセス番号1029004の支援を受けて実施された。また、追加支援としてUSDA-NIFA助成金番号2024-67022-41788およびアクセス番号1031712による「UCF AI研究の新規農業工学応用への展開(PARTNER)プロジェクト」の支援を受けた。

Discussion