YOLOv13: ハイパーグラフで実現する高速・高精度リアルタイム物体検出

リアルタイム物体検出の分野では、YOLOシリーズがその優れた精度と計算効率により、長らく支配的な地位を占めてきました。しかし、YOLO11以前の畳み込みアーキテクチャやYOLOv12の自己注意メカニズムは、局所的な情報集約やペアワイズな相関モデリングに限定されており、グローバルな多対多の高次相関を捉える能力に欠けていました。これが、複雑なシナリオにおける検出性能のボトルネックとなっていました。

この課題を解決するために開発されたのがYOLOv13です。YOLOv13の核心技術は、Hypergraph-based Adaptive Correlation Enhancement(HyperACE)メカニズムと、それをベースとしたFull-Pipeline Aggregation-and-Distribution(FullPAD)パラダイムにあります。これらの技術により、モデルは潜在的な高次相関を適応的に活用でき、YOLOシリーズの特長である計算効率を維持しながら、複雑な視覚シーンでの検出性能を飛躍的に向上させることが可能になりました。

アーキテクチャ概要

YOLOv13は、従来のバックボーン-ネック-ヘッド構造を維持しながら、洗練された相関モデリングと特徴分布メカニズムを導入しました。このアーキテクチャでは、バックボーンから得られるマルチスケール特徴をHyperACEモジュールで処理し、その後FullPADトンネルを通じて強化された表現をネットワークパイプライン全体に分散させます。

設計哲学として、適応的ハイパーグラフ計算によってグローバルなコンテキストを捕捉し、軽量なデプスワイズ分離畳み込みによってローカルな詳細を保持することに焦点を当てています。この二重のアプローチにより、計算効率を犠牲にすることなく、包括的な特徴表現を実現しています。

図1. YOLOv13アーキテクチャ概要

ハイパーグラフベースの適応的相関強化(HyperACE)

HyperACEメカニズムは、ペアワイズ関係のみをモデル化する従来のグラフベースアプローチの限界に対処する、中核的な技術革新です。コンピュータビジョンにおいて、複雑なシーンを理解するには、多くの場合、複数のエンティティ間の関係を同時にモデル化する必要があります。例えば、オブジェクトのグループが特定のコンテキスト内でどのように相互作用するかを認識することなどが挙げられます。

図2. HyperACEメカニズムの詳細

適応的ハイパーエッジ生成

従来のハイパーグラフ手法では、ハイパーエッジの構築に固定された閾値や手動で定義されたルールに依存しており、多様な視覚シナリオ全体での適応性が制限されていました。YOLOv13では、学習可能なアプローチを導入しています。

  1. コンテキスト抽出: グローバルアベレージプーリングおよび最大プーリング操作により、フラット化されたマルチスケール特徴マップからコンテキストベクトルを生成します。
  2. 動的プロトタイプ生成: マッピング層が動的オフセットを生成し、これを学習可能なグローバルプロトタイプに追加して、適応的なハイパーエッジプロトタイプを作成します。
  3. 類似度計算: マルチヘッドメカニズムが、複数の部分空間において頂点クエリとハイパーエッジプロトタイプ間の類似度スコアを計算します。
  4. 参加行列: ソフトマックス正規化により、各頂点が各ハイパーエッジに寄与する度合いを示す連続的な参加行列 \(A \in [0, 1]^{N \times M}\) を生成します。

この適応的な構築により、手動でのパラメータ調整なしに、様々なシーンの複雑さに対して堅牢なハイパーエッジ形成を実現しています。

ハイパーグラフ畳み込み

ハイパーエッジが確立されると、システムは情報集約と伝播を実行します。

集約フェーズ: 各ハイパーエッジは、接続された頂点から重み付けされた特徴を収集します。

$$ f_m = W_1 \sum_{i=1}^M A_{i,m} \cdot x_i $$

伝播フェーズ: 強化されたハイパーエッジ特徴が頂点表現を更新するためにフィードバックされます。

$$ x’i = x_i + W_2 \sum_{m=1}^M A_{i,m} \cdot f_m $$

ここで、\(W_1\)と\(W_2\)は学習可能な射影行列であり、モデルが高次相関を通じて特徴表現を洗練することを可能にします。

フルパイプライン集約・分散(FullPAD)

FullPADパラダイムは、HyperACEから得られた相関強化特徴が検出ネットワーク全体に効果的に伝播することを保証します。FullPADは単一の点で強化を適用するのではなく、豊富な意味情報を3つの戦略的な場所に分散させます。

  1. バックボーン-ネックトンネル: 抽出段階と融合段階間の特徴遷移を強化します
  2. インネックトンネル: ネック内のマルチスケール特徴処理を強化します
  3. ネック-ヘッドトンネル: 検出前の最終的な特徴表現を改善します

ゲート付き融合メカニズムは、元の特徴と強化された特徴のバランスを調整します。

$$ \tilde{F}_i = F_i + \gamma H_i $$

ここで、\(\gamma\)は強化された特徴\(H_i\)が元の特徴\(F_i\)に寄与する度合いを制御する学習可能なスカラーです。

深度方向分離畳み込みによる軽量設計

計算効率を維持するため、YOLOv13はDSシリーズブロックで深度方向分離畳み込みを広範囲に採用しています。

  • DSConv: 深度方向畳み込みと点方向畳み込みを組み合わせた基本単位
  • DS-Bottleneck: 残差接続を持つDSConvブロックの連鎖
  • DS-C3k: 複数のDS-Bottleneckブロックを組み込んだCSPライクな構造
  • DS-C3k2: 並列処理パスを備えた高度なバリアント

これらのブロックは、性能を維持しながらパラメータとFLOPsを大幅に削減し、YOLOv13をリソース制約のある環境に適したものにしています。

図3. YOLOv13全体で使用されている軽量DSシリーズブロックのアーキテクチャ

実験結果と性能

YOLOv13は、優れた精度と計算効率を両立させた実験結果を示しています。

精度向上

MS COCOベンチマークにおいて、YOLOv13は既存モデルを大幅に上回る性能を実現しました。YOLOv13-NはYOLO11-Nと比較して3.0%のmAP改善、YOLOv12-Nと比較して1.5%の改善を達成しています。また、YOLOv13-Sもそれぞれ2.2%、0.9%の改善を示しています。

特に注目すべきは、RT-DETRv2-R18との比較結果です。YOLOv13-Sは、パラメータを55.0%削減、FLOPsを65.3%削減しながら、mAP50:95で同等以上の精度(0.1%向上)を達成しており、効率性と精度のバランスに優れています。

図4. YOLOv13と既存のYOLOバージョンの性能比較

計算効率

YOLOv13は全モデルサイズにおいて、パラメータを最大30%削減、GFLOPsを最大28%削減することに成功しています。DSシリーズブロックの導入による効果は顕著で、NanoモデルではFLOPsが1.1G、パラメータが0.6M削減され、SmallモデルではFLOPsが4.2G、パラメータが2.2M削減されました。

リアルタイム性能についても、多様なハードウェア環境で優秀な結果を示しています。Tesla T4 GPUで1.97ms、RTX 4090で1.25msの推論時間を記録し、CPU環境(Intel Xeon)でも約25 FPS(39.97ms)を達成しています。

定性分析

YOLOv13は、複雑なシナリオにおいて優れた検出能力を発揮します。特に、小さく隠れたオブジェクトや文脈に関連するオブジェクト(例:花瓶の後ろの植物、テニスラケット)を正確に識別する能力を示しており、これはHyperACEによる高次相関モデル化能力に起因しています。

図5. YOLOシリーズの実行結果比較

アブレーション研究と分析

各コンポーネントの有効性を検証するアブレーション研究では、以下の結果が得られました。

HyperACEの削除はAPval50:95で0.9%の性能劣化を招き、その有効性が裏付けられました。FullPADについては、3つのトンネル全てに特徴を分散させることで最適な性能を発揮することが確認されています。

ハイパーエッジ数の最適化では、8つが精度と効率のバランスを取る上で最適であることが判明しました。DSブロックは、APval50で0.1%の微小な精度損失(APval50:95では変化なし)で、大幅なパラメータ・FLOPs削減を実現しており、効率性向上への貢献が明確に示されています。

適応型ハイパーエッジの可視化結果は、前景オブジェクト間や背景との高次相互作用を効果的にモデル化していることを示しており、モデルの解釈可能性の向上にも寄与しています。

Pythonによる実践

YOLOv13のコードはGitHubで公開されているため、これを使用します。なお、動作環境はLinuxで、Python 3.11系が必要となります。インストールの前に、venvなどを使用してLinux環境上にPython 3.11の実行環境を構築してください。その後、以下のインストール手順に進んでください

# リポジトリのクローン
$ git clone https://github.com/iMoonLab/yolov13
$ cd yolov13

# YOLOv13 で使用されるバージョンの FlashAttention を事前にダウンロード
# この後の、requirements.txt を使用したパッケージのインストールで利用される。
$ wget https://github.com/Dao-AILab/flash-attention/releases/download/v2.7.3/flash_attn-2.7.3+cu11torch2.2cxx11abiFALSE-cp311-cp311-linux_x86_64.whl

# 依存パッケージのインストール
$ pip install -r requirements.txt

# YOLOv13 本体をインストール
$ pip install -e .

続いて、サンプルコードを実行するために、学習済みモデルをダウンロードします。使用可能な学習済みモデルは以下の通りです。

以下に、モデルの評価を行うためのサンプルコードを示します。

from ultralytics import YOLO

# 学習済みモデルの読み込み
model = YOLO('yolov13n.pt')
# model = YOLO('yolov13s.pt')
# model = YOLO('yolov13l.pt')
# model = YOLO('yolov13x.pt')

# モデルの検証
# 'coco.yaml' は https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/coco.yaml のものを利用します。
# なお、初回実行時は30GB以上のデータのダウンロードとzipファイルの解凍が走るので、動作環境によっては時間がかかります。
model.val(data='coco.yaml', save_json=True)

最後に、モデルの学習に関するサンプルコードを説明します。

from ultralytics import YOLO

# 事前学習済のモデルを利用することもできます。
# 事前学習済のものを利用しない場合は、YAMLファイルを指定します。
# このYAMLファイルは手元になくても、クラス内部で自動的に処理されるので問題ありません。
model = YOLO("yolov13n.yaml")

# 学習
results = model.train(
    data='coco.yaml',
    epochs=600, 
    batch=256, 
    imgsz=640,
    scale=0.5,  # S:0.9; L:0.9; X:0.9
    mosaic=1.0,
    mixup=0.0,  # S:0.05; L:0.15; X:0.2
    copy_paste=0.1,  # S:0.15; L:0.5; X:0.6
    device="0,1,2,3",
)

# モデルの保存
model.export(format="engine", half=True)  # or format="onnx"

# 画像を利用した動作確認
results = model("path/to/your/image.jpg")
results[0].show()
図6. 実行例: YOLOv13-N の出力結果

おわりに

今回紹介したYOLOv13は、リアルタイム物体検出において大きく前進したモデルです。

YOLOv13の革新性は3つの主要技術に集約されます。HyperACEメカニズムにより、従来困難だった小さく隠れたオブジェクトや文脈関連オブジェクトの正確な識別を実現しました。FullPADパラダイムでは、強化された特徴をネットワーク全体に効果的に伝達し、検出性能を大幅に向上させています。そして深度方向分離畳み込みベースの軽量ブロック群により、精度を維持しながらパラメータを最大30%、計算量を最大28%削減することに成功しています。

MS COCOでの実験結果では、従来のYOLOシリーズを一貫して上回り、RT-DETRv2-R18と比較してもパラメータ55%減、計算量65%減で同等以上の精度を達成しました。Tesla T4で1.97ms、RTX 4090で1.25msという優秀な推論速度も実現しています。

YOLOv13は、効率性と精度を両立させた次世代のリアルタイム物体検出器として、様々な実用アプリケーションでの活用が期待されます。

More Information

  • arXiv:2506.17733, Mengqi Lei, Siqi Li, Yihong Wu, Han Hu, You Zhou, Xinhu Zheng, Guiguang Ding, Shaoyi Du, Zongze Wu, Yue Gao, 「YOLOv13: Real-Time Object Detection with Hypergraph-Enhanced Adaptive Visual Perception」, https://arxiv.org/abs/2506.17733