物体検出のための内容・位置統合特徴の自己教師あり学習
近年、画像から有用な特徴を抽出するための自己教師あり学習(Self-Supervised Learning, SSL)が大きな進展を遂げています。特に、ラベル付きデータを使わずに大量の画像データから特徴を学習し、画像分類やセグメンテーションなど様々な下流タスクで高い性能を達成できるようになりました。
しかし、SSLの初期の手法は画像全体の特徴(グローバル特徴)に焦点を当てており、密な予測(dense prediction)タスク――例えば物体検出(Object Detection, OD)やインスタンスセグメンテーション(Instance Segmentation, IS)――に必要な局所的かつ位置依存的な特徴を十分に学習できないという課題がありました。本研究はこの問題に対処するものであり、ViT(Vision Transformer)をバックボーンとした新たなSSL手法を提案しています。
問題設定と本研究の位置づけ
物体検出やインスタンスセグメンテーションのタスクでは、画像中の個々の物体を認識するために、各パッチやピクセル単位での特徴が重要になります。そしてそれらの特徴は、内容(content)だけでなく、画像中での位置(position)に関する情報を統合したものである必要があります。
既存のSSL手法の多くは、例えばDINOやMAEといった代表的な手法であっても、位置情報の扱いが十分ではなく、クロップされた画像ビューに対してグローバルな位置埋め込みをそのまま適用してしまうため、局所的な位置情報が失われるという問題があります。
本論文では、このような従来手法の制約を克服するために、内容情報と位置情報の“絡み合った”特徴(intertwined content and positional features)を効率よく学習できる自己教師あり事前学習フレームワークを提案しています。
提案手法の構成要素
本手法の核となるのは以下の2つの工夫です。
1. クロップ操作に連動する位置埋め込み
従来手法では、画像のクロップ操作を行っても、位置埋め込み(positional embedding)は元画像に対するものを固定的に使用していました。そのため、クロップされたビューにおいて、画像内のどの位置のパッチであるかという情報が欠落してしまっていました。
これに対し本研究では、位置埋め込みをベクトル場(vector field)として定義し、画像のクロップと同様の操作を位置埋め込みにも適用することで、クロップ後のパッチに正確な位置情報を与えるようにします。さらに、位置スケーリングと平行移動といった拡張操作を導入することで、モデルが絶対座標に依存しすぎるのを防ぎつつ、相対的な位置感覚を保持できるようにしています。

2. 内容と位置の両方に対するマスキングと予測
本手法では、MAEやiBOTのように、マスキングと再構成を行うMasked Image Modeling(MIM)の枠組みを拡張し、内容埋め込み(content embedding)だけでなく位置埋め込み(position embedding)にも独立にマスキングと予測を適用します。
具体的には、ある画像パッチがマスクされた場合、内容情報のみを消去した場合と位置情報のみを消去した場合の両方に対応するように訓練を行います。位置マスクには、従来用いられていた「ボックス型」のマスキングではなく、「クロス型」(十字型)のマスキングが有効であることが実験的に示されており、これにより特徴の学習がより効果的になります。

実験と評価
提案手法は、ImageNet-1Kで事前学習を行った後、COCOデータセットを用いて物体検出とインスタンスセグメンテーションの性能を評価されました。評価にはViT-BとViT-Sの2種類のバックボーンが用いられ、ベースラインとしてDINO、MAE、iBOT、DropPos、LOCAなどの代表的な手法と比較されています。
結果として、提案手法はCOCOベンチマークにおいて他の全ての手法を上回る性能を達成しました。特に、学習エポック数が少ないにもかかわらず、DINOv2と同等以上の性能を示しており、効率的かつ効果的なSSL手法であることが実証されました(例えばViT-Bでは+0.9のAPBox向上)。
また、ADE20Kでのセマンティックセグメンテーションの結果でも、LOCAなどの位置学習特化型手法と同程度の性能を示しています。

考察と可視化分析
注意マップ(attention map)の可視化と解析も行われており、提案手法では他手法に比べて個々の物体インスタンスに対する注意がより明確に集中していることが示されています。これは、提案手法が実際に「インスタンスごとの識別」に寄与する特徴を学習していることの間接的証拠となります。
加えて、マスキング戦略や位置スケーリングに関するアブレーション実験も行われており、各要素がモデル性能に寄与していることが定量的に示されています。

結論と意義
本研究は、物体検出やインスタンスセグメンテーションといった密な予測タスクに特化したSSL手法として、位置情報と内容情報の統合的な学習に取り組んだ点で重要です。従来のContrastive LearningやMasked Image Modelingの枠組みに自然に統合できる形で提案されており、既存のSSLフレームワークとの親和性も高いことが特徴です。
ViTベースのモデルにおいて位置情報をどう扱うかという問題はこれまであまり深く議論されてこなかった領域であり、本研究はその方向性を大きく広げるものと言えるでしょう。
発表論文
Kang-Jun Liu, Masanori Suganuma, Takayuki Okatani, Self-Supervised Learning of Intertwined Content and Positional Features for Object Detection, Proceedings of International Conference on Machine Learning 2025