何を“検出すべきか”は誰が決めるのか:OSOD研究の課題と新たな問題設定
近年、物体検出技術の進展により、画像中に存在する対象物(オブジェクト)を高精度に検出・分類することが可能になってきた。しかし、現実世界のアプリケーションでは、学習時に見たことのない未知クラスの物体に遭遇することが多く、そのような「未知の存在」にどう対応するかが新たな研究課題として浮上している。このような背景から、「Open-Set Object Detection(OSOD)」というタスクが注目されている。OSODとは、既知(known)の物体を検出するだけでなく、未知(unknown)の物体も適切に処理する(たとえば、「未知」として検出する)ことを目指すものである。
OSODは一見、分類タスクにおけるOpen-Set Recognition(OSR)と類似しているが、検出という性質上、「何を検出するのか」という前提が不可欠である点で本質的に異なる。つまり、「未知の物体を検出せよ」と言われたとき、そもそも何が「物体」であり、何が検出対象なのかが定まっていなければ、学習も評価もままならない。この論文では、まさにこの点に着目し、既存のOSOD研究が抱える根本的な問題を指摘したうえで、新たな問題設定(OSOD-III)を提案している。

既存の問題設定:OSOD-IとOSOD-II
本論文では、これまでのOSOD研究を2つの問題設定に分類している。1つ目はOSOD-Iと呼ばれる設定で、これは既知の物体のみを正確に検出することを目的とするものである。未知の物体が画像中に混入していても、それに惑わされず既知の物体のみを検出できればよい、というスタンスである。したがって、未知の物体は「検出すべきでない」ノイズとして扱われる。
2つ目はOSOD-IIと呼ばれるもので、未知の物体も検出対象に含め、これを「未知」として識別することを求める。これは分類タスクにおけるOSRの考え方を検出タスクに拡張したものだが、検出タスク特有の困難を孕んでいる。最大の問題は、「未知の物体」とは何か、を定義できない点にある。既知以外はすべて未知、と定義したくても、「検出対象ではない背景」や「意味のない領域」などとの区別がつかなくなる。たとえば、車のタイヤは「車」とは別の物体として検出すべきなのか? そうした曖昧さがOSOD-IIの評価やモデル設計を難しくしている。
加えて、既存研究で多く使われている評価指標、たとえばA-OSE(Absolute Open-Set Error)やWI(Wilderness Impact)は、あくまで「既知をどれだけ誤って未知としたか/その逆か」といった誤分類の一側面しか測定しておらず、検出全体の性能を十分に表すものではないことも問題視されている。
新たな提案:OSOD-IIIという現実的な設定
こうした背景のもと、本論文では新たに「OSOD-III」という問題設定を提案している。OSOD-IIIでは、検出対象となる物体の大枠(スーパークラス)があらかじめ定められており、その範囲内で既知/未知を区別する。たとえば、「交通標識」というスーパークラスがあれば、その中で既知の標識はクラス名で分類し、未知の標識は「未知」として検出する。一方で、「交通標識以外」の物体、たとえば電柱や自動車はそもそも検出対象外となる。
このように、スーパークラスの存在によって「検出すべき範囲」が限定されることで、「何が物体か」という曖昧さが大きく軽減される。加えて、未知クラスと既知クラスが視覚的に似通っている(たとえば同じ鳥類や標識群に属する)ため、検出モデルが学習しやすく、また評価も平均適合率(AP)で一貫して行える。つまり、OSOD-IIIは、OSOD-IIの理想を現実的な形で再定式化したものといえる。

実験設定と評価
著者らは、OSOD-IIIの有効性を検証するために、3つの既存データセットを用いてベンチマーク実験を行った。具体的には、Open Images(多様な物体を含む大規模データセット)、CUB200(細分類された鳥類画像データセット)、MTSD(交通標識データセット)を対象とし、それぞれにおいてスーパークラス(例:動物、交通標識)を定め、そこから既知/未知クラスに分割した。
検証には、従来OSOD-II向けに開発された5つの手法(ORE, Dropout Sampling, VOS, OpenDet, OrthogonalDet)に加え、著者が構築した単純なベースライン(標準的な検出器にスコアの不確実性指標を追加したもの)を用いた。評価指標には、既知と未知それぞれのAPを採用し、従来のような誤分類数ではなく検出性能全体を測った。
その結果、以下の知見が得られた。第一に、従来手法の多くは、A-OSEやWIといった従来指標では高評価であっても、未知物体のAPで見るとベースラインと同程度かそれ以下の性能しか示さなかった。第二に、単純なベースラインでも、視覚的に近い既知/未知クラスの区別はある程度可能であり、追加学習なしでも有意な性能を発揮できることが分かった。第三に、依然として未知物体の誤検出(特に既知と未知の混同)が多く、OSOD-IIIにおいてもさらなる性能向上が必要であることが明らかになった。

意義と展望
本論文の最大の貢献は、これまで漠然と扱われてきた「未知物体検出」という課題に対し、「検出対象とは何か」という根本的な問いを立て直し、それに答えるかたちで新たな問題設定(OSOD-III)を提案した点にある。OSOD-IIの理想主義的な設定では、学習も評価も曖昧さに悩まされていたが、OSOD-IIIではスーパークラスという枠を導入することで、現実的かつ意味のある研究対象に再構築している。
さらに、この問題設定は現実世界のアプリケーションに即している。たとえば、自動運転車が走行中に見たことのない標識に遭遇したとき、それを「未知」として運転者に伝える機能や、インクリメンタル学習に活用するフレームワークは、OSOD-IIIの枠組みと一致する。また、生物観察アプリにおける未登録の昆虫の検出など、他分野への応用も期待できる。
今後の課題としては、既知と未知の境界をより明確にモデル化する手法、視覚特徴空間におけるクラスタリングの解釈性、評価指標のさらなる改良などが挙げられる。本研究は、OSOD研究をより実用的かつ理論的に整合性のある方向へ導く礎となるものであり、今後の研究に対して大きな示唆を与えるだろう。
発表論文
Hosoya, Yusuke, Masanori Suganuma, and Takayuki Okatani. “Rethinking Open-Set Object Detection: Issues, A New Formulation, and Taxonomy.” International Journal of Computer Vision (2025): 1-25.
@article{hosoya2025rethinking,
title={Rethinking Open-Set Object Detection: Issues, A New Formulation, and Taxonomy},
author={Hosoya, Yusuke and Suganuma, Masanori and Okatani, Takayuki},
journal={International Journal of Computer Vision},
pages={1--25},
year={2025},
publisher={Springer}
}