研究内容

画像復元

画像復元とは,ブレやノイズを含む画像をもとの綺麗な画像に復元する技術のことです。ディープラーニングを用いて,より綺麗に画像を復元するためのニューラルネットワークのモデル設計や学習方法について研究をしています。

 

image-restoration.png

 

続きを読む


 


自然言語と画像理解(Vision and Language)

画像理解のために,自然言語を用いた方法論についても幅広く研究しています.例えば,画像と質問文をニューラルネットワークに与えると,質問に対する適切な答えを返答するタスクであるVisual Question Answering (VQA)や画像付き対話(visual dialog)などについて研究しています.

VQA.png

続きを読む



物体の一部が遮蔽されるなど不完全性を持つ画像の認識は,これまでコンピュータビジョンおよびパターン認識において広く研究されており,今もなお困難な問題の一つです.畳み込みニューラルネットワーク(CNN)は,「完全な」画像を入力とする場合,物体認識等で人を上回るほどの高性能を実現しますが,不完全性を持つ画像に対しては著しくその性能を悪化させることが最近の研究で分かっています.私たちは,CNN内部で学習される情報表現のロバスト性を向上させることを目的として,新たなエッセンスを加えたCNNの構築に取り組んでいます.

sun_abstFig.png

続きを読む



ウェブ上にアップロードされた大量の画像やテキストから,どのようにそれらの視覚的な属性を取り出せるか?本研究では,畳み込みニューラルネットワークを用いて,ウェブ上の画像ーテキストのセットから視覚属性を自動的に発見するアプローチを提案しています.

sirion16.png

続きを読む



画像1枚からそこに写る物の質感を認識(推定)する方法を研究しています.

質感とは,ある物体の表面の状態について人が感じ取る様々な感覚,たとえばざらつき,光沢感,凹凸感など,を表します.ある物体の質感は個々の属性 (あるいは尺度)で表現でき,このような属性が複数,有機的に組み合わさって,人の脳内で「質感」という包括的な概念が形成されていると考えられます.

本研究では,このような個々の質感属性の尺度を,物体の画像1枚から推定することを,画像認識の方法論で実現します.

sitsukan_6.png

続きを読む



畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)を組み合わせ,EコマースサイトEtsyにおける大量の商品画像に対して説明文を生成するモデルを提案しました.Etsyから得られるデータには,Eコマースサイト特有のノイズが見られますが,本研究ではまずそれらのノイジーなデータから,自然言語処理の技術を用いて,クリーンでモデルの学習に適したデータを抽出した後,商品画像とそのタイトル文をもとに,説明文を生成するモデルの学習を行いました.(東北大学 乾・岡崎研究室との共同研究)

yashima.png

 

 

 

 

 

 

 

 

 

 

 

 

続きを読む



画像に写った物体同士の関係を,言語を用いてどのように表現できるか?近年の深層学習モデルは画像中の個々の物体の認識に関して優れた精度を達成していますが,本研究ではそれら物体同士の関係性に着目し,言語によって表現する手法を提案しています.(東北大学 乾・岡崎研究室との共同研究) 

muraoka_paclic16.png

続きを読む



畳み込みニューラルネットワーク(CNN)などの深層学習モデルは,神経科学における脳についての知見からヒントを得ています.近年,ヒトやサルなど霊長類の視覚野で計測された脳活動とCNNの内部表現との類似性が研究されています.脳活動に隠された情報表現に対する理解を深め,より脳に近い深層学習モデルの確立を目的として,我々は下記の研究に取り組んでいます (新潟大学 生理学第一教室との共同研究):

  1. 霊長類の視覚野で計測された脳波の時空間特性とCNNの内部表現の関係性
  2. 脳活動から様々な視覚情報を解読するための深層学習モデル

続きを読む



畳み込みニューラルネットワーク(CNN)は様々な画像認識タスクにおいて圧倒的な精度を達成しており,その最大の要因の一つは,CNNの内部で学習される優れた情報表現にあるのではないかと考えられます.しかし,なぜCNNがそれほど高い精度を達成するのか,学習の過程でどのように優れた情報表現を獲得するのかは明らかではありません.本研究ではカテゴリ識別用に学習されたCNNの内部表現を,カテゴリーレベルの属性から解釈するための分析を行いました.

accvozeki1.png

続きを読む



当研究室ではマルコフ確率場と呼ばれる,コンピュータビジョンや画像処理の問題を解く際に使われる確率モデルの最適化手法について,理論的な立場から研究を行なっています.

マルコフ確率場はコンピュータビジョンだけでなく音声認識や自然言語処理にも使われる,機械学習や最適化問題を解く際に最も多く使われる確率モデルの一つです.その応用範囲は幅広く,例として画像復元,超解像,ノイズ除去,物体の3次元復元,物体認識などが挙げられます.そのため,当研究室ではコンピュータビジョンの可能性を広げる目的として,このマルコフ確率場の最適化手法について,主に2つの方向から研究を行なっています.

MRF_optimization.jpg



本研究室では2011年3月11日に起こった東日本大震災の直後から,東日本沿岸部の被災地の映像を,車載カメラを用いて定期的に記録しています.単なる被害状況の記録だけでなく,様々なコンピュータビジョン技術を駆使することで,年月ごとに街がどのように復興しているかを可視化する手法をに提案しています.

続きを読む





プロジェクタとカメラを組み合わせることで様々な映像メディアシステムを実現する研究をしています.下のビデオは,プロジェクタを複数使って1枚の高解像度画像表示を行えるシステムを,簡単にキャリブレーションする方法のデモです.キャリブレーションに必要な作業は,手でもったカメラで1枚画像を撮影するだけです.

続きを読む



物体の3次元形状を計測するための2つの方法を融合して,計測を高精度化する方法を開発しました.

続きを読む



vehicle_stereocam.jpg

近年,自動車にステレオカメラを搭載し,色々なドライバー支援を行うシステムが実用化されています.このような車載ステレオカメラシステムを対象に した自己校正の方法を研究しています.ステレオカメラの校正とは,車両に取り付けられたカメラの姿勢やその光学系のパラメータを正確に知ることを言いま す.通常,システムの工場出荷前に作業を行い,この校正を行なっておくのが一般的ですが,経年変化その他の理由で,出荷後にも校正をやり直す必要が生じる 場合があります.自己校正とは,そのような場合に,自動車が走行中,カメラが撮影した映像だけを使って自動的に校正を行うことを言います.校正のための面 倒な作業が一切なしに,いつも正確なパラメータを知ることができる.そんな方法です.

続きを読む



空間を運動する平面をカメラで捉え,画像上でその位置と姿勢を高速かつ高精度に追跡する方法を実現しました.追跡対象の平面が傾いたり,遠ざかったりした 場合に,従来方法よりも高い精度でこれを追跡できます.以下ビデオで,上の2つが従来の方法,左下がわれわれの方法です

続きを読む



人がディスプレイ上のどこを見ているかを,カメラで眼球運動を計測することで推定し,表示映像にフィードバックする仕組みにより,臨場感や奥行き感を強化するディスプレイシステムを研究しています.眼鏡式の立体ディスプレイを使い,さらに両眼の計測を行うことで,人がどの奥行きを見ようとしているかを推定し,その奥行きに応じたボケを映像上で再現します.



市街地を車載カメラで走行しながら撮影した映像を元に,様々な情報を取得した後,これをユーザに提示する方法について研究しています.街の通り全体のパノラマ画像を生成する方法や,スマートフォンを使った拡張現実(AR)による映像提示,Google Earthを使った地図情報との連動表示などを研究開発しています.

以下は,被災地の現場で,過去の街並をスマートフォンを窓のようにしてみることのできる拡張現実システムのデモビデオです.

続きを読む