深層学習モデルを用いたEコマース画像説明文の生成

畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)を組み合わせ,EコマースサイトEtsyにおける大量の商品画像に対して説明文を生成するモデルを提案しました.Etsyから得られるデータには,Eコマースサイト特有のノイズが見られますが,本研究ではまずそれらのノイジーなデータから,自然言語処理の技術を用いて,クリーンでモデルの学習に適したデータを抽出した後,商品画像とそのタイトル文をもとに,説明文を生成するモデルの学習を行いました.

 

yashima.png

 

Learning to Describe E-Commerce Images from Noisy Online Data
Asian Conference on Computer Vision (ACCV)
Yashima, T., Okazaki, N., Inui, K., Yamaguchi, K., & Okatani, T.
[pdf]