この論文はCC 4.0ライセンスの下でarxivで公開されています。
著者:
(1)カリフォルニア大学バークレー校のZhihang Renとこれらの著者らは本研究に等しく貢献した(電子メール:peter.zhren@berkeley.edu)。
(2)ジェファーソン・オルテガ、カリフォルニア大学バークレー校およびこれらの著者らは、本研究に等しく貢献した(電子メール:jefferson_ortega@berkeley.edu)。
(3)Yifan Wang、カリフォルニア大学バークレー校およびこれらの著者らは、本研究に等しく貢献した(Eメール:wyf020803@berkeley.edu)。
(4)カリフォルニア大学バークレー校のZhimin Chen氏(Eメール:zhimin@berkeley.edu)
(5)ユンフイ・グオ、テキサス大学ダラス校(Eメール:yunhui.guo@utdallas.edu)
(6)ステラ・X・ユー、カリフォルニア大学バークレー校およびミシガン大学アナーバー校(Eメール:stellayu@umich.edu)
(7)デイビッド・ホイットニー、カリフォルニア大学バークレー校(Eメール:dwhitney@berkeley.edu)。
VEATIC データセットで使用されているすべてのビデオは、オンライン ビデオ共有 Web サイト (YouTube) から選択されました。VEATIC データセットには、124 のビデオ クリップ (ハリウッド映画のクリップ 104 個、ホーム ビデオのクリップ 15 個、ドキュメンタリーまたはリアリティ TV 番組のクリップ 5 個) が含まれています。具体的には、ドキュメンタリー ビデオは、率直な社会的交流を示すが何らかの形式のビデオ編集があるビデオとして分類され、ホーム ビデオは、ビデオ編集なしで率直な社会的交流を示すビデオを指します。データセット内のすべてのビデオのフレーム レートは 25 フレーム/秒で、解像度は最低が 202 x 360、最高が 1920 x 1080 でした。
図2のビデオフレームの概要を除いて、図9にさらに多くのサンプルを示します。さらに、ほとんどのフレームにメインキャラクターが含まれている以前に公開されたデータセット[31、29、32]とは異なり、VEATICには選択されたキャラクターを含むフレームだけでなく、選択されていないキャラクターと純粋な背景を含むフレームも多数あります(図10)。したがって、VEATICは私たちの日常生活のシナリオに似ており、それに基づいてトレーニングされたアルゴリズムは日常的なアプリケーションでより有望になります。
この論文はCC 4.0ライセンスの下でarxivで公開されています。