paint-brush
VEATIC: コンテキストデータセットにおけるビデオベースの感情と感情の追跡: 実験@kinetograph
172 測定値

VEATIC: コンテキストデータセットにおけるビデオベースの感情と感情の追跡: 実験

長すぎる; 読むには

この論文では、研究者らが人間の感情認識のための VEATIC データセットを紹介し、既存のデータセットの制限に対処し、コンテキストベースの推論を可能にします。
featured image - VEATIC: コンテキストデータセットにおけるビデオベースの感情と感情の追跡: 実験
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

この論文はCC 4.0ライセンスの下でarxivで公開されています。

著者:

(1)カリフォルニア大学バークレー校のZhihang Renとこれらの著者らは本研究に等しく貢献した(電子メール:peter.zhren@berkeley.edu)。

(2)ジェファーソン・オルテガ、カリフォルニア大学バークレー校およびこれらの著者らは、本研究に等しく貢献した(電子メール:jefferson_ortega@berkeley.edu)。

(3)Yifan Wang、カリフォルニア大学バークレー校およびこれらの著者らは、本研究に等しく貢献した(Eメール:wyf020803@berkeley.edu)。

(4)カリフォルニア大学バークレー校のZhimin Chen氏(Eメール:zhimin@berkeley.edu)

(5)ユンフイ・グオ、テキサス大学ダラス校(Eメール:yunhui.guo@utdallas.edu)

(6)ステラ・X・ユー、カリフォルニア大学バークレー校およびミシガン大学アナーバー校(Eメール:stellayu@umich.edu)

(7)デイビッド・ホイットニー、カリフォルニア大学バークレー校(Eメール:dwhitney@berkeley.edu)。

リンク一覧

4. 実験

本研究では、コンテキストタスクにおける新しい感情認識、すなわち各ビデオフレームのコンテキスト情報とキャラクター情報の両方から、選択されたキャラクターの感情価と覚醒度を推測することを提案する。ここでは、コンテキストタスクにおける新しい感情認識のベンチマークとして、シンプルなベースラインモデルを提案する。モデルのパイプラインを図8に示す。特徴抽出用の畳み込みニューラルネットワーク(CNN)モジュールと時間情報処理用のビジュアルトランスフォーマーモジュールという2つのシンプルなサブモジュールを採用した。CNNモジュール構造は、Resnet50 [21]から採用した。顔/キャラクターとコンテキストの特徴が別々に抽出され、後でマージされるCAER [33]やEMOTIC [32]とは異なり、完全に情報に基づいたフレームを直接エンコードする。単一の予測では、連続するN個のビデオフレームが個別にエンコードされる。次に、連続するフレームの特徴ベクトルが最初に位置埋め込まれ、Lセットのアテンションモジュールを含むトランスフォーマーエンコーダーに送られる。最後に、覚醒度と感情価の予測は、多層パーセプトロン(MLP)ヘッドによって行われる。


図 8. コンテキスト タスクにおける感情と情動の追跡のためのベンチマーク モデルのアーキテクチャ。このモデルは、CNN 特徴抽出モジュールと、連続するフレームの時間情報を組み合わせるビジュアル トランスフォーマーで構成されています。

4.1. 損失関数とトレーニングの設定

ベースラインモデルの損失関数は、2 つの別々の損失の重み付けされた組み合わせです。MSE 損失は、評価のグラウンド トゥルースとモデル予測のローカル アラインメントを正規化します。感情評価の時間統計を学習するなど、より大規模な評価と予測のアラインメントを保証するために、一致相関係数 (CCC) も正規化として利用します。この係数は次のように定義されます。


4.2. 評価指標


SAGR は、2 つのベクトル X と Y の個々の値の符号がどの程度一致しているかを測定します。[0, 1] の範囲の値を取り、1 は完全な一致、0 は完全な矛盾を表します。SAGR メトリックは、他のメトリックよりも多くのパフォーマンス情報を取得できます。たとえば、0.2 の価数のグラウンド トゥルースが与えられた場合、0.7 と -0.3 の予測は同じ RMSE 値になります。しかし、明らかに 0.7 は正の価数であるため、より適しています。


表 3. 完全な情報、文字のみ、コンテキストのみの条件での提案モデルのパフォーマンス。文字とコンテキストの両方の情報による推論では、モデルは最高のパフォーマンスを発揮します。感情と感情の追跡タスクでは、コンテキストと文字の両方の情報が重要であることがわかります。


表 4. EMOTIC および CARE-S の事前トレーニング済みモデルと、データセット上で微調整された提案手法の比較。当社のシンプルなモデルは競争力のある結果を達成しており、VEATIC の一般化可能性を示しています。

4.3. ベンチマーク結果

前述の 4 つの指標、CCC、PCC、RMSE、SAGR を使用して、コンテキストタスクにおける新しい感情認識をベンチマークしました。結果を表 3 に示します。他のデータセットと比較すると、私たちが提案するシンプルな方法は、それらのデータセットにおける最先端の方法と同等です。


また、コンテキストのみのフレームと文字のみのフレームを、十分な情報を備えたフレームの事前トレーニング済みモデルに入力することで、感情認識タスクにおけるコンテキストと文字の情報の重要性も調査します。公平な比較を行い、フレームのピクセル分布の違いの影響を排除するために、コンテキストのみのフレームと文字のみのフレームで事前トレーニング済みモデルを微調整します。対応する結果も表 3 に示されています。完全な情報がない場合、コンテキストのみの条件と文字のみの条件の両方でモデルのパフォーマンスが低下します。


VEATICデータセットの有効性を示すために、VEATICで事前学習したモデルを利用し、他のデータセットで微調整して、そのパフォーマンスをテストしました。モデルの単純さと、他のデータセット論文で提案されたモデルとの類似性を考慮して、EMOTIC [32]とCAER-S [33]のみをテストしました。結果を表4に示します。事前学習したモデルは、EMOTIC [32]およびCAERS [33]で提案された方法と同等のパフォーマンスを発揮します。したがって、提案されたVEATICデータセットの有効性が示されています。



この論文はCC 4.0ライセンスの下でarxivで公開されています