paint-brush
VEATIC: 親しみやすさと楽しさの評価と参考文献@kinetograph
221 測定値

VEATIC: 親しみやすさと楽しさの評価と参考文献

長すぎる; 読むには

この論文では、研究者らが人間の感情認識のための VEATIC データセットを紹介し、既存のデータセットの制限に対処し、コンテキストベースの推論を可能にします。
featured image - VEATIC: 親しみやすさと楽しさの評価と参考文献
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

この論文はCC 4.0ライセンスの下でarxivで公開されています。

著者:

(1)カリフォルニア大学バークレー校のZhihang Renとこれらの著者らは本研究に等しく貢献した(電子メール:peter.zhren@berkeley.edu)。

(2)ジェファーソン・オルテガ、カリフォルニア大学バークレー校およびこれらの著者らは、本研究に等しく貢献した(電子メール:jefferson_ortega@berkeley.edu)。

(3)Yifan Wang、カリフォルニア大学バークレー校およびこれらの著者らは、本研究に等しく貢献した(Eメール:wyf020803@berkeley.edu)。

(4)カリフォルニア大学バークレー校のZhimin Chen氏(Eメール:zhimin@berkeley.edu)

(5)ユンフイ・グオ、テキサス大学ダラス校(Eメール:yunhui.guo@utdallas.edu)

(6)ステラ・X・ユー、カリフォルニア大学バークレー校およびミシガン大学アナーバー校(Eメール:stellayu@umich.edu)

(7)デイビッド・ホイットニー、カリフォルニア大学バークレー校(Eメール:dwhitney@berkeley.edu)。

リンク一覧

11. 親しみやすさと楽しさの評価

図 13 に示すように、参加者間で各ビデオの親しみやすさと楽しさの評価が収集されました。ビデオ ID 0 ~ 83 の親しみやすさと楽しさの評価は、それぞれ 1 ~ 5 と 1 ~ 9 のスケールで収集されました。ビデオ ID 83 ~ 123 の親しみやすさと楽しさの評価は、VEATIC データセットの計画前に収集されたもので、異なるスケールで収集されました。ビデオ ID 83 ~ 97 の親しみやすさと楽しさの評価は 0 ~ 5 のスケールで収集され、ビデオ ID 98 ~ 123 の親しみやすさ/楽しさの評価は収集されませんでした。分析と視覚化の目的で、ビデオ ID 83 ~ 97 の親しみやすさと楽しさの評価を、ビデオ ID 0 ~ 83 に合わせてそれぞれ 1 ~ 5 と 1 ~ 9 に再スケールしました。親密度値を 0 ~ 5 から 1 ~ 5 に再スケールするために、線形変換を実行し、最初にデータを 0 ~ 1 の間で正規化し、次に値に 4 を掛けて 1 を加えました。同様に、楽しさ値を 0 ~ 5 から 1 ~ 9 に再スケールするために、最初にデータを 0 ~ 1 の間で正規化し、次に値に 8 を掛けて 1 を加えました。その結果、ビデオ ID 0 ~ 97 の平均親密度評価は 1.61 で、平均楽しさ評価は 4.98 でした。


図 11. VEATIC で同じビデオに異なる評価が付けられた例。(a) 選択された 2 人のキャラクター。(b) 対応するキャラクターの連続的な感情評価。同じ色は同じキャラクターを示します。優れた感情認識アルゴリズムは、キャラクター間のやり取りとまったく同じコンテキスト情報に基づいて、2 人のキャラクターの感情をそれぞれ推測する必要があります。

参考文献

[1] Anurag Arnab、Mostafa Dehghani、Georg Heigold、Chen Sun、Mario Luciˇ c、およびCordelia Schmid。Vivit:ビデオビジョントランスフォーマー。IEEE / CVF国際コンピュータービジョン会議の議事録、6836〜6846ページ、2021年。


図 12。a) 5 人の注釈者の応答標準偏差とすべての注釈者の応答標準偏差。少数の注釈者をテストすると、注釈の精度が大幅に低下する可能性があります。この研究のように注釈者の数を増やすと、精度が大幅に向上します。b) 各ビデオの注釈者の応答標準偏差。赤と青の実線は、それぞれ各ビデオの注釈者の反応の価と覚醒の標準偏差を示しています。結果は、視覚化のために各ビデオの標準偏差に基づいて並べ替えられています。破線は、各次元の標準偏差の中央値を示しています。価と覚醒の標準偏差の平均値は同じで、µ = 0.248 です。


図 13. すべてのビデオの親しみやすさと楽しさの評価。各バーは、ビデオに注釈を付けたすべての参加者が報告した親しみやすさまたは楽しさの評価の平均を表します。すべてのビデオの平均評価は、両方の図で水平の破線で示されています。ビデオ ID は x 軸に表示されます。


[2] ヒレル・アヴィエゼル、シュロモ・ベンティン、ヴェロニカ・ドゥダレフ、ラン・R・ハッシン「感情的顔文脈統合の自動性」感情、11(6):1406、2011年。


[3] サイモン・バロン・コーエン、サリー・ホイールライト、ジャクリーン・ヒル、ヨギーニ・ラステ、イアン・プランブ。「目で心を読む」テスト改訂版:健常成人とアスペルガー症候群または高機能自閉症の成人を対象とした研究。児童心理学および精神医学および関連分野ジャーナル、42(2):241–251、2001年。


[4] リサ・フェルドマン・バレットとエリザベス・A・ケンジンガー「感情知覚中に文脈は常に符号化される」心理科学、21(4):595–599、2010年。


[5] Pablo Barros、Nikhil Churamani、Egor Lakomkin、Henrique Siqueira、Alexander Sutherland、Stefan Wermter。omg感情行動データセット。2018 International Joint Conference on Neural Networks (IJCNN)、1~7ページ。IEEE、2018。


[6] マーガレット・M・ブラッドリー、ピーター・J・ラング。英語の単語に対する感情規範(ANEW):指導マニュアルと感情評価。技術報告書、技術報告書C-1、精神生理学研究センター、1999年。


[7] Marta Calbi、Francesca Siri、Katrin Heimann、Daniel Barratt、Vittorio Gallese、Anna Kolesnikov、Maria Alessandra Umilta。文脈が表情の解釈に与える影響:「クルショフ効果」に関する高密度脳波による音源定位研究。Scientific reports、9(1):1–16、2019年。


[8] ジミン・チェンとデイビッド・ホイットニー。見えない人物の感情状態の追跡。米国科学アカデミー紀要、116(15):7559–7564、2019年。


[9] 陳志民、デイビッド・ホイットニー。推論的感情追跡により、文脈に基づく感情知覚の驚くべき速度が明らかになる。認知、208:104549、2021年。


[10] 陳志民とデビッド・ホイットニー。推論的感情追跡(iet)は感情認識における文脈の重要な役割を明らかにする。感情、22(6):1185、2022年。


[11] Kyunghyun Cho、Bart Merrienboer、Caglar Gulcehre、Fethi Bougares、Holger Schwenk、Yoshua Bengio。統計的機械翻訳のためのRNNエンコーダー・デコーダーを使用したフレーズ表現の学習。EMNLP、2014年。


[12] ジュール・ダビドフ「視覚知覚の違い:個人の目」エルゼビア、2012年。[13] アビナフ・ダール、ローランド・ゲッケ、サイモン・ルーシー、トム・ゲデオン、他「映画から大規模で豊富な注釈付きの表情データベースを収集する」IEEEマルチメディア、19(3):34、2012年。


[14] Alexey Dosovitskiy、Lucas Beyer、Alexander Kolesnikov、Dirk Weissenborn、Xiaohua Zhai、Thomas Unterthiner、Mostafa Dehghani、Matthias Minderer、Georg Heigold、Sylvain Gelly、et al。「1つの画像は16x16ワードの価値がある:大規模な画像認識のためのトランスフォーマー」arXivプレプリントarXiv:2010.11929、2020年。


[15] エレン・ダグラス・コーウィー、ロディ・コーウィー、ケイト・コックス、ノアム・アミール、ダーク・ヘイレン。「敏感な人工リスナー:感情に訴える会話を生み出す誘導技術」感情と情動に関する研究のためのコーパスに関するLRECワークショップ、1~4ページ。ELRAパリ、2008年。


[16] ポール・エクマン「基本的感情についての議論」認知と感情、6(3-4):169–200、1992年。


[17] ポール・エクマン、ウォレス・V・フリーゼン「顔面動作コーディングシステム」環境心理学と非言語行動、1978年。


[18] Zhiyun Gao、Wentao Zhao、Sha Liu、Zhifen Liu、Chengxiang Yang、Yong Xu。統合失調症における顔の感情認識。精神医学のフロンティア、12:633717、2021年。


[19] Rohit Girdhar、Joao Carreira、Carl Doersch、Andrew Zisserman。ビデオアクショントランスフォーマーネットワーク。IEEE / CVFコンピュータービジョンとパターン認識会議の議事録、244〜253ページ、2019年。


[20] Kaiming He、Xiangyu Zhang、Shaoqing Ren、Jian Sun。整流器の深層を探求する:イメージネット分類における人間レベルのパフォーマンスを超える。IEEE国際コンピュータビジョン会議の議事録、1026-1034ページ、2015年。


[21] Kaiming He、Xiangyu Zhang、Shaoqing Ren、Jian Sun。画像認識のための深層残差学習。IEEEコンピュータビジョンおよびパターン認識会議の議事録、770-778ページ、2016年。


[22] Will E HipsonとSaif M Mohammad。映画のセリフにおける感情のダイナミクス。PloS one、16(9):e0256153、2021年。[23] Sepp HochreiterとJurgen Schmidhuber。長期短期記憶。Neural computing、9(8):1735–1780、1997年。


[24] ジョン・J・ホップフィールド「集団的計算能力の出現を伴うニューラルネットワークと物理システム」米国科学アカデミー紀要、79(8):2554–2558、1982年。


[25] Zhao Kaili、Wen-Sheng Chu、Honggang Zhang。顔の動作単位検出のための深層領域とマルチラベル学習。IEEE Computer Vision and Pattern Recognition Conference Proceedings、3391-3399ページ、2016年。


[26] メアリー・ケイヤル、シェリー・ワイデン、ジェームズ・A・ラッセル。文脈は私たちが考えるよりも強力です。文脈の手がかりは、感情価においても顔の手がかりよりも優先されます。感情、15(3):287、2015年。


[27] Diederik P KingmaとJimmy Ba. Adam:確率的最適化のための方法。arXivプレプリントarXiv:1412.6980、2014年。


[28] Sander Koelstra、Christian Muhl、Mohammad Soleymani、Jong-Seok Lee、Ashkan Yazdani、Touradj Ebrahimi、Thierry Pun、Anton Nijholt、Ioannis Patras。Deap:生理信号を使用した感情分析用データベース。IEEE Transactions on Affective Computing、3(1):18–31、2011。


[29] ディミトリオス・コリアスとステファノス・ザフェイリオウAff-wild2: 感情認識のために aff-wild データベースを拡張します。 arXivプレプリントarXiv:1811.07770、2018年。


[30] ディミトリオス・コリアスとステファノス・ザフェイリオウ。表現、感情、行動単位の認識:Aff-wild2、マルチタスク学習、arcface。arXivプレプリントarXiv:1910.04855、2019年。


[31] Jean Kossaifi、Georgios Tzimiropoulos、Sinisa Todorovic、Maja Pantic。野生での感情価と覚醒度の推定のためのAfew-vaデータベース。Image and Vision Computing、65:23–36、2017年。


[32] Ronak Kosti、Jose M Alvarez、Adria Recasens、Agata Lapedriza。感情データセットを使用したコンテキストベースの感情認識。IEEEパターン分析および機械知能トランザクション、42(11):2755–2766、2019。


[33] Jiyoung Lee、Seungryong Kim、Sunok Kim、Jungin Park、Kwanghoon Sohn。コンテキスト認識感情認識ネットワーク。IEEE/CVF国際コンピュータビジョン会議論文集、10143-10152ページ、2019年。


[34] Tae-Ho Lee、June-Seek Choi、Yang Seok Cho。顔の感情知覚の文脈変調は個人差によって異なる。PLOS one、7(3):e32987、2012。


[35] Yong Li、Jiabei Zeng、Shiguang Shan、Xilin Chen。顔の動作単位検出のためのビデオからの自己教師あり表現学習。IEEE / CVFコンピュータービジョンとパターン認識会議の議事録、10924〜10933ページ、2019年。


[36] Ze Liu、Jia Ning、Yue Cao、Yixuan Wei、Zheng Zhang、Stephen Lin、Han Hu。ビデオスウィントランスフォーマー。IEEE / CVFコンピュータービジョンとパターン認識会議の議事録、3202〜3211ページ、2022年。


[37] Cheng Luo、Siyang Song、Weicheng Xie、Linlin Shen、Hatice Gunes。顔の動作単位認識のための多次元エッジ特徴ベースau関係グラフの学習。第31回国際人工知能合同会議論文集、IJCAI-22、1239-1246ページ、2022年。


[38] Daniel McDuff、Rana Kaliouby、Thibaud Senechal、May Amr、Jeffrey Cohn、Rosalind Picard。Affectiva-mit表情データセット(am-fed):自然で自発的な表情を収集。IEEEコンピュータービジョンおよびパターン認識ワークショップ会議の議事録、881-888ページ、2013年。


[39] ゲイリー・マッケオン、ミシェル・ヴァルスター、ロディ・コウィー、マヤ・パンティック、マーク・シュローダー。セメインデータベース:人間と限定エージェント間の感情的な会話の注釈付きマルチモーダル記録。IEEE Transactions on Affective Computing、3(1):5–17、2011年。


[40] Trisha Mittal、Pooja Guhan、Uttaran Bhattacharya、Rohan Chandra、Aniket Bera、Dinesh Manocha。「絵文字:フレーゲの原理を用いたコンテキスト認識型マルチモーダル感情認識」IEEE/CVFコンピュータービジョンおよびパターン認識会議論文集、14234~14243ページ、2020年。


[41] MA Nasri、Mohamed Amine Hmani、Aymen Mtibaa、Dijana Petrovska-Delacretaz、M Ben Slima、A Ben Hamida。畳み込みニューラルネットワークに基づく静止画像からの顔感情認識。2020年第5回信号および画像処理の先端技術に関する国際会議(ATSIP)、1~6ページ。IEEE、2020年。


[42] Erik C Nook、Kristen A Lindquist、Jamil Zaki。感情認識の新たな視点:概念が顔の感情認識をスピードアップし形作る。感情、15(5):569、2015年。


[43] Desmond C Ong、Zhengxuan Wu、Zhi-Xuan Tan、Marianne Reddan、Isabella Kahhale、Alison Mattek、Jamil Zaki。複雑な物語における感情のモデリング:スタンフォード感情物語データセット。IEEE Transactions on Affective Computing、12(3):579–594、2019年。


[44] デズモンド・C・オン、ジャミル・ザキ、ノア・D・グッドマン。心の理論における感情推論の計算モデル:レビューとロードマップ。認知科学のトピックス、11(2):338–357、2019年。


[45] Timea R Partos、Simon J Cropper、David Rawlings。「あなたが見ているものは、私が見ているものとは違う:視覚刺激からの意味の知覚における個人差」PloS one、11(3):e0150615、2016年。


[46] Soujanya Poria、Devamanyu Hazarika、Navonil Majumder、Gautam Naik、Erik Cambria、Rada Mihalcea。Meld:会話における感情認識のためのマルチモーダルマルチパーティデータセット。arXivプレプリントarXiv:1810.02508、2018年。


[47] ジョナサン・ポズナー、ジェームズ・A・ラッセル、ブラッドリー・S・ピーターソン。感情の円環モデル:感情神経科学、認知発達、精神病理学への統合的アプローチ。発達と精神病理学、17(3):715–734、2005年。


[48] Zhihang Ren、Xinyu Li、Dana Pietralla、Mauro Manassi、David Whitney。皮膚科学的判断における連続依存性。診断、13(10):1775、2023。


[49] Fabien Ringeval、Andreas Sonderegger、Juergen Sauer、Denis Lalanne。遠隔協調および感情的インタラクションのRecolaマルチモーダルコーパスの紹介。2013年第10回IEEE国際会議およびワークショップ自動顔・ジェスチャー認識(FG)について、1~8ページ。IEEE、2013年。


[50] David E Rumelhart、Geoffrey E Hinton、Ronald J Williams、他「エラー伝播による内部表現の学習」1985年。


[51] Olga Russakovsky、Jia Deng、Hao Su、Jonathan Krause、Sanjeev Satheesh、Sean Ma、Zhiheng Huang、Andrej Karpathy、Aditya Khosla、Michael Bernstein、他「Imagenet大規模視覚認識チャレンジ」国際コンピュータビジョンジャーナル、115:211–252、2015年。


[52] ジェームズ・A・ラッセル。感情の円環モデル。人格と社会心理学ジャーナル、39(6):1161、1980年。


[53] ジェームズ・A・ラッセル「次元的文脈的視点」表情の心理学、295ページ、1997年。


[54] Andrey V Savchenko。軽量ニューラルネットワークのマルチタスク学習に基づく顔の表情と属性の認識。2021 IEEE第19回国際知能システム情報シンポジウム(SISY)、119~124ページ。IEEE、2021年。


[55] Andrey V Savchenko、Lyudmila V Savchenko、Ilya Makarov。単一の表情認識ニューラルネットワークに基づくオンライン学習における感情と関与の分類。IEEE Transactions on Affective Computing、13(4):2132–2143、2022年。


[56] Zhiwen Shao、Zhilei Liu、Jianfei Cai、Lizhuang Ma。顔の動作単位の共同検出と顔の位置合わせのためのディープアダプティブアテンション。ヨーロッパコンピュータビジョン会議(ECCV)の議事録、705-720ページ、2018年。


[57] Jiahui She、Yibo Hu、Hailin Shi、Jun Wang、Qiu Shen、Tao Mei。「曖昧さへのダイブ:顔の表情認識のための潜在分布マイニングとペアワイズ不確実性推定」IEEE/CVFコンピュータービジョンおよびパターン認識会議の議事録、6248-6257ページ、2021年。


[58] イアン・スネドン、マーガレット・マクロリー、ゲイリー・マッキーオン、ジェニファー・ハンラティ。ベルファスト誘発自然感情データベース。IEEE Transactions on Affective Computing、3(1):32–41、2011年。


[59] Mohammad Soleymani、Jeroen Lichtenauer、Thierry Pun、Maja Pantic。感情認識と暗黙のタグ付けのためのマルチモーダルデータベース。IEEE Transactions on Affective Computing、3(1):42–55、2011。


[60] Paweł Tarnowski、Marcin Kołodziej、Andrzej Majkowski、およびRemigiusz J Rak。顔の表情を使った感情認識。プロセディアコンピュータサイエンス、108:1175–1184、2017年。


[61] YI Tian、Takeo Kanade、Jeffrey F Cohn。表情分析のための動作単位の認識。IEEE Transactions on Pattern Analysis and Machine Intelligence、23(2):97–115、2001。


[62] Vedat Tumen、¨ Omer Faruk S¨ oylemez、およびBurhan Ergen。¨畳み込みニューラルネットワークを使用したデータセットでの顔の感情認識。2017年国際人工知能およびデータ処理シンポジウム(IDAP)、1~5ページ。IEEE、2017年。


[63] Gaetano Valenza、Antonio Lanata、Enzo Pasquale Scilingo。感情価と覚醒認識における非線形ダイナミクスの役割。IEEE Transactions on Affective Computing、3(2):237–249、2011。


[64] Raviteja VemulapalliとAseem Agarwala。顔の表情の類似性のためのコンパクトな埋め込み。IEEE / CVFコンピュータービジョンとパターン認識会議の議事録、5683〜5692ページ、2019年。


[65] Kannan VenkataramananとHaresh Rengaraj Rajamohan。音声からの感情認識。arXivプレプリントarXiv:1912.10458、2019年。


[66] Kai Wang、Xiaojiang Peng、Jianfei Yang、Shijian Lu、Yu Qiao。大規模表情認識における不確実性の抑制。IEEE/CVFコンピュータービジョンおよびパターン認識会議の議事録、6897-6906ページ、2020年。


[67] Fanglei Xue、Zichang Tan、Yu Zhu、Zhongsong Ma、Guodong Guo。ビデオ顔表情認識のための滑らかな予測を備えた粗から細へのカスケードネットワーク。IEEE / CVFコンピュータービジョンとパターン認識会議の議事録、2412〜2418ページ、2022年。


[68] ユン・スンヒョン、ビョン・ソクヒョン、ジョン・キョミン。音声とテキストを使用したマルチモーダル音声感情認識。2018 IEEE音声言語技術ワークショップ(SLT)、112~118ページ。IEEE、2018年。


[69] Stefanos Zafeiriou、Dimitrios Kollias、Mihalis A Nicolaou、Athanasios Papaioannou、Guoying Zhao、Irene Kotsia。「Aff-wild:野生における価数と覚醒」チャレンジ。IEEEコンピュータービジョンおよびパターン認識ワークショップの議事録、34~41ページ、2017年。


[70] Yuanyuan Zhang、Jun Du、Zirui Wang、Jianshu Zhang、Yanhui Tu。音声感情認識のための注意ベースの完全畳み込みネットワーク。2018年アジア太平洋信号情報処理協会年次サミットおよび会議(APSIPA ASC)、1771〜1775ページ。IEEE、2018年。


[71] Yuan-Hang Zhang、Rulin Huang、Jiabei Zeng、およびShiguang Shan。M 3 f:野生でのマルチモーダル連続価数-覚醒推定。2020年15回IEEE国際自動顔およびジェスチャー認識会議(FG 2020)、632〜636ページ。IEEE、2020年。


この論文はCC 4.0ライセンスの下でarxivで公開されています