paint-brush
VEATIC: classificações e referências de familiaridade e prazerpor@kinetograph
221 leituras

VEATIC: classificações e referências de familiaridade e prazer

Muito longo; Para ler

Neste artigo, os pesquisadores apresentam o conjunto de dados VEATIC para reconhecimento de afeto humano, abordando as limitações dos conjuntos de dados existentes, permitindo inferência baseada no contexto.
featured image - VEATIC: classificações e referências de familiaridade e prazer
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Este artigo está disponível no arxiv sob licença CC 4.0.

Autores:

(1) Zhihang Ren, Universidade da Califórnia, Berkeley e estes autores contribuíram igualmente para este trabalho (E-mail: peter.zhren@berkeley.edu);

(2) Jefferson Ortega, Universidade da Califórnia, Berkeley e estes autores contribuíram igualmente para este trabalho (E-mail: jefferson_ortega@berkeley.edu);

(3) Yifan Wang, Universidade da Califórnia, Berkeley e estes autores contribuíram igualmente para este trabalho (E-mail: wyf020803@berkeley.edu);

(4) Zhimin Chen, Universidade da Califórnia, Berkeley (E-mail: zhimin@berkeley.edu);

(5) Yunhui Guo, Universidade do Texas em Dallas (E-mail: yunhui.guo@utdallas.edu);

(6) Stella X. Yu, Universidade da Califórnia, Berkeley e Universidade de Michigan, Ann Arbor (E-mail: stellayu@umich.edu);

(7) David Whitney, Universidade da Califórnia, Berkeley (E-mail: dwhitney@berkeley.edu).

Tabela de links

11. Avaliações de familiaridade e prazer

As classificações de familiaridade e prazer foram coletadas para cada vídeo entre os participantes, conforme mostrado na Figura 13. As classificações de familiaridade e prazer para IDs de vídeo de 0 a 83 foram coletadas em uma escala de 1 a 5 e 1 a 9, respectivamente. As classificações de familiaridade e diversão para os IDs de vídeo 83-123 foram coletadas antes do planejamento do conjunto de dados VEATIC e foram coletadas em uma escala diferente. As classificações de familiaridade e prazer para os IDs de vídeo 83 a 97 foram coletadas em uma escala de 0 a 5, e as classificações de familiaridade/prazer não foram coletadas para os IDs de vídeo 98 a 123. Para fins de análise e visualização, redimensionamos as classificações de familiaridade e diversão dos IDs de vídeo 83-97 para 1-5 e 1-9, respectivamente, para corresponder aos IDs de vídeo 0-83. Para redimensionar os valores de familiaridade de 0-5 para 1-5, realizamos uma transformação linear, primeiro normalizamos os dados entre 0 e 1, depois multiplicamos os valores por 4 e adicionamos 1. Redimensionamos os valores de prazer de 0-5 para 1-9 da mesma forma, primeiro normalizando os dados entre 0 e 1, depois multiplicamos os valores por 8 e adicionamos 1. Como resultado, a classificação média de familiaridade foi de 1,61, enquanto a classificação média de diversão foi de 4,98 para IDs de vídeo de 0 a 97.


Figura 11. Exemplo de diferentes classificações de um mesmo vídeo no VEATIC. (a). Os dois personagens selecionados. (b). As classificações emocionais contínuas dos personagens correspondentes. A mesma cor indica o mesmo caractere. Um bom algoritmo de reconhecimento de emoção deve inferir a emoção de dois personagens de forma correspondente, dadas as interações entre os personagens e exatamente as mesmas informações de contexto.

Referências

[1] Anurag Arnab, Mostafa Dehghani, Georg Heigold, Chen Sun, Mario Luciˇc e Cordelia Schmid. Vivit: Um transformador de visão de vídeo. Em Anais da conferência internacional IEEE/CVF sobre visão computacional, páginas 6836–6846, 2021.


Figura 12. a) Desvio padrão da resposta de cinco anotadores versus desvio padrão da resposta de todos os anotadores. Testar um pequeno número de anotadores pode levar a imprecisões substanciais nas anotações. Aumentar o número de anotadores, como neste estudo, melhora muito a precisão. b) Desvio padrão da resposta dos anotadores para cada vídeo. As linhas sólidas vermelhas e azuis indicam o desvio padrão das respostas dos anotadores para valência e excitação, em cada vídeo, respectivamente. Os resultados são classificados com base no desvio padrão de cada vídeo para fins de visualização. As linhas tracejadas mostram o desvio padrão mediano para cada dimensão. Os valores médios para desvios padrão de valência e excitação são iguais com µ = 0,248.


Figura 13. Classificações de familiaridade e diversão em todos os vídeos. Cada barra representa a classificação média de familiaridade ou prazer relatada por todos os participantes que comentaram o vídeo. A avaliação média de todos os vídeos é representada pela linha horizontal tracejada em ambas as figuras. Os IDs dos vídeos são mostrados no eixo x.


[2] Hillel Aviezer, Shlomo Bentin, Veronica Dudarev e Ran R Hassin. A automaticidade da integração emocional face-contexto. Emoção, 11(6):1406, 2011.


[3] Simon Baron-Cohen, Sally Wheelwright, Jacqueline Hill, Yogini Raste e Ian Plumb. Versão revisada do teste “ler a mente nos olhos”: um estudo com adultos normais e adultos com síndrome de Asperger ou autismo de alto funcionamento. O Jornal de Psicologia Infantil e Psiquiatria e Disciplinas Aliadas, 42(2):241–251, 2001.


[4] Lisa Feldman Barrett e Elizabeth A Kensinger. O contexto é rotineiramente codificado durante a percepção da emoção. Ciência psicológica, 21(4):595–599, 2010.


[5] Pablo Barros, Nikhil Churamani, Egor Lakomkin, Henrique Siqueira, Alexander Sutherland e Stefan Wermter. O conjunto de dados de comportamento omg-emotion. Em 2018 Conferência Conjunta Internacional sobre Redes Neurais (IJCNN), páginas 1–7. IEEE, 2018.


[6] Margaret M Bradley e Peter J Lang. Normas afetivas para palavras em inglês (de novo): Manual de instruções e classificações afetivas. Relatório técnico, Relatório técnico C-1, centro de pesquisa em psicofisiologia. . . , 1999.


[7] Marta Calbi, Francesca Siri, Katrin Heimann, Daniel Barratt, Vittorio Gallese, Anna Kolesnikov e Maria Alessandra Umilta. Como o contexto influencia a interpretação das expressões faciais: um estudo de EEG de alta densidade de localização de fonte sobre o “efeito Kuleshov”. Relatórios científicos, 9(1):1–16, 2019.


[8] Zhimin Chen e David Whitney. Rastreando o estado afetivo de pessoas invisíveis. Anais da Academia Nacional de Ciências, 116(15):7559–7564, 2019.


[9] Zhimin Chen e David Whitney. O rastreamento afetivo inferencial revela a notável velocidade da percepção emocional baseada no contexto. Cognição, 208:104549, 2021.


[10] Zhimin Chen e David Whitney. O rastreamento inferencial de emoções (iet) revela o papel crítico do contexto no reconhecimento de emoções. Emoção, 22(6):1185, 2022.


[11] Kyunghyun Cho, Bart Merrienboer, Caglar Gulcehre, Fethi Bougares, Holger Schwenk e Yoshua Bengio. Aprendendo representações de frases usando codificador-decodificador rnn para tradução automática estatística. Em EMNLP, 2014.


[12] Jules Davidoff. Diferenças na percepção visual: o olho individual. Elsevier, 2012. [13] Abhinav Dhall, Roland Goecke, Simon Lucey, Tom Gedeon, et al. Coleta de bancos de dados de expressões faciais grandes e ricamente anotados de filmes. Multimídia IEEE, 19(3):34, 2012.


[14] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, e outros. Uma imagem vale 16x16 palavras: Transformadores para reconhecimento de imagens em escala. Pré-impressão do arXiv arXiv:2010.11929, 2020.


[15] Ellen Douglas-Cowie, Roddy Cowie, Cate Cox, Noam Amir e Dirk Heylen. O ouvinte artificial sensível: uma técnica de indução para gerar conversas emocionalmente coloridas. No workshop do LREC sobre corpora para pesquisa sobre emoção e afeto, páginas 1–4. ELRA Paris, 2008.


[16] Paul Ekman. Um argumento para emoções basicas. Cognição e emoção, 6(3-4):169–200, 1992.


[17] Paul Ekman e Wallace V Friesen. Sistema de codificação de ação facial. Psicologia Ambiental e Comportamento Não-Verbal, 1978.


[18] Zhiyun Gao, Wentao Zhao, Sha Liu, Zhifen Liu, Chengxiang Yang e Yong Xu. Reconhecimento de emoções faciais na esquizofrenia. Fronteiras em psiquiatria, 12:633717, 2021.


[19] Rohit Girdhar, João Carreira, Carl Doersch e Andrew Zisserman. Rede transformadora de vídeo ação. Em Anais da conferência IEEE/CVF sobre visão computacional e reconhecimento de padrões, páginas 244–253, 2019.


[20] Kaiming He, Xiangyu Zhang, Shaoqing Ren e Jian Sun. Aprofundando-se nos retificadores: superando o desempenho de nível humano na classificação imagenet. Em Anais da conferência internacional IEEE sobre visão computacional, páginas 1026–1034, 2015.


[21] Kaiming He, Xiangyu Zhang, Shaoqing Ren e Jian Sun. Aprendizado residual profundo para reconhecimento de imagens. Em Anais da conferência IEEE sobre visão computacional e reconhecimento de padrões, páginas 770–778, 2016.


[22] Will E Hipson e Saif M Mohammad. Dinâmica emocional em diálogos de filmes. PloS um, 16(9):e0256153, 2021. [23] Sepp Hochreiter e Jurgen Schmidhuber. Memória de longo e curto prazo. Computação neural, 9(8):1735–1780, 1997.


[24] John J. Hopfield. Redes neurais e sistemas físicos com capacidades computacionais coletivas emergentes. Anais da Academia Nacional de Ciências, 79(8):2554–2558, 1982.


[25] Zhao Kaili, Wen-Sheng Chu e Honggang Zhang. Aprendizado de região profunda e multi-rótulo para detecção de unidades de ação facial. Em In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, páginas 3391–3399, 2016.


[26] Mary Kayyal, Sherri Widen e James A Russell. O contexto é mais poderoso do que pensamos: as dicas contextuais substituem as dicas faciais, mesmo no que diz respeito à valência. Emoção, 15(3):287, 2015.


[27] Diederik P Kingma e Jimmy Ba. Adam: Um método para otimização estocástica. Pré-impressão do arXiv arXiv:1412.6980, 2014.


[28] Sander Koelstra, Christian Muhl, Mohammad Soleymani, Jong-Seok Lee, Ashkan Yazdani, Touradj Ebrahimi, Thierry Pun, Anton Nijholt e Ioannis Patras. Deap: Um banco de dados para análise emocional; usando sinais fisiológicos. Transações IEEE sobre computação afetiva, 3(1):18–31, 2011.


[29] Dimitrios Kollias e Stefanos Zafeiriou. Aff-wild2: Estendendo o banco de dados aff-wild para reconhecimento de efeitos. Pré-impressão do arXiv arXiv:1811.07770, 2018.


[30] Dimitrios Kollias e Stefanos Zafeiriou. Expressão, afeto, reconhecimento de unidade de ação: Aff-wild2, aprendizagem multitarefa e arcface. Pré-impressão do arXiv arXiv:1910.04855, 2019.


[31] Jean Kossaifi, Georgios Tzimiropoulos, Sinisa Todorovic e Maja Pantic. Banco de dados Afew-va para estimativa de valência e excitação em estado selvagem. Computação de Imagem e Visão, 65:23–36, 2017.


[32] Ronak Kosti, José M Alvarez, Adria Recasens e Agata Lapedriza. Reconhecimento de emoções baseado em contexto usando conjunto de dados emóticos. Transações IEEE sobre análise de padrões e inteligência de máquina, 42(11):2755–2766, 2019.


[33] Jiyoung Lee, Seungryong Kim, Sunok Kim, Jungin Park e Kwanghoon Sohn. Redes de reconhecimento de emoções sensíveis ao contexto. Em Anais da conferência internacional IEEE/CVF sobre visão computacional, páginas 10143–10152, 2019.


[34] Tae-Ho Lee, June-Seek Choi e Yang Seok Cho. A modulação contextual da percepção da emoção facial diferiu pela diferença individual. PLOS um, 7(3):e32987, 2012.


[35] Yong Li, Jiabei Zeng, Shiguang Shan e Xilin Chen. Aprendizagem de representação autosupervisionada a partir de vídeos para detecção de unidades de ação facial. Em Anais da Conferência IEEE/CVF sobre visão computacional e reconhecimento de padrões, páginas 10924–10933, 2019.


[36] Ze Liu, Jia Ning, Yue Cao, Yixuan Wei, Zheng Zhang, Stephen Lin e Han Hu. Transformador de vídeo swin. Em Anais da conferência IEEE/CVF sobre visão computacional e reconhecimento de padrões, páginas 3202–3211, 2022.


[37] Cheng Luo, Siyang Song, Weicheng Xie, Linlin Shen e Hatice Gunes. Aprendendo gráfico de relação au baseado em recurso de borda multidimensional para reconhecimento de unidade de ação facial. Em Anais da Trigésima Primeira Conferência Conjunta Internacional sobre Inteligência Artificial, IJCAI-22, páginas 1239–1246, 2022.


[38] Daniel McDuff, Rana Kaliouby, Thibaud Senechal, May Amr, Jeffrey Cohn e Rosalind Picard. Conjunto de dados de expressão facial Affectiva-mit (am-fed): Expressões faciais naturalistas e espontâneas coletadas. Em Anais da conferência IEEE sobre workshops de visão computacional e reconhecimento de padrões, páginas 881–888, 2013.


[39] Gary McKeown, Michel Valstar, Roddy Cowie, Maja Pantic e Marc Schroder. O banco de dados semaine: registros multimodais anotados de conversas emocionalmente coloridas entre uma pessoa e um agente limitado. Transações IEEE sobre computação afetiva, 3(1):5–17, 2011.


[40] Trisha Mittal, Pooja Guhan, Uttaran Bhattacharya, Rohan Chandra, Aniket Bera e Dinesh Manocha. Emoticon: Reconhecimento de emoções multimodais sensíveis ao contexto usando o princípio de Frege. Em Anais da Conferência IEEE/CVF sobre Visão Computacional e Reconhecimento de Padrões, páginas 14234–14243, 2020.


[41] MA Nasri, Mohamed Amine Hmani, Aymen Mtibaa, Dijana Petrovska-Delacretaz, M Ben Slima e A Ben Hamida. Reconhecimento de emoções faciais a partir de imagens estáticas baseadas em redes neurais de convolução. Em 2020, 5ª Conferência Internacional sobre Tecnologias Avançadas para Processamento de Sinais e Imagens (ATSIP), páginas 1–6. IEEE, 2020.


[42] Erik C Nook, Kristen A Lindquist e Jamil Zaki. Um novo olhar sobre a percepção de emoções: conceitos aceleram e moldam o reconhecimento de emoções faciais. Emoção, 15(5):569, 2015.


[43] Desmond C Ong, Zhengxuan Wu, Zhi-Xuan Tan, Marianne Reddan, Isabella Kahhale, Alison Mattek e Jamil Zaki. Modelando emoções em histórias complexas: o conjunto de dados de narrativas emocionais de Stanford. Transações IEEE sobre Computação Afetiva, 12(3):579–594, 2019.


[44] Desmond C Ong, Jamil Zaki e Noah D Goodman. Modelos computacionais de inferência emocional na teoria da mente: uma revisão e um roteiro. Tópicos em ciências cognitivas, 11(2):338–357, 2019.


[45] Timea R Partos, Simon J Cropper e David Rawlings. Você não vê o que eu vejo: diferenças individuais na percepção do significado a partir de estímulos visuais. PloS um, 11(3):e0150615, 2016.


[46] Soujanya Poria, Devamanyu Hazarika, Navonil Majumder, Gautam Naik, Erik Cambria e Rada Mihalcea. Meld: um conjunto de dados multimodal multipartidário para reconhecimento de emoções em conversas. Pré-impressão do arXiv arXiv:1810.02508, 2018.


[47] Jonathan Posner, James A Russell e Bradley S Peterson. O modelo circunplexo de afeto: uma abordagem integrativa à neurociência afetiva, desenvolvimento cognitivo e psicopatologia. Desenvolvimento e psicopatologia, 17(3):715–734, 2005.


[48] Zhihang Ren, Xinyu Li, Dana Pietralla, Mauro Manassi e David Whitney. Dependência serial em julgamentos dermatológicos. Diagnóstico, 13(10):1775, 2023.


[49] Fabien Ringeval, Andreas Sonderegger, Juergen Sauer e Denis Lalanne. Apresentando o corpus multimodal recola de interações colaborativas e afetivas remotas. Em 2013, 10ª conferência internacional IEEE e workshops sobre reconhecimento automático de rosto e gestos (FG), páginas 1–8. IEEE, 2013.


[50] David E Rumelhart, Geoffrey E Hinton, Ronald J Williams, et al. Aprendendo representações internas por propagação de erros, 1985.


[51] Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, et al. Desafio de reconhecimento visual em grande escala da Imagenet. Jornal internacional de visão computacional, 115:211–252, 2015.


[52] James A Russell. Um modelo circunplexo de afeto. Jornal de personalidade e psicologia social, 39(6):1161, 1980.


[53] James A Russell. perspectiva contextual dimensional. A psicologia da expressão facial, página 295, 1997.


[54] Andrey V Savchenko. Expressão facial e reconhecimento de atributos com base no aprendizado multitarefa de redes neurais leves. Em 2021, 19º Simpósio Internacional IEEE sobre Sistemas Inteligentes e Informática (SISY), páginas 119–124. IEEE, 2021.


[55] Andrey V Savchenko, Lyudmila V Savchenko e Ilya Makarov. Classificação de emoções e envolvimento na aprendizagem online com base em uma única rede neural de reconhecimento de expressões faciais. Transações IEEE em Computação Afetiva, 13(4):2132–2143, 2022.


[56] Zhiwen Shao, Zhilei Liu, Jianfei Cai e Lizhuang Ma. Atenção adaptativa profunda para detecção de unidades de ação facial conjunta e alinhamento facial. Em Anais da Conferência Europeia sobre Visão Computacional (ECCV), páginas 705–720, 2018.


[57] Jiahui She, Yibo Hu, Hailin Shi, Jun Wang, Qiu Shen e Tao Mei. Mergulhe na ambiguidade: mineração de distribuição latente e estimativa de incerteza entre pares para reconhecimento de expressões faciais. Em Anais da conferência IEEE/CVF sobre visão computacional e reconhecimento de padrões, páginas 6248–6257, 2021.


[58] Ian Sneddon, Margaret McRorie, Gary McKeown e Jennifer Hanratty. O banco de dados de emoções naturais induzidas por Belfast. Transações IEEE em Computação Afetiva, 3(1):32–41, 2011.


[59] Mohammad Soleymani, Jeroen Lichtenauer, Thierry Pun e Maja Pantic. Um banco de dados multimodal para reconhecimento de efeitos e marcação implícita. Transações IEEE sobre computação afetiva, 3(1):42–55, 2011.


[60] Paweł Tarnowski, Marcin Kołodziej, Andrzej Majkowski e Remigiusz J Rak. Reconhecimento de emoções usando expressões faciais. Procedia Ciência da Computação, 108:1175–1184, 2017.


[61] YI Tian, Takeo Kanade e Jeffrey F Cohn. Reconhecendo unidades de ação para análise de expressões faciais. Transações IEEE sobre análise de padrões e inteligência de máquina, 23(2):97–115, 2001.


[62] Vedat Tumen, ¨ Omer Faruk S ¨ oylemez e Burhan Ergen. ¨ Reconhecimento de emoções faciais em um conjunto de dados usando rede neural convolucional. Em 2017, Simpósio Internacional de Inteligência Artificial e Processamento de Dados (IDAP), páginas 1–5. IEEE, 2017.


[63] Gaetano Valenza, Antonio Lanata e Enzo Pasquale Scilingo. O papel da dinâmica não linear na valência afetiva e no reconhecimento da excitação. Transações IEEE sobre computação afetiva, 3(2):237–249, 2011.


[64] Raviteja Vemulapalli e Aseem Agarwala. Uma incorporação compacta para similaridade de expressão facial. Em Anais da Conferência IEEE/CVF sobre Visão Computacional e Reconhecimento de Padrões, páginas 5683–5692, 2019.


[65] Kannan Venkataramanan e Haresh Rengaraj Rajamohan. Reconhecimento de emoções pela fala. Pré-impressão do arXiv arXiv:1912.10458, 2019.


[66] Kai Wang, Xiaojiang Peng, Jianfei Yang, Shijian Lu e Yu Qiao. Suprimindo incertezas para reconhecimento de expressões faciais em larga escala. Em Anais da conferência IEEE/CVF sobre visão computacional e reconhecimento de padrões, páginas 6897–6906, 2020.


[67] Fanglei Xue, Zichang Tan, Yu Zhu, Zhongsong Ma e Guodong Guo. Redes em cascata grossas a finas com previsão suave para reconhecimento de expressões faciais em vídeo. Em Anais da Conferência IEEE/CVF sobre Visão Computacional e Reconhecimento de Padrões, páginas 2412–2418, 2022.


[68] Seunghyun Yoon, Seokhyun Byun e Kyomin Jung. Reconhecimento multimodal de emoções de fala usando áudio e texto. Em 2018 IEEE Spoken Language Technology Workshop (SLT), páginas 112–118. IEEE, 2018.


[69] Stefanos Zafeiriou, Dimitrios Kollias, Mihalis A Nicolaou, Athanasios Papaioannou, Guoying Zhao e Irene Kotsia. Aff-selvagem: valência e excitação'no-selvagem'desafio. Em Anais da conferência IEEE sobre workshops de visão computacional e reconhecimento de padrões, páginas 34–41, 2017.


[70] Yuanyuan Zhang, Jun Du, Zirui Wang, Jianshu Zhang e Yanhui Tu. Rede totalmente convolucional baseada na atenção para reconhecimento de emoções de fala. Em 2018, Cúpula e Conferência Anual da Associação de Processamento de Sinais e Informações da Ásia-Pacífico (APSIPA ASC), páginas 1771–1775. IEEE, 2018.


[71] Yuan-Hang Zhang, Rulin Huang, Jiabei Zeng e Shiguang Shan. M 3 f: Estimativa multimodal contínua de excitação de valência na natureza. Em 2020, 15ª Conferência Internacional IEEE sobre Reconhecimento Automático de Rosto e Gestos (FG 2020), páginas 632–636. IEEE, 2020.


Este artigo está disponível no arxiv sob licença CC 4.0.