paint-brush
VEATIC: Rastreamento de emoção e afeto baseado em vídeo em conjunto de dados de contexto: experimentospor@kinetograph
172 leituras

VEATIC: Rastreamento de emoção e afeto baseado em vídeo em conjunto de dados de contexto: experimentos

Muito longo; Para ler

Neste artigo, os pesquisadores apresentam o conjunto de dados VEATIC para reconhecimento de afeto humano, abordando as limitações dos conjuntos de dados existentes, permitindo inferência baseada no contexto.
featured image - VEATIC: Rastreamento de emoção e afeto baseado em vídeo em conjunto de dados de contexto: experimentos
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Este artigo está disponível no arxiv sob licença CC 4.0.

Autores:

(1) Zhihang Ren, Universidade da Califórnia, Berkeley e estes autores contribuíram igualmente para este trabalho (E-mail: peter.zhren@berkeley.edu);

(2) Jefferson Ortega, Universidade da Califórnia, Berkeley e estes autores contribuíram igualmente para este trabalho (E-mail: jefferson_ortega@berkeley.edu);

(3) Yifan Wang, Universidade da Califórnia, Berkeley e estes autores contribuíram igualmente para este trabalho (E-mail: wyf020803@berkeley.edu);

(4) Zhimin Chen, Universidade da Califórnia, Berkeley (E-mail: zhimin@berkeley.edu);

(5) Yunhui Guo, Universidade do Texas em Dallas (E-mail: yunhui.guo@utdallas.edu);

(6) Stella X. Yu, Universidade da Califórnia, Berkeley e Universidade de Michigan, Ann Arbor (E-mail: stellayu@umich.edu);

(7) David Whitney, Universidade da Califórnia, Berkeley (E-mail: dwhitney@berkeley.edu).

Tabela de links

4. Experimentos

Neste estudo, propomos uma nova tarefa de reconhecimento de emoções em contexto, ou seja, inferir a valência e a excitação do personagem selecionado através do contexto e das informações do personagem em cada quadro de vídeo. Aqui, propomos um modelo de linha de base simples para avaliar o novo reconhecimento de emoções na tarefa de contexto. O pipeline do modelo é mostrado na Figura 8. Adotamos dois submódulos simples: um módulo de rede neural convolucional (CNN) para extração de características e um módulo transformador visual para processamento de informações temporais. A estrutura do módulo CNN é adotada do Resnet50 [21]. Ao contrário de CAER [33] e EMOTIC [32], onde recursos faciais/personagens e de contexto são extraídos separadamente e mesclados posteriormente, codificamos diretamente o quadro totalmente informado. Para uma única previsão, N quadros de vídeo consecutivos são codificados de forma independente. Em seguida, os vetores de recursos de quadros consecutivos são incorporados na primeira posição e alimentados no codificador do transformador contendo L conjuntos de módulos de atenção. Por fim, a previsão de excitação e valência é realizada por uma cabeça perceptron multicamadas (MLP).


Figura 8. A arquitetura do modelo de referência para rastreamento de emoções e afetos em tarefa de contexto. O modelo consiste em um módulo de extração de características CNN e um transformador visual para combinar informações temporais de quadros consecutivos.

4.1. Função de perda e configuração de treinamento

A função de perda do nosso modelo de base é uma combinação ponderada de duas perdas separadas. A perda do MSE regulariza o alinhamento local da verdade básica das classificações e das previsões do modelo. Para garantir o alinhamento das avaliações e previsões em maior escala, como aprender as estatísticas temporais das avaliações emocionais, também utilizamos o coeficiente de correlação de concordância (CCC) como regularização. Este coeficiente é definido como segue,


4.2. Métricas de avaliação


O SAGR mede o quanto os sinais dos valores individuais de dois vetores X e Y correspondem. Assume valores em [0, 1], onde 1 representa a concordância completa e 0 representa uma contradição completa. A métrica SAGR pode capturar informações de desempenho adicionais do que outras. Por exemplo, dada uma verdade fundamental de valência de 0,2, as previsões de 0,7 e -0,3 levarão ao mesmo valor RMSE. Mas claramente, 0,7 é mais adequado porque é uma valência positiva.


Tabela 3. Desempenho do nosso modelo proposto em condições totalmente informadas, apenas de caráter e apenas de contexto. Inferência por meio de informações de caráter e de contexto, o modelo tem o melhor desempenho. Ele mostra a importância do contexto e das informações do personagem nas tarefas de rastreamento de emoções e afetos.


Tabela 4. Comparação de nosso método proposto ajustado com o modelo pré-treinado EMOTIC e CARE-S em seus conjuntos de dados. Nosso modelo simples alcança resultados competitivos, indicando a generalização do VEATIC.

4.3. Resultados de referência

Comparamos a nova tarefa de reconhecimento de emoção em contexto usando as 4 métricas mencionadas acima, CCC, PCC, RMSE e SAGR. Os resultados são mostrados na Tabela 3. Em comparação com outros conjuntos de dados, nosso método simples proposto está no mesmo nível dos métodos de última geração em seus conjuntos de dados.


Também investigamos a importância das informações de contexto e caráter em tarefas de reconhecimento de emoções, alimentando os quadros somente de contexto e somente de personagem no modelo pré-treinado em quadros totalmente informados. Para obter comparações justas e excluir a influência das diferenças na distribuição de pixels dos quadros, também ajustamos o modelo pré-treinado nos quadros somente de contexto e somente de caracteres. Os resultados correspondentes também são mostrados na Tabela 3. Sem informações completas, o desempenho do modelo cai tanto para condições somente de contexto quanto apenas para caracteres.


Para mostrar a eficácia do conjunto de dados VEATIC, utilizamos nosso modelo pré-treinado no VEATIC, ajustamos-no em outros conjuntos de dados e testamos seu desempenho. Testamos apenas EMOTIC [32] e CAER-S [33], dada a simplicidade do nosso modelo e a semelhança do nosso modelo com os modelos propostos em outros artigos de conjunto de dados. Os resultados são mostrados na Tabela 4. Nosso modelo pré-treinado tem desempenho equivalente aos métodos propostos em EMOTIC [32] e CAERS [33]. Assim, mostra a eficácia do nosso conjunto de dados VEATIC proposto.



Este artigo está disponível no arxiv sob licença CC 4.0.