paint-brush
VEATIC: Videobasiertes Emotions- und Affekt-Tracking im Kontextdatensatz: Experimentevon@kinetograph
172 Lesungen

VEATIC: Videobasiertes Emotions- und Affekt-Tracking im Kontextdatensatz: Experimente

Zu lang; Lesen

In diesem Artikel stellen Forscher den VEATIC-Datensatz zur Erkennung menschlicher Affekte vor, der sich mit den Einschränkungen vorhandener Datensätze befasst und kontextbasierte Schlussfolgerungen ermöglicht.
featured image - VEATIC: Videobasiertes Emotions- und Affekt-Tracking im Kontextdatensatz: Experimente
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Dieses Dokument ist auf Arxiv unter der CC 4.0-Lizenz verfügbar.

Autoren:

(1) Zhihang Ren, University of California, Berkeley und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen (E-Mail: peter.zhren@berkeley.edu);

(2) Jefferson Ortega, University of California, Berkeley und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen (E-Mail: jefferson_ortega@berkeley.edu);

(3) Yifan Wang, University of California, Berkeley und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen (E-Mail: wyf020803@berkeley.edu);

(4) Zhimin Chen, University of California, Berkeley (E-Mail: zhimin@berkeley.edu);

(5) Yunhui Guo, University of Texas at Dallas (E-Mail: yunhui.guo@utdallas.edu);

(6) Stella X. Yu, University of California, Berkeley und University of Michigan, Ann Arbor (E-Mail: stellayu@umich.edu);

(7) David Whitney, University of California, Berkeley (E-Mail: dwhitney@berkeley.edu).

Linktabelle

4. Experimente

In dieser Studie schlagen wir eine neue Aufgabe zur Emotionserkennung im Kontext vor, nämlich die Valenz und Erregung des ausgewählten Charakters anhand von Kontext- und Charakterinformationen in jedem Videobild abzuleiten. Hier schlagen wir ein einfaches Basismodell vor, um die neue Aufgabe zur Emotionserkennung im Kontext zu bewerten. Die Pipeline des Modells ist in Abbildung 8 dargestellt. Wir haben zwei einfache Untermodule übernommen: ein Convolutional Neural Network (CNN)-Modul zur Merkmalsextraktion und ein Visual Transformer-Modul zur Verarbeitung zeitlicher Informationen. Die CNN-Modulstruktur wurde von Resnet50 [21] übernommen. Im Gegensatz zu CAER [33] und EMOTIC [32], wo Gesichts-/Charakter- und Kontextmerkmale separat extrahiert und später zusammengeführt werden, kodieren wir das vollständig informierte Bild direkt. Für eine einzelne Vorhersage werden aufeinanderfolgende N Videobilder unabhängig voneinander kodiert. Dann werden die Merkmalsvektoren aufeinanderfolgender Bilder zunächst in die Position eingebettet und in den Transformer-Encoder eingespeist, der L Sätze von Aufmerksamkeitsmodulen enthält. Schließlich wird die Vorhersage von Erregung und Valenz durch einen Multilayer Perceptron (MLP)-Kopf durchgeführt.


Abbildung 8. Die Architektur des Benchmark-Modells für die Verfolgung von Emotionen und Affekten in Kontextaufgaben. Das Modell besteht aus einem CNN-Merkmalsextraktionsmodul und einem visuellen Transformator zum Kombinieren zeitlicher Informationen aufeinanderfolgender Frames.

4.1. Verlustfunktion und Trainingsaufbau

Die Verlustfunktion unseres Basismodells ist eine gewichtete Kombination aus zwei separaten Verlusten. Der MSE-Verlust reguliert die lokale Ausrichtung der Grundwahrheit der Bewertungen und der Modellvorhersagen. Um die Ausrichtung der Bewertungen und Vorhersagen in größerem Maßstab zu gewährleisten, beispielsweise beim Erlernen der zeitlichen Statistiken der emotionalen Bewertungen, verwenden wir auch den Konkordanzkorrelationskoeffizienten (CCC) als Regularisierung. Dieser Koeffizient ist wie folgt definiert:


4.2. Bewertungsmaßstäbe


Der SAGR misst, wie gut die Vorzeichen der einzelnen Werte zweier Vektoren X und Y übereinstimmen. Er nimmt Werte zwischen [0, 1] an, wobei 1 die vollständige Übereinstimmung und 0 einen vollständigen Widerspruch darstellt. Die SAGR-Metrik kann mehr Leistungsinformationen erfassen als andere. Bei einer Valenz-Grundwahrheit von 0,2 führen beispielsweise Vorhersagen von 0,7 und -0,3 zum gleichen RMSE-Wert. Aber 0,7 ist eindeutig besser geeignet, da es sich um eine positive Valenz handelt.


Tabelle 3. Leistung unseres vorgeschlagenen Modells unter vollständig informierten, reinen Charakter- und reinen Kontextbedingungen. Bei der Inferenz über sowohl Charakter- als auch Kontextinformationen schneidet das Modell am besten ab. Es zeigt die Bedeutung sowohl von Kontext- als auch Charakterinformationen bei Aufgaben zur Verfolgung von Emotionen und Affekten.


Tabelle 4. Vergleich unserer fein abgestimmten vorgeschlagenen Methode mit dem vorab trainierten Modell von EMOTIC und CARE-S anhand ihrer Datensätze. Unser einfaches Modell erzielt wettbewerbsfähige Ergebnisse, was auf die Generalisierbarkeit von VEATIC hinweist.

4.3. Benchmark-Ergebnisse

Wir vergleichen die neue Emotionserkennung im Kontext anhand der oben genannten 4 Metriken CCC, PCC, RMSE und SAGR. Die Ergebnisse sind in Tabelle 3 dargestellt. Im Vergleich zu anderen Datensätzen ist unsere vorgeschlagene einfache Methode mit den modernsten Methoden für ihre Datensätze vergleichbar.


Wir untersuchen auch die Bedeutung von Kontext- und Charakterinformationen bei Aufgaben zur Emotionserkennung, indem wir die Nur-Kontext- und Nur-Charakter-Frames in das vortrainierte Modell mit vollständig informierten Frames einspeisen. Um faire Vergleiche zu erhalten und den Einfluss von Unterschieden in der Frame-Pixelverteilung auszuschließen, optimieren wir das vortrainierte Modell auch mit den Nur-Kontext- und Nur-Charakter-Frames. Die entsprechenden Ergebnisse sind ebenfalls in Tabelle 3 dargestellt. Ohne vollständige Informationen sinkt die Modellleistung sowohl unter Kontext- als auch unter Nur-Charakter-Bedingungen.


Um die Wirksamkeit des VEATIC-Datensatzes zu zeigen, haben wir unser vorab trainiertes Modell auf VEATIC angewendet, es auf anderen Datensätzen feinabgestimmt und seine Leistung getestet. Aufgrund der Einfachheit unseres Modells und der Ähnlichkeit unseres Modells mit den in anderen Datensatzpapieren vorgeschlagenen Modellen haben wir nur auf EMOTIC [32] und CAER-S [33] getestet. Die Ergebnisse sind in Tabelle 4 dargestellt. Unser vorab trainiertes Modell ist genauso leistungsfähig wie die in EMOTIC [32] und CAERS [33] vorgeschlagenen Methoden. Dies zeigt die Wirksamkeit unseres vorgeschlagenen VEATIC-Datensatzes.