paint-brush
Comprendre la reconnaissance du locuteur et les attaques vocales contradictoirespar@botbeat
275 lectures

Comprendre la reconnaissance du locuteur et les attaques vocales contradictoires

Trop long; Pour lire

La formation Parrot offre une approche pratique des attaques contradictoires audio par boîte noire sur les systèmes de reconnaissance de locuteurs en utilisant un minimum de connaissances et en éliminant le besoin de sondage. Cette méthode exploite un court échantillon de parole pour créer des exemples contradictoires audio efficaces avec une transférabilité élevée et une bonne qualité de perception.
featured image - Comprendre la reconnaissance du locuteur et les attaques vocales contradictoires
BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture
0-item

Auteurs:

(1) Université Rui Duan de Floride du Sud, Tampa, États-Unis (e-mail : ruiduan@usf.edu) ;

(2) Université Zhe Qu Central South Changsha, Chine (e-mail : zhe_qu@csu.edu.cn) ;

(3) Université américaine Leah Ding, Washington, DC, États-Unis (e-mail : ding@american.edu) ;

(4) Université Yao Liu de Floride du Sud, Tampa, États-Unis (e-mail : yliu@cse.usf.edu) ;

(5) Université Yao Liu de Floride du Sud, Tampa, États-Unis (e-mail : yliu@cse.usf.edu).

Tableau des liens

Résumé et introduction

Contexte et motivation

Formation Parrot : faisabilité et évaluation

Génération PT-AE : une perspective conjointe de transférabilité et de perception

Attaques PT-AE optimisées par boîte noire

Évaluations expérimentales

Travaux connexes

Conclusion et références

annexe

II. CONTEXTE ET MOTIVATION

Dans cette section, nous présentons d’abord le contexte de la reconnaissance du locuteur, puis décrivons les formulations d’attaques contradictoires en boîte noire pour créer des AE audio contre la reconnaissance du locuteur.


A. Reconnaissance du locuteur


La reconnaissance du locuteur devient de plus en plus populaire ces dernières années. Il apporte aux machines la capacité d'identifier un locuteur via ses caractéristiques vocales personnelles, ce qui peut fournir des services personnalisés tels qu'une connexion pratique [4] et une expérience personnalisée [1] pour les appels et la messagerie. Généralement, la tâche de reconnaissance du locuteur comprend trois phases : la formation, l'inscription et la reconnaissance. Il est important de souligner que les tâches de reconnaissance du locuteur [29], [118], [113] peuvent être soit (i) une identification du locuteur (SI) basée sur plusieurs locuteurs, soit (ii) une vérification du locuteur (SV) basée sur un seul locuteur. . Plus précisément, le SI peut être divisé en identification fermée (CSI) et identification ouverte (OSI) [39], [29]. Nous fournissons des informations détaillées à l’annexe A.


B. Attaques contradictoires


Étant donné une fonction de reconnaissance du locuteur f, qui prend une entrée du signal vocal original x et génère une étiquette de locuteur y, un attaquant adverse vise à trouver un petit signal de perturbation δ ∈ Ω pour créer un audio AE x + δ tel que


f(x + δ) = yt, D(x, x + δ) ≤ ϵ, (1)


où yt ̸= y est l'étiquette cible de l'attaquant ; Ω est l'espace de recherche de δ ; D(x, x + δ) est une fonction de distance qui mesure la différence entre la parole originale x et la parole perturbée x+δ et peut être la distance basée sur la norme Lp [29], [118] ou une mesure de la différence des caractéristiques auditives. (par exemple, qDev [44] et NISQA [113]) ; et ϵ limite le changement de x à x + δ.


Une formulation d’attaque courante en boîte blanche [28], [72] pour résoudre (1) peut s’écrire sous la forme



où J (·, ·) est la perte de prédiction dans le classificateur f lors de l'association de l'entrée x + δ à l'étiquette cible yt, qui est supposée connue de l'attaquant ; et c est un facteur permettant d'équilibrer l'efficacité de l'attaque et le changement du discours original.


Une attaque boîte noire n'a aucune connaissance de J (·, ·) dans (2) et doit donc adopter un type de formulation différent en fonction des autres informations qu'elle peut obtenir du classificateur f. Si l’attaque peut sonder le classificateur qui donne un résultat binaire (accepter ou rejeter), l’attaque [118], [74] peut être formulée comme suit :



Puisque (3) contient f(x + δ), l'attaquant doit créer une stratégie de sondage pour générer en continu une version différente de δ et mesurer le résultat de f(x + δ) jusqu'à ce qu'il réussisse. En conséquence, un grand nombre de sondes (par exemple, plus de 10 000 [118]) sont nécessaires, ce qui rend les attaques réelles moins pratiques contre les modèles commerciaux de reconnaissance du locuteur qui acceptent les signaux vocaux par voie hertzienne.


Fig. 1 : La procédure d'attaque par boîte noire basée sur l'entraînement des perroquets.


C. Motivation de conception


Pour surmonter le processus fastidieux de sondage d’une attaque boîte noire, nous visons à trouver un moyen alternatif de créer des attaques pratiques par boîte noire. Étant donné qu’une attaque par boîte noire n’est pas possible sans sonder ou connaître une quelconque connaissance d’un classificateur, nous adoptons l’hypothèse de connaissance préalable utilisée dans [118] selon laquelle l’attaquant possède un très court échantillon audio du locuteur cible (notez que [118] doit sonder le modèle cible en plus de cette connaissance). Cette hypothèse est plus pratique que de laisser l'attaquant connaître les composants internes du classificateur. Compte tenu de ces connaissances limitées, nous visons à supprimer le processus de sondage et à créer des AE efficaces.




Les études existantes se sont concentrées sur un large éventail d’aspects concernant les AE formés à la vérité terrain (GT-AE). Les concepts de discours des perroquets et d'entraînement des perroquets créent un nouveau type d'AE, les AE entraînés par des perroquets (PT-AE), et soulèvent également trois questions majeures sur la faisabilité et l'efficacité des PT-AE dans le cadre d'une attaque pratique par boîte noire : (i ) Un modèle PT peut-il se rapprocher d'un modèle GT ? (ii) Les PT-AE construits sur un modèle PT sont-ils aussi transférables que les GT-AE par rapport à un modèle GT à boîte noire ? (iii) Comment optimiser la génération de PT-AE pour une attaque boîte noire efficace ? La figure 1 montre la procédure globale permettant de répondre à ces questions en vue d'une nouvelle attaque de boîte noire, pratique et sans sonde : (1) nous proposons une méthode de conversion unique en deux étapes pour créer la parole de perroquet pour l'entraînement des perroquets dans la section III ; (2) nous étudions différents types de générations PT-AE à partir d'un modèle PT concernant leur transférabilité et leur qualité de perception dans la section IV ; et (3) nous formulons une attaque boîte noire optimisée basée sur les PT-AE dans la section V. Ensuite, nous effectuons des évaluations complètes pour comprendre l'impact de l'attaque proposée sur les systèmes audio commerciaux dans la section VI.


D. Modèle de menace


Dans cet article, nous considérons un attaquant qui tente de créer un AE audio pour tromper un modèle de reconnaissance du locuteur de telle sorte que le modèle reconnaisse l'AE comme la voix d'un locuteur cible. Nous adoptons une attaque boîte noire en supposant que l'attaquant n'a aucune connaissance de l'architecture, des paramètres et des données de formation utilisés dans le modèle de reconnaissance vocale. Nous supposons que l'attaquant dispose d'un échantillon de parole très court (quelques secondes dans nos évaluations) du locuteur cible, qui peut être collecté dans des lieux publics [118], mais l'échantillon n'est pas nécessairement utilisé pour l'entraînement au modèle cible. Nous nous concentrons sur un scénario plus réaliste dans lequel l’attaquant ne sonde pas le modèle, ce qui est différent de la plupart des études d’attaques par boîte noire [113], [29], [118] qui nécessitent de nombreuses sondes. Nous supposons que l'attaquant doit lancer l'injection sans fil contre le modèle (par exemple, Amazon Echo, Apple HomePod et Google Assistant).


Cet article est disponible sur arxiv sous licence CC0 1.0 DEED.