paint-brush
Comprender el reconocimiento del hablante y los ataques de discurso adversariopor@botbeat
275 lecturas

Comprender el reconocimiento del hablante y los ataques de discurso adversario

Demasiado Largo; Para Leer

El entrenamiento de Parrot ofrece un enfoque práctico para los ataques adversarios de audio de caja negra a los sistemas de reconocimiento de hablantes mediante el uso de conocimientos mínimos y la eliminación de la necesidad de sondeo. Este método aprovecha una breve muestra de discurso para crear ejemplos de audio contradictorios eficaces con alta transferibilidad y buena calidad de percepción.
featured image - Comprender el reconocimiento del hablante y los ataques de discurso adversario
BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture
0-item

Autores:

(1) Universidad Rui Duan del Sur de Florida Tampa, EE. UU. (correo electrónico: ruiduan@usf.edu);

(2) Universidad Zhe Qu Central Sur Changsha, China (correo electrónico: zhe_qu@csu.edu.cn);

(3) Universidad Americana Leah Ding Washington, DC, EE. UU. (correo electrónico: ding@american.edu);

(4) Universidad Yao Liu del Sur de Florida Tampa, EE. UU. (correo electrónico: yliu@cse.usf.edu);

(5) Universidad Yao Liu del Sur de Florida Tampa, EE. UU. (correo electrónico: yliu@cse.usf.edu).

Tabla de enlaces

Resumen e introducción

Antecedentes y motivación

Entrenamiento de loros: viabilidad y evaluación

Generación PT-AE: una perspectiva conjunta de transferibilidad y percepción

Ataques PT-AE de caja negra optimizados

Evaluaciones experimentales

Trabajo relacionado

Conclusión y referencias

Apéndice

II. ANTECEDENTES Y MOTIVACIÓN

En esta sección, primero presentamos los antecedentes del reconocimiento de locutor y luego describimos formulaciones de ataques adversarios de caja negra para crear EA de audio contra el reconocimiento de locutor.


A. Reconocimiento del orador


El reconocimiento de oradores se está volviendo cada vez más popular en los últimos años. Brinda a las máquinas la capacidad de identificar a un hablante a través de sus características personales del habla, lo que puede proporcionar servicios personalizados como un inicio de sesión conveniente [4] y una experiencia personalizada [1] para llamadas y mensajes. Comúnmente, la tarea de reconocimiento de locutores incluye tres fases: formación, inscripción y reconocimiento. Es importante resaltar que las tareas de reconocimiento de locutor [29], [118], [113] pueden ser (i) identificación de locutor (SI) basada en múltiples locutores o (ii) verificación de locutor (SV) basada en un solo locutor. . Específicamente, SI se puede dividir en identificación de conjunto cerrado (CSI) e identificación de conjunto abierto (OSI) [39], [29]. Proporcionamos información detallada en el Apéndice A.


B. Ataques de discurso adversarios


Dada una función de reconocimiento del hablante f, que toma una entrada de la señal de voz original x y genera una etiqueta del hablante y, un atacante adversario busca encontrar una pequeña señal de perturbación δ ∈ Ω para crear un AE de audio x + δ tal que


f(x + δ) = yt, D(x, x + δ) ≤ ϵ, (1)


donde yt ̸= y es la etiqueta objetivo del atacante; Ω es el espacio de búsqueda de δ; D(x, x + δ) es una función de distancia que mide la diferencia entre el habla original x y el habla perturbada x+δ y puede ser la distancia basada en la norma Lp [29], [118] o una medida de la diferencia de características auditivas. (por ejemplo, qDev [44] y NISQA [113]); y ϵ limita el cambio de x a x + δ.


Una formulación común de ataque de caja blanca [28], [72] para resolver (1) se puede escribir como



donde J (·, ·) es la pérdida de predicción en el clasificador f al asociar la entrada x + δ a la etiqueta objetivo yt, que se supone conocida por el atacante; y c es un factor para equilibrar la efectividad del ataque y el cambio del discurso original.


Un ataque de caja negra no tiene conocimiento de J (·, ·) en (2) y por lo tanto tiene que adoptar un tipo diferente de formulación dependiendo de qué otra información pueda obtener del clasificador f. Si el ataque puede sondear el clasificador que da un resultado binario (aceptar o rechazar), el ataque [118], [74] puede formularse como



Dado que (3) contiene f(x + δ), el atacante tiene que crear una estrategia de sondeo para generar continuamente una versión diferente de δ y medir el resultado de f(x + δ) hasta que tenga éxito. En consecuencia, se requiere una gran cantidad de sondas (p. ej., más de 10 000 [118]), lo que hace que los ataques del mundo real sean menos prácticos contra modelos comerciales de reconocimiento de hablantes que aceptan señales de voz por aire.


Fig. 1: El procedimiento del ataque de caja negra basado en el entrenamiento de loros.


C. Motivación del diseño


Para superar el engorroso proceso de sondeo de un ataque de caja negra, nuestro objetivo es encontrar una forma alternativa de crear ataques de caja negra prácticos. Dado el hecho de que un ataque de caja negra no es posible sin sondear o conocer algún conocimiento de un clasificador, adoptamos una suposición de conocimiento previo utilizada en [118] de que el atacante posee una muestra de audio muy corta del hablante objetivo (tenga en cuenta que [118] tiene que probar el modelo objetivo además de este conocimiento). Esta suposición es más práctica que dejar que el atacante conozca los aspectos internos del clasificador. Dado este conocimiento limitado, nuestro objetivo es eliminar el proceso de sondeo y crear EA efectivos.




Los estudios existentes se han centrado en una amplia gama de aspectos relacionados con los AE entrenados en tierra (GT-AE). Los conceptos de habla de loros y entrenamiento de loros crean un nuevo tipo de EA, los EA entrenados por loros (PT-AE), y también plantean tres cuestiones importantes sobre la viabilidad y eficacia de los PT-AE hacia un ataque práctico de caja negra: (i ) ¿Puede un modelo PT aproximarse a un modelo GT? (ii) ¿Los PT-AE se basan en un modelo PT tan transferibles como los GT-AE frente a un modelo GT de caja negra? (iii) ¿Cómo optimizar la generación de PT-AE hacia un ataque de caja negra eficaz? La Fig. 1 muestra el procedimiento general para que abordemos estas preguntas hacia un ataque de caja negra nuevo, práctico y sin sondeo: (1) proponemos un método de conversión de un solo paso en dos pasos para crear un discurso de loro para el entrenamiento de loros en la Sección III; (2) estudiamos diferentes tipos de generaciones PT-AE a partir de un modelo PT con respecto a su transferibilidad y calidad de percepción en la Sección IV; y (3) formulamos un ataque de caja negra optimizado basado en PT-AE en la Sección V. Luego, realizamos evaluaciones integrales para comprender el impacto del ataque propuesto en los sistemas de audio comerciales en la Sección VI.


D. Modelo de amenaza


En este artículo, consideramos un atacante que intenta crear un AE de audio para engañar a un modelo de reconocimiento de hablante de modo que el modelo reconozca el AE como la voz de un hablante objetivo. Adoptamos el supuesto de ataque de caja negra de que el atacante no tiene conocimiento sobre la arquitectura, los parámetros y los datos de entrenamiento utilizados en el modelo de reconocimiento de voz. Suponemos que el atacante tiene una muestra de discurso muy corta (unos pocos segundos en nuestras evaluaciones) del hablante objetivo, que puede recopilarse en entornos públicos [118], pero la muestra no se utiliza necesariamente para entrenar en el modelo objetivo. Nos centramos en un escenario más realista en el que el atacante no prueba el modelo, lo cual es diferente de la mayoría de los estudios de ataques de caja negra [113], [29], [118] que requieren muchas pruebas. Suponemos que el atacante necesita lanzar la inyección inalámbrica contra el modelo (por ejemplo, Amazon Echo, Apple HomePod y Google Assistant).


Este documento está disponible en arxiv bajo licencia CC0 1.0 DEED.