Autores:
(1) Rui Duan University of South Florida Tampa, EUA (e-mail: ruiduan@usf.edu);
(2) Zhe Qu Central South University Changsha, China (e-mail: zhe_qu@csu.edu.cn);
(3) Leah Ding American University Washington, DC, EUA (e-mail: ding@american.edu);
(4) Yao Liu University of South Florida Tampa, EUA (e-mail: yliu@cse.usf.edu);
(5) Universidade Yao Liu do Sul da Flórida, Tampa, EUA (e-mail: yliu@cse.usf.edu).
Treinamento de papagaios: viabilidade e avaliação
Geração PT-AE: Uma Perspectiva Conjunta de Transferibilidade e Percepção
Ataques PT-AE de caixa preta otimizados
Nesta seção, primeiro apresentamos o histórico do reconhecimento de locutor e, em seguida, descrevemos formulações de ataque adversário de caixa preta para criar AEs de áudio contra o reconhecimento de locutor.
A. Reconhecimento de palestrante
O reconhecimento do orador tornou-se cada vez mais popular nos últimos anos. Ele traz às máquinas a capacidade de identificar um locutor por meio de suas características pessoais de fala, o que pode fornecer serviços personalizados, como login conveniente [4] e experiência personalizada [1] para chamadas e mensagens. Normalmente, a tarefa de reconhecimento de locutor inclui três fases: treinamento, inscrição e reconhecimento. É importante destacar que as tarefas de reconhecimento de falante [29], [118], [113] podem ser (i) identificação de falante baseada em múltiplos falantes (SI) ou (ii) verificação de falante baseada em um único falante (SV) . Especificamente, o SI pode ser dividido em identificação de conjunto fechado (CSI) e identificação de conjunto aberto (OSI) [39], [29]. Fornecemos informações detalhadas no Apêndice A.
B. Ataques de fala adversários
Dada uma função de reconhecimento de locutor f, que recebe uma entrada do sinal de fala original x e produz um rótulo de locutor y, um atacante adversário visa encontrar um pequeno sinal de perturbação δ ∈ Ω para criar um AE de áudio x + δ tal que
f(x + δ) = yt, D(x, x + δ) ≤ ϵ, (1)
onde yt ̸= y é o rótulo alvo do atacante; Ω é o espaço de busca para δ; D(x, x + δ) é uma função de distância que mede a diferença entre a fala original x e a fala perturbada x+δ e pode ser a distância baseada na norma Lp [29], [118] ou uma medida de diferença de característica auditiva (por exemplo, qDev [44] e NISQA [113]); e ϵ limita a mudança de x para x + δ.
Uma formulação comum de ataque de caixa branca [28], [72] para resolver (1) pode ser escrita como
onde J (·, ·) é a perda de predição no classificador f ao associar a entrada x + δ ao rótulo alvo yt, que é assumido como conhecido pelo atacante; e c é um fator para equilibrar a eficácia do ataque e a mudança do discurso original.
Um ataque caixa preta não tem conhecimento de J (·, ·) em (2) e, portanto, tem que adotar um tipo diferente de formulação dependendo de quais outras informações ele pode obter do classificador f. Se o ataque puder testar o classificador que fornece um resultado binário (aceitar ou rejeitar), o ataque [118], [74] pode ser formulado como
Como (3) contém f(x + δ), o invasor deve criar uma estratégia de sondagem para gerar continuamente uma versão diferente de δ e medir o resultado de f(x + δ) até obter sucesso. Conseqüentemente, um grande número de sondagens (por exemplo, mais de 10.000 [118]) é necessário, o que torna os ataques do mundo real menos práticos contra modelos comerciais de reconhecimento de locutor que aceitam sinais de fala no ar.
C. Motivação do Design
Para superar o complicado processo de investigação de um ataque de caixa preta, pretendemos encontrar uma forma alternativa de criar ataques práticos de caixa preta. Dado o fato de que um ataque de caixa preta não é possível sem sondar ou conhecer qualquer conhecimento de um classificador, adotamos uma suposição de conhecimento prévio usada em [118] de que o atacante possui uma amostra de áudio muito curta do locutor alvo (observe que [118] tem que investigar o modelo alvo além deste conhecimento). Essa suposição é mais prática do que permitir que o invasor conheça os detalhes internos do classificador. Dado este conhecimento limitado, pretendemos remover o processo de sondagem e criar EAs eficazes.
Os estudos existentes têm se concentrado em uma ampla gama de aspectos relacionados aos EAs treinados com base na verdade (GT-AEs). Os conceitos de fala de papagaio e treinamento de papagaios criam um novo tipo de EAs, EAs treinados em papagaios (EAs-PT), e também levantam três questões principais sobre a viabilidade e eficácia dos EAs-PT em direção a um ataque prático de caixa preta: (i ) Um modelo PT pode aproximar-se de um modelo GT? (ii) Os PT-AEs construídos sobre um modelo PT são tão transferíveis quanto os GT-AEs contra um modelo GT de caixa preta? (iii) Como otimizar a geração de PT-AEs para um ataque eficaz de caixa preta? A Figura 1 mostra o procedimento geral para abordarmos essas questões em direção a um novo ataque de caixa preta, prático e não investigativo: (1) propomos um método de conversão única em duas etapas para criar fala de papagaio para treinamento de papagaios na Seção III; (2) estudamos diferentes tipos de gerações PT-AE a partir de um modelo PT quanto à sua transferibilidade e qualidade de percepção na Seção IV; e (3) formulamos um ataque de caixa preta otimizado baseado em PT-AEs na Seção V. Em seguida, realizamos avaliações abrangentes para compreender o impacto do ataque proposto em sistemas de áudio comerciais na Seção VI.
D. Modelo de ameaça
Neste artigo, consideramos um invasor que tenta criar um AE de áudio para enganar um modelo de reconhecimento de locutor, de modo que o modelo reconheça o AE como a voz do locutor alvo. Adotamos uma suposição de ataque de caixa preta de que o invasor não tem conhecimento sobre a arquitetura, os parâmetros e os dados de treinamento usados no modelo de reconhecimento de fala. Assumimos que o invasor possui uma amostra de fala muito curta (alguns segundos em nossas avaliações) do locutor alvo, que pode ser coletada em ambientes públicos [118], mas a amostra não é necessariamente usada para treinamento no modelo alvo. Nós nos concentramos em um cenário mais realista, onde o invasor não investiga o modelo, o que é diferente da maioria dos estudos de ataque de caixa preta [113], [29], [118] que exigem muitas sondagens. Assumimos que o invasor precisa lançar a injeção over-the-air contra o modelo (por exemplo, Amazon Echo, Apple HomePod e Google Assistant).
Este artigo está disponível no arxiv sob licença CC0 1.0 DEED.