लेखक:
(1) रुई डुआन यूनिवर्सिटी ऑफ साउथ फ्लोरिडा टाम्पा, यूएसए (ईमेल: ruiduan@usf.edu);
(2) झे क्वो सेंट्रल साउथ यूनिवर्सिटी चांग्शा, चीन (ईमेल: zhe_qu@csu.edu.cn);
(3) लिआ डिंग अमेरिकन यूनिवर्सिटी वाशिंगटन, डीसी, यूएसए (ईमेल: ding@american.edu);
(4) याओ लियू यूनिवर्सिटी ऑफ साउथ फ्लोरिडा टाम्पा, यूएसए (ईमेल: yliu@cse.usf.edu);
(5) याओ लियू यूनिवर्सिटी ऑफ साउथ फ्लोरिडा टाम्पा, यूएसए (ईमेल: yliu@cse.usf.edu)।
तोता प्रशिक्षण: व्यवहार्यता और मूल्यांकन
पीटी-एई पीढ़ी: एक संयुक्त हस्तांतरणीयता और धारणा परिप्रेक्ष्य
अनुकूलित ब्लैक-बॉक्स पीटी-एई हमले
इस अनुभाग में, हम सबसे पहले स्पीकर पहचान की पृष्ठभूमि का परिचय देंगे, फिर स्पीकर पहचान के विरुद्ध ऑडियो AEs बनाने के लिए ब्लैक-बॉक्स प्रतिकूल हमले के फॉर्मूलेशन का वर्णन करेंगे।
ए. स्पीकर पहचान
हाल के वर्षों में स्पीकर पहचान अधिक से अधिक लोकप्रिय हो गई है। यह मशीनों को किसी स्पीकर की व्यक्तिगत भाषण विशेषताओं के माध्यम से पहचानने की क्षमता प्रदान करता है, जो कॉलिंग और मैसेजिंग के लिए सुविधाजनक लॉगिन [4] और व्यक्तिगत अनुभव [1] जैसी व्यक्तिगत सेवाएँ प्रदान कर सकता है। आम तौर पर, स्पीकर पहचान कार्य में तीन चरण शामिल होते हैं: प्रशिक्षण, नामांकन और पहचान। यह उजागर करना महत्वपूर्ण है कि स्पीकर पहचान कार्य [29], [118], [113] या तो (i) कई-स्पीकर-आधारित स्पीकर पहचान (एसआई) या (ii) एकल-स्पीकर-आधारित स्पीकर सत्यापन (एसवी) हो सकते हैं। विशेष रूप से, एसआई को क्लोज-सेट आइडेंटिफिकेशन (सीएसआई) और ओपन-सेट आइडेंटिफिकेशन (ओएसआई) [39], [29] में विभाजित किया जा सकता है। हम परिशिष्ट ए में विस्तृत जानकारी प्रदान करते हैं।
बी. प्रतिकूल भाषण हमले
एक स्पीकर पहचान फ़ंक्शन f दिया गया है, जो मूल स्पीच सिग्नल x का इनपुट लेता है और स्पीकर के लेबल y को आउटपुट करता है, एक प्रतिकूल हमलावर एक छोटा गड़बड़ी सिग्नल δ ∈ Ω खोजने का लक्ष्य रखता है ताकि एक ऑडियो AE x + δ बनाया जा सके
f(x + δ) = yt, D(x, x + δ) ≤ ϵ, (1)
जहाँ yt ̸= y हमलावर का लक्ष्य लेबल है; Ω δ के लिए खोज स्थान है; D(x, x + δ) एक दूरी फ़ंक्शन है जो मूल भाषण x और परेशान भाषण x + δ के बीच अंतर को मापता है और यह Lp मानक आधारित दूरी [29], [118] या श्रवण सुविधा अंतर का एक उपाय हो सकता है (उदाहरण के लिए, qDev [44] और NISQA [113]); और ϵ x से x + δ तक परिवर्तन को सीमित करता है।
(1) को हल करने के लिए एक सामान्य व्हाइट-बॉक्स अटैक फॉर्मूलेशन [28], [72] के रूप में लिखा जा सकता है
जहाँ J (·, ·) इनपुट x + δ को लक्ष्य लेबल yt से संबद्ध करते समय क्लासिफायर f में पूर्वानुमान हानि है, जिसे हमलावर द्वारा ज्ञात माना जाता है; और c हमले की प्रभावशीलता और मूल भाषण में परिवर्तन को संतुलित करने वाला एक कारक है।
ब्लैक-बॉक्स अटैक को (2) में J (·, ·) का कोई ज्ञान नहीं होता है और इस प्रकार उसे क्लासिफायर f से प्राप्त होने वाली अन्य जानकारी के आधार पर एक अलग प्रकार का फॉर्मूलेशन अपनाना पड़ता है। यदि अटैक क्लासिफायर की जांच कर सकता है जो बाइनरी (स्वीकार या अस्वीकार) परिणाम देता है, तो अटैक [118], [74] को इस प्रकार तैयार किया जा सकता है
चूँकि (3) में f(x + δ) शामिल है, हमलावर को लगातार δ का एक अलग संस्करण उत्पन्न करने और f(x + δ) के परिणाम को मापने के लिए एक जांच रणनीति बनानी होगी जब तक कि वह सफल न हो जाए। तदनुसार, बड़ी संख्या में जांच (जैसे, 10,000 से अधिक [118]) की आवश्यकता होती है, जो वास्तविक दुनिया के हमलों को वाणिज्यिक स्पीकर पहचान मॉडल के खिलाफ कम व्यावहारिक बनाता है जो हवा पर भाषण संकेतों को स्वीकार करते हैं
सी. डिजाइन प्रेरणा
ब्लैकबॉक्स हमले की बोझिल जांच प्रक्रिया को दूर करने के लिए, हमारा लक्ष्य व्यावहारिक ब्लैक-बॉक्स हमले बनाने का एक वैकल्पिक तरीका खोजना है। इस तथ्य को देखते हुए कि क्लासिफायर की जांच या किसी भी ज्ञान के बिना ब्लैक-बॉक्स हमला संभव नहीं है, हम [118] में इस्तेमाल किए गए पूर्व ज्ञान की एक धारणा को अपनाते हैं कि हमलावर के पास लक्ष्य वक्ता का एक बहुत छोटा ऑडियो नमूना है (ध्यान दें कि [118] को इस ज्ञान के अलावा लक्ष्य मॉडल की जांच करनी है)। यह धारणा हमलावर को क्लासिफायर के आंतरिक भाग को जानने देने से अधिक व्यावहारिक है। इस सीमित ज्ञान को देखते हुए, हमारा लक्ष्य जांच प्रक्रिया को हटाना और प्रभावी एई बनाना है।
मौजूदा अध्ययनों ने ग्राउंड-ट्रुथ प्रशिक्षित एई (जीटी-एई) के संबंध में कई पहलुओं पर ध्यान केंद्रित किया है। तोता भाषण और तोता प्रशिक्षण की अवधारणाएं एक नए प्रकार के एई, तोता-प्रशिक्षित एई (पीटी-एई) बनाती हैं, और एक व्यावहारिक ब्लैक-बॉक्स हमले की दिशा में पीटी-एई की व्यवहार्यता और प्रभावशीलता के तीन प्रमुख प्रश्न भी उठाती हैं: (i) क्या एक पीटी मॉडल जीटी मॉडल का अनुमान लगा सकता है? (ii) क्या पीटी मॉडल पर निर्मित पीटी-एई ब्लैक-बॉक्स जीटी मॉडल के खिलाफ जीटी-एई के रूप में हस्तांतरणीय हैं? (iii) एक प्रभावी ब्लैक-बॉक्स हमले की दिशा में पीटी-एई की पीढ़ी को कैसे अनुकूलित करें? चित्र 1 एक नए, व्यावहारिक और गैर-जांच ब्लैक-बॉक्स हमले की दिशा में इन सवालों को संबोधित करने के लिए हमारे लिए समग्र प्रक्रिया दिखाता है: और (3) हम अनुभाग V में PT-AEs पर आधारित एक अनुकूलित ब्लैकबॉक्स हमले को तैयार करते हैं। फिर, हम अनुभाग VI में वाणिज्यिक ऑडियो सिस्टम पर प्रस्तावित हमले के प्रभाव को समझने के लिए व्यापक मूल्यांकन करते हैं।
D. खतरा मॉडल
इस पत्र में, हम एक हमलावर पर विचार करते हैं जो स्पीकर पहचान मॉडल को बेवकूफ बनाने के लिए एक ऑडियो एई बनाने का प्रयास करता है ताकि मॉडल एई को लक्षित स्पीकर की आवाज के रूप में पहचान सके। हम एक ब्लैक-बॉक्स हमले की धारणा को अपनाते हैं कि हमलावर को भाषण पहचान मॉडल में उपयोग की जाने वाली वास्तुकला, मापदंडों और प्रशिक्षण डेटा के बारे में कोई जानकारी नहीं है। हम मानते हैं कि हमलावर के पास लक्षित स्पीकर का एक बहुत ही छोटा भाषण नमूना (हमारे मूल्यांकन में कुछ सेकंड) है, जिसे सार्वजनिक सेटिंग्स [118] में एकत्र किया जा सकता है, लेकिन नमूना का उपयोग लक्ष्य मॉडल में प्रशिक्षण के लिए आवश्यक रूप से नहीं किया जाता है। हम अधिक यथार्थवादी परिदृश्य पर ध्यान केंद्रित करते हैं जहां हमलावर मॉडल की जांच नहीं करता है, जो कि अधिकांश ब्लैक-बॉक्स हमले अध्ययनों [113], [29], [118] से अलग है, जिनमें कई जांच की आवश्यकता होती है।
यह पेपर CC0 1.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।