paint-brush
Əlavə Xərclər Olmadan Süni İntellektini Sürətləndirən Ən Müasir Texnikalartərəfindən@serialization
151 oxunuşlar Yeni tarix

Əlavə Xərclər Olmadan Süni İntellektini Sürətləndirən Ən Müasir Texnikalar

tərəfindən The Serialization Publication4m2024/12/15
Read on Terminal Reader

Çox uzun; Oxumaq

Seçilmiş SSM-lər nüvə birləşməsi, paralel skan alqoritmləri və yenidən hesablama kimi üsullardan istifadə edərək müasir avadanlıq üçün optimallaşdırılmışdır. Bu üsullar yaddaş istifadəsini azaltmaqla və daha sürətli emal etməyə imkan verməklə səmərəliliyi artırmağa kömək edir, SSM-ləri irimiqyaslı AI tapşırıqları üçün daha praktik edir.
featured image - Əlavə Xərclər Olmadan Süni İntellektini Sürətləndirən Ən Müasir Texnikalar
The Serialization Publication HackerNoon profile picture
0-item

Müəlliflər:

(1) Albert Qu, Maşın Öyrənmə Departamenti, Karnegi Mellon Universiteti və bərabər töhfə ilə;

(2) Tri Dao, Prinston Universitetinin Kompüter Elmləri Bölməsi və bərabər töhfə ilə.

Bağlantılar Cədvəli

Abstrakt və 1 Giriş

2 Dövlət Kosmos Modeli

3 Seçilmiş Dövlət Kosmos Modelləri və 3.1 Motivasiya: Sıxılma vasitəsi kimi seçim

3.2 Seçimlə SSM-lərin təkmilləşdirilməsi

3.3 Seçilmiş SSM-lərin səmərəli həyata keçirilməsi

3.4 Sadələşdirilmiş SSM Arxitekturası

3.5 Seçim mexanizmlərinin xassələri

3.6 Əlavə Model Təfərrüatları

4 Empirik Qiymətləndirmə və 4.1 Sintetik Tapşırıqlar

4.2 Dilin Modelləşdirilməsi

4.3 DNT modelləşdirilməsi

4.4 Audio Modelləşdirmə və Yaratma

4.5 Sürət və Yaddaş Testləri

4.6 Model Ablations

5 Müzakirə

6 Nəticə və İstinadlar


Müzakirə: Seçim Mexanizmi

B Əlaqədar İş

C Selektiv SSM-lərin mexanikası

D Seçilmiş SSM-lər üçün aparatdan xəbərdar olan alqoritm

E Eksperimental Təfərrüatlar və Əlavə Nəticələr

3.3 Seçilmiş SSM-lərin səmərəli həyata keçirilməsi

Qıvrımlar (Krizhevsky, Sutskever, and Hinton 2012) və Transformers (Vaswani et al. 2017) kimi aparata uyğun arxitekturalar geniş tətbiq olunur. Burada biz seçmə SSM-ləri müasir avadanlıqlarda (GPU) da səmərəli etmək məqsədi daşıyırıq. Seçim mexanizmi olduqca təbiidir və əvvəlki işlərdə təkrarlanan SSM-lərdə zamanla ∆ dəyişməsinə icazə vermək kimi xüsusi seçim hallarını daxil etməyə cəhd edilmişdir (Gu, Dao, et al. 2020). Bununla belə, əvvəllər qeyd edildiyi kimi, SSM-lərin istifadəsində əsas məhdudiyyət onların hesablama səmərəliliyidir, buna görə də S4 və bütün törəmələr LTI (seçimsiz) modellərdən, ən çox qlobal konvolyutsiyalar şəklində istifadə edirdilər.


3.3.1 Əvvəlki Modellərin Motivasiyası


Biz əvvəlcə bu motivasiyaya yenidən baxırıq və əvvəlki metodların məhdudiyyətlərini aradan qaldırmaq üçün yanaşmamızı nəzərdən keçiririk.


• Yüksək səviyyədə, SSM-lər kimi təkrarlanan modellər həmişə ifadəlilik və sürət arasında balans yaradır: Bölmə 3.1-də müzakirə edildiyi kimi, daha böyük gizli vəziyyət ölçüsü olan modellər daha effektiv, lakin daha yavaş olmalıdır. Beləliklə, biz sürət və yaddaş xərclərini ödəmədən gizli vəziyyət ölçüsünü maksimuma çatdırmaq istəyirik.


• Nəzərə alın ki, təkrarlanan rejim qıvrım rejimindən daha çevikdir, çünki sonuncu (3) birincinin (2) genişləndirilməsindən əldə edilir (Gu, Goel, and Ré 2022; Gu, Johnson, Goel, et al. 2021). Bununla belə, bunun üçün ℎ formalı (B, L, D, N), giriş x və çıxış y formasından (B, L, D). Beləliklə, vəziyyətin hesablamasını aşa bilən və yalnız (B, L, D) konvolyusiya nüvəsini (3a) reallaşdıran daha səmərəli konvolyutsiya rejimi tətbiq edildi.


• Əvvəlki LTI SSM-ləri effektiv vəziyyət ölçüsünü Nx əmsalı (≈ 10 - 100) artırmaq üçün ikili təkrarlanan-konvolyusiyalı formalardan istifadə edir, bu da ənənəvi RNN-lərdən xeyli böyükdür və effektivlik cərimələri olmadan.


3.3.2 Seçmə Skanına İcmal: Aparatdan Məlumatlı Dövlət Genişlənməsi


Seçim mexanizmi LTI modellərinin məhdudiyyətlərini aradan qaldırmaq üçün nəzərdə tutulmuşdur; eyni zamanda, biz SSM-lərin hesablama probleminə yenidən baxmalıyıq. Biz bunu üç klassik üsulla həll edirik: ləpə birləşməsi, paralel tarama və yenidən hesablama. İki əsas müşahidə edirik:


• Sadəlövh recurrent hesablama O(BLDN) FLOP-lardan istifadə edir, konvolyusiya hesablama isə O(BLD log(L)) FLOP-lardan istifadə edir və birincinin sabit əmsalı daha aşağıdır. Beləliklə, uzun ardıcıllıqlar və çox böyük olmayan dövlət ölçüsü N üçün təkrarlanan rejim əslində daha az FLOP-dan istifadə edə bilər.


• İki problem təkrarlanmanın ardıcıl təbiəti və böyük yaddaş istifadəsidir. Sonuncunu həll etmək üçün, konvolyusiya rejimi kimi, tam vəziyyəti ℎ reallaşdırmağa cəhd edə bilərik.


Əsas ideya müasir sürətləndiricilərin (GPU) xüsusiyyətlərindən istifadə edərək vəziyyəti ℎ yalnız yaddaş iyerarxiyasının daha səmərəli səviyyələrində reallaşdırmaqdır. Xüsusilə, əksər əməliyyatlar (matrislərin çoxaldılması istisna olmaqla) yaddaş bant genişliyi ilə məhdudlaşır (Dao, Fu, Ermon, et al. 2022; Ivanov et al. 2021; Williams, Waterman, and Patterson 2009). Buraya skan əməliyyatımız daxildir və biz yaddaş IO-larının miqdarını azaltmaq üçün nüvə birləşməsindən istifadə edirik ki, bu da standart tətbiqetmə ilə müqayisədə əhəmiyyətli sürətlənməyə səbəb olur.



Ardıcıl təkrarlanmanın qarşısını almaq üçün biz müşahidə edirik ki, xətti olmasa da, hələ də işə səmərəli paralel tarama alqoritmi ilə paralelləşdirilə bilər (Blelloch 1990; Martin and Cundy 2018; Smith, Warrington, and Linderman 2023).


Nəhayət, geri yayılma üçün zəruri olan aralıq vəziyyətləri saxlamaqdan da çəkinməliyik. Yaddaş tələblərini azaltmaq üçün klassik yenidən hesablama texnikasını diqqətlə tətbiq edirik: girişlər HBM-dən SRAM-a yükləndikdə aralıq vəziyyətlər saxlanılmır, lakin geriyə keçiddə yenidən hesablanır. Nəticədə, əridilmiş seçmə skan təbəqəsi FlashAttention ilə optimallaşdırılmış transformator tətbiqi ilə eyni yaddaş tələblərinə malikdir.


Birləşdirilmiş ləpə və yenidən hesablamanın təfərrüatları Əlavə D-də verilmişdir. Tam Seçilmiş SSM təbəqəsi və alqoritmi Şəkil 1-də təsvir edilmişdir.