paint-brush
Mempercepatkan Model Resapan dengan TheStage AI: Kajian Kes model 20B dan Red Panda Recraftoleh@thestage
4,004 bacaan
4,004 bacaan

Mempercepatkan Model Resapan dengan TheStage AI: Kajian Kes model 20B dan Red Panda Recraft

oleh TheStage AI7m2024/11/26
Read on Terminal Reader

Terlalu panjang; Untuk membaca

Artikel ini meneroka pecutan model penyebaran teks-ke-imej Recraft menggunakan alat Python TheStage AI. Kami mengkaji cabaran untuk mengoptimumkan model proprietari dan membangunkan saluran paip yang cekap untuk pengoptimuman inferens PyTorch.
featured image - Mempercepatkan Model Resapan dengan TheStage AI: 
Kajian Kes model 20B dan Red Panda Recraft
TheStage AI HackerNoon profile picture
0-item
1-item


Recraft AI ialah alat reka bentuk yang dikuasakan oleh model penyebaran proprietari. Model baharu mereka Red Panda mengatasi semua model teks-ke-imej sedia ada termasuk Midjourney, DALL-E 3, FLUX. Recraft menggabungkan pengalaman pengguna yang unik untuk pereka bentuk dengan alatan AI yang canggih. Untuk menyokong berjuta-juta pengguna, model resapan memerlukan infrastruktur inferens yang mantap—menggabungkan perkakasan berkuasa dengan perisian yang cekap. Dalam artikel ini, kami akan meneroka cara alat pecutan AI TheStage membantu jurutera dan penyelidik AI Recraft untuk mencapai prestasi sehingga 2x ganda pada GPU Nvidia melalui antara muka Python yang intuitif!

pengenalan

Model penyebaran telah menunjukkan hasil yang luar biasa dalam beberapa tahun kebelakangan ini untuk penjanaan kandungan, termasuk imej, muzik, video dan jejaring 3D. Model ini menggunakan kos pengiraan masa inferens untuk meningkatkan hasil penjanaan secara berulang, mengemas kini sedikit output pada setiap langkah inferens. Kini kita boleh melihat analogi dalam LLM yang menggunakan penaakulan melalui inferens berbilang langkah untuk memberikan jawapan berkualiti tinggi.


Dalam TheStage AI kami sedang membina rangka kerja matematik am untuk model PyTorch sewenang-wenangnya untuk mengendalikan aliran pecutan model yang rumit sepenuhnya secara automatik. Sistem kami secara automatik mengesan pengoptimuman sedia ada pada perkakasan anda (kunatisasi, sparsifikasi) dan pilih untuk setiap lapisan algoritma yang betul untuk mencapai kualiti terbaik dengan saiz model yang dikehendaki dan kekangan kependaman atau mencari pecutan terbaik dengan kekangan kualiti terhad. Ia adalah masalah matematik yang sukar yang boleh kita selesaikan dengan cara yang sangat cekap! Artikel ini meneroka cara kami menggunakan alatan ini melalui perkongsian kami dengan Recraft AI.


Apabila mereka bentuk alat kami, kami memutuskan untuk menghormati prinsip berikut:


  • Penyesuaian perkakasan. Produk AI berkualiti tinggi sudah mempunyai infrastruktur pilihan mereka
  • Pemeliharaan kualiti. Produk AI berkualiti tinggi tidak boleh menerima penurunan kualiti
  • Privasi. Produk AI berkualiti tinggi mahu merahsiakan teknologi mereka dan berfungsi dengan alatan pada infrastruktur mereka sendiri
  • DNS sewenang-wenangnya. Produk AI berkualiti tinggi mungkin menggunakan seni bina dibangunkan dalaman yang alat pecutan awam untuk model sumber terbuka tidak dapat mengendalikan seni bina DNN yang kompleks untuk menghasilkan output yang betul.
  • Pytorch. Rangka kerja yang paling popular dan mudah untuk ramai jurutera AI.


Memandangkan syarat awal ini, kami menyasarkan untuk mencipta alat dengan ciri berikut:


  • Pecutan yang boleh dikawal. Kami merangka pengoptimuman inferens sebagai masalah pengoptimuman perniagaan, yang membolehkan pelanggan menentukan saiz model, kependaman atau kualiti yang mereka inginkan untuk data mereka.
  • Kompilasi ringkas. Menyusun model yang dihasilkan untuk pelaksanaan perkakasan yang cekap hanya memerlukan satu baris kod. Kami juga menyediakan antara muka yang mudah untuk mengendalikan pecahan graf.
  • Permulaan sejuk yang cepat. Untuk mencapai permulaan sejuk terpantas mungkin, kami membolehkan penjimatan model yang disusun. Inilah sebabnya kami tidak menggunakan pengkompil JIT.
  • Kerahan mudah. Menggunakan model yang dioptimumkan hendaklah semudah menggunakan model asal.


Model Resapan Teks-ke-Imej

Denoising Proses resapan visulisasi mudah.


Dalam setiap lelaran proses resapan, rangkaian saraf menafikan imej dalam ruang terpendam AutoEncoder Variasi. Imej yang baru diperoleh kemudian dicampur dengan hingar semula, tetapi dengan berat yang semakin berkurangan. Semasa lelaran awal, model resapan melakar adegan utama, memanfaatkan berat bunyi yang ketara untuk membuat peningkatan yang ketara. Dalam lelaran kemudian, ia memperhalusi butiran frekuensi tinggi. Pemerhatian ini membolehkan kami mereka bentuk saluran paip pecutan khusus dengan memperuntukkan kapasiti rangkaian secara strategik merentas lapisan daripada lelaran kepada lelaran, mengekalkan kualiti. Walau bagaimanapun, peruntukan sedemikian memerlukan alat khusus yang menggabungkan cerapan matematik dengan kejuruteraan yang baik — di sinilah TheStage AI boleh membantu dengan ketara!


Apabila kita merenung awan, memfokuskan pada bentuk tertentu, minda kita boleh membezakan bentuk rawak yang menyerupai pemikiran kita. Fenomena ini menggambarkan bagaimana otak kita mengenal pasti corak bunyi, mencari unsur-unsur yang sejajar dengan konteks mental kita. Begitu juga, model resapan menggunakan konsep ini semasa lelaran awalnya, memilih corak daripada hingar untuk mencipta lakaran awal bagi imej yang dikehendaki.


Pecutan dan Mampatan Model Resapan

Mempercepatkan model penyebaran boleh dilihat sebagai mempercepatkan DNN sewenang-wenangnya, tetapi kita perlu mengambil kira cabaran tertentu. Sebagai contoh, pengkuantitian statik, yang biasanya memberikan pecutan yang ketara, memperkenalkan cabaran dalam model resapan apabila pengagihan pengaktifan berubah daripada lelaran kepada lelaran. Untuk menangani perkara ini, kita sama ada perlu menganggarkan nilai optimum dengan betul untuk semua lelaran atau menggunakan persediaan pengkuantitian yang berbeza untuk setiap lelaran.


Model resapan mencabar untuk dilatih dan mencapai prestasi tinggi. Namun begitu, hasil yang ditunjukkan oleh pasukan Recraft mengatasi semua model teks-ke-imej moden . Mengesahkan kemerosotan model sedemikian boleh menjadi sukar, menjadikannya penting untuk menggunakan teknik pecutan yang mengekalkan semantik ciri asal. Algoritma kuantisasi boleh menjadi pilihan yang baik jika ia boleh menangani cabaran pengagihan pengaktifan yang berbeza-beza. Mari kita lihat pada saluran paip automatik kami, yang akan kami terangkan dalam bahagian berikut.

Pemprofilan

Memprofilkan model tertentu dengan data khusus membolehkan:


  • Tentukan saiz setiap parameter
  • Kenal pasti algoritma kuantisasi, sparsifikasi, pemangkasan yang berkenaan untuk setiap blok asas
  • Anggarkan kependaman untuk blok individu dengan susun atur memori yang berbeza
  • Susun semua maklumat yang dikumpul untuk ANNA (Automated NNs Accelerator)

Pemampatan & Pecutan Automatik

Selepas pemprofil telah mengumpulkan semua data yang diperlukan, kami boleh memulakan papan ANNA kami dan menggerakkan peluncur untuk menghasilkan versi model yang dioptimumkan yang berbeza. Pengguna kami kemudiannya boleh memilih calon terbaik berdasarkan pertukaran kos kualiti vs inferens. Alat kami mengendalikan keputusan kualiti subjektif ini dengan cara yang mudah.


TheStage AI ANNA. Gerakkan peluncur untuk melaraskan saiz model atau kependaman dengan penurunan kualiti minimum!

Operasi Gabungan dan Penyusunan

Seperti yang dinyatakan sebelum ini, kami tidak menggunakan kompilasi JIT kerana ia meningkatkan masa mula sejuk nod baharu. Kami juga tidak menggunakan penyusun luar biasa. Sebaliknya, kami menyusun konfigurasi dipercepatkan kompleks kami sendiri yang boleh mencampurkan algoritma yang berbeza. Untuk mencapai matlamat ini, kami telah membangunkan protokol dalaman kami sendiri untuk menentukan lapisan dipercepatkan DNN dalam cara agnostik perkakasan. Salah satu faedah utama rangka kerja pecutan AI TheStage ialah satu pusat pemeriksaan boleh disusun untuk pelbagai perkakasan, menyelesaikan keserasian merentas platform untuk perisian AI. Ciri ini akan menjadi penting terutamanya untuk penggunaan peranti tepi dalam pembangunan aplikasi.


Matlamat penyusun DNN adalah untuk:


  • Penyederhanaan Graf. Permudahkan graf pelaksanaan melalui gabungan operasi matematik, mengurangkan masa inferens
  • Pengurusan Memori. Kira memori yang diperlukan untuk setiap operasi dan uruskan penjadualan peruntukan dengan penggunaan semula memori yang cekap
  • Pelaksanaan Optimum. Profilkan pelaksanaan optimum untuk setiap operasi asas—tugas yang mencabar, kerana pelaksanaan terbaik mungkin memerlukan susun atur memori khusus, yang membawa kepada analisis sambungan interlayer
  • Penjadualan Operasi. Buat jadual operasi untuk graf pelaksanaan yang dioptimumkan
  • Serialisasi. Simpan semua maklumat ini untuk mengelakkan penyusunan semula model dalam larian berikutnya


Operasi berurutan boleh digabungkan menjadi kernel bercantum. Daripada menyalin keluaran operasi pertama ke memori global, kernel bercantum menilai operasi kedua secara langsung dalam daftar memori tempatan. Ini mempercepatkan inferens dengan ketara kerana pemindahan memori selalunya mengambil masa lebih lama daripada pengiraan sebenar. Walau bagaimanapun, tidak semua jujukan operasi boleh digabungkan—sesetengahnya tidak serasi dengan gabungan sepenuhnya. Untuk operasi mengikut unsur, kernel bercantum boleh dijana secara automatik. Alat NVFuser Nvidia, sebagai contoh, boleh menjana kernel untuk sebarang urutan operasi mengikut unsur.

Deployment dan Serving

Pelayan inferens dan saluran paip penskalaan automatik memainkan peranan penting dalam pemprosesan permintaan masuk yang kos efektif dan cekap. Ia juga boleh menyertakan pengumpulan permintaan dan pengumpulan statistik khusus untuk menyediakan penskalaan ramalan untuk penskala automatik. Dalam artikel akan datang kami, kami akan membincangkan pelayan inferens yang cekap dengan lebih terperinci!

Keputusan

Menggunakan semua saluran paip, kita boleh mencapai prestasi yang lebih baik daripada pengkompil Pytorch ( torch.compile ) dan sudah tentu jauh lebih baik daripada pelaksanaan PyTorch yang bersemangat float16. Selain itu, kerana pengkompil PyTorch menggunakan pendekatan kompilasi JIT pada setiap permulaan model, ia memerlukan penyusunan semula untuk banyak saiz input yang menjadikan permulaan sejuk cukup lama untuk aplikasi praktikal di mana kependaman adalah sangat penting.


Faedah Perniagaan

Berikut ialah faedah perniagaan utama hasil pecutan untuk produk Recraft:


  • Kurangkan kos infrastruktur dengan memberi perkhidmatan dua kali lebih ramai pengguna dengan perkakasan yang sama
  • Pengalaman pengguna yang dipertingkatkan dengan masa tindak balas penjanaan imej yang lebih pantas
  • Keupayaan untuk melayani lebih banyak pengguna serentak semasa beban puncak
  • Kelebihan daya saing melalui penyampaian perkhidmatan yang lebih pantas


Alat pengoptimuman AI TheStage membolehkan kami mempercepatkan model teks-ke-imej kami tanpa penurunan kualiti, mewujudkan pengalaman pengguna yang lebih baik untuk pelanggan kami.


Ketua Pegawai Eksekutif Recraft, Anna Veronika Dorogush

Ucapan terima kasih

Keputusan ini memberikan pengesahan yang sangat baik terhadap alatan dan penyelidikan kami tentang produk beban kerja berskala tinggi. Pasukan AI TheStage terus berusaha ke arah memberikan prestasi yang lebih hebat. Untuk mencapai matlamat ini, kami bekerjasama dengan rakan kongsi yang cemerlang! Kami amat berterima kasih kepada:


  • Ketua Pegawai Eksekutif Recraft Anna Veronika atas kerjasama yang berjaya. Kami sangat teruja untuk menjadi sebahagian kecil daripada perjalanan hebat mereka dalam menyampaikan alatan reka bentuk terbaik.
  • Ketua Recraft AI Pavel Ostyakov atas kepakarannya dalam DNN, maklum balas yang kukuh tentang alatan dan untuk menetapkan matlamat yang mencabar untuk projek kerjasama kami.
  • Pasukan Recraft AI untuk membina produk hebat ini. Imej dalam artikel ini dijana dengan Recraft!
  • Pasukan Nebius atas sokongan konsisten mereka dengan infrastruktur GPU yang sangat baik untuk penyelidikan kami.

Kenalan / Sumber

Jangan ragu untuk berhubung dengan kami mengenai sebarang pertanyaan! Kami boleh membantu anda mengurangkan kos infrastruktur inferens!

E-mel kami: hello@thestage.ai

Laman utama TheStage AI: thestage.ai

Platform pengoptimuman inferens AI TheStage: app.thestage.ai


L O A D I N G
. . . comments & more!

About Author

TheStage AI HackerNoon profile picture
TheStage AI@thestage
A full-stack AI platform 👽 Trusted voice in AI, we grindin', no sleep ✨

GANTUNG TANDA

ARTIKEL INI DIBENTANGKAN DALAM...