Авторы:
(1) Ясон Офейдис, факультет электротехники и Йельский институт сетевых наук, Йельский университет, Нью-Хейвен {равный вклад};
(2) Диего Кидански, факультет электротехники и Йельский институт сетевых наук, Йельский университет, Нью-Хейвен {равный вклад};
(3) Леандрос Тассиулас Левон Гукасян, Activeloop, Маунтин-Вью, Калифорния, США, факультет электротехники и Йельский институт сетевых наук, Йельский университет, Нью-Хейвен.
В этом разделе описываются несколько усилий сообщества по сравнительному анализу библиотек, моделей и фреймворков глубокого обучения.
Существует большой объем работы по сравнительному анализу инструментов и методов глубокого обучения. MLPerf (Mattson et al., 2020), пожалуй, самый популярный проект сравнительного анализа ML для современных рабочих нагрузок ML, который нацелен как на обучение, так и на вывод, охватывающий множество задач ИИ. Авторы используют в качестве объективного показателя время обучения, необходимое для достижения заданного уровня точности. Эта метрика требует дополнительных вычислительных ресурсов и плохо подходит для тестирования параметров загрузчика данных. DeepBench (Baidu-Research, 2020) — проект с открытым исходным кодом от Baidu Research, ориентированный на операции на уровне ядра в стеке глубокого обучения; он оценивает производительность отдельных операций (например, умножения матриц), реализованных в библиотеках и выполняемых непосредственно на базовом оборудовании. Аналогичным образом, AI Matrix (Чжан и др., 2019) использует микротесты для охвата основных операторов, измерения производительности для полностью подключенных и других общих уровней, а также сопоставляет характеристики реальных рабочих нагрузок, предлагая синтетические тесты.
Сравнение фреймворков. В этом разделе представлены усилия по сравнительному анализу и сравнению различных фреймворков глубокого обучения, таких как PyTorch, TensorFlow и т. д.
В Deep500 (Бен-Нун и др., 2019) авторы предоставляют модульную программную среду для измерения эффективности DL-обучения; Несмотря на то, что он настраиваемый, в нем отсутствует тестирование гиперпараметров и нет простого в использовании способа добавления и экспериментирования с новыми библиотеками и рабочими процессами. AIBench (Gao et al., 2020) и DAWNBench (Coleman et al., 2019) являются комплексными тестами, причем последний является первым соревнованием по эталонным тестам с участием нескольких участников, предназначенным для измерения сквозной производительности системы глубокого обучения. Как и в случае с MLPerf, никто не исследует влияние альтернативной загрузки библиотек на свои рабочие процессы. В (Wu et al., 2019) авторы представляют систематический анализ моделей использования ЦП и памяти для различных библиотек параллельных вычислений и размеров пакетов, а также их влияние на точность и эффективность обучения. Этот анализ близок нашей работе; однако он не предоставляет ресурс с открытым исходным кодом для взаимодействия и тестирования новых библиотек.
В (Shi et al., 2016) авторы сравнивают структуры глубокого обучения, основанные на производительности различных нейронных сетей (например, полностью подключенных, сверточных и рекуррентных нейронных сетей). dPRO (Ху и др., 2022) фокусируется на тестах распределенного (многочипового) обучения, используя профилировщик, который собирает трассировки распределенного обучения DNN во время выполнения в нескольких платформах. DLBench (Лаборатория гетерогенных вычислений в HKBU, 2017 г.) — это эталонная среда для измерения различных инструментов глубокого обучения, таких как Caffe, Tensorflow и MXNet. В (Лю и др., 2018) авторы изучают влияние конфигураций по умолчанию каждой платформы на производительность модели (время и точность), демонстрируя сложное взаимодействие параметров и гиперпараметров DNN с характеристиками, специфичными для набора данных. Тем не менее, эксперименты включают только конфигурации по умолчанию для каждой платформы и не содержат никакого анализа настроек, отличных от настроек по умолчанию. В (Wu et al., 2018) авторы тестируют конфигурации фреймворков по умолчанию и пытаются найти оптимальные для каждого набора данных; они также исследуют процесс загрузки данных, но не оценивают сторонние библиотеки. Все ранее опубликованные работы в этом параграфе, хотя и имеют многочисленные сходства с нашей работой, имеют с ней одно существенное отличие; они не проводят никакого анализа или сравнительного анализа PyTorch или экосистемы библиотек для загрузки данных, описанной в этой статье, которая, как указано во введении, в настоящее время является одной из самых популярных платформ глубокого обучения, широко используемых как в промышленности, так и в научных кругах. .
Сравнение различных архитектур и оборудования DNN: ParaDNN (Ванг и др., 2020) генерирует параметризованные сквозные модели для работы на целевых платформах, например, изменяя размер пакета, чтобы выйти за рамки базового оборудования, но фокусируется на сравнение специализированных платформ (TPU v2/v3) и архитектур устройств (TPU, GPU, CPU). К ParaDNN относится работа (Bianco et al., 2018), которая предоставляет комплексный инструмент для выбора подходящей архитектуры, реагирующей на ограничения ресурсов в практических развертываниях и приложениях, на основе анализа аппаратных систем с разнообразными вычислительными ресурсами. Однако он больше концентрируется на разработке моделей глубокого обучения, чем на средах глубокого обучения, в которых они реализованы. Хотя Fathom (Adolf et al., 2016) и TBD Suite (Zhu et al., 2018) ориентированы на оценку полных архитектур моделей для широкого круга задач и разнообразных рабочих нагрузок, они ограничены в этих вопросах и не имеют критериев для определения состояния. -современные инновации в обучении.
Другие устройства: AI Benchmark (Игнатов и др., 2018), возможно, является первым набором тестов для мобильного вывода. Однако его результаты ориентированы исключительно на смартфоны Android и измеряют только задержку, предоставляя при этом сводную оценку, которая явно не указывает целевые показатели качества. (Хадиди и др., 2019) исследуют передовые выводы DNN с точки зрения времени выполнения, энергопотребления и температуры. (Tao et al., 2018) охватывает конфигурации с различным поведением оборудования, например скоростью прогнозирования ветвей и расстоянием повторного использования данных, а также оценивает точность, производительность и энергопотребление интеллектуальных процессоров и аппаратных платформ. Обе эти работы ориентированы на разный диапазон устройств, таких как периферийные устройства и интеллектуальные процессоры, что выходит за рамки данной работы.
Этот документ доступен на arxiv под лицензией CC 4.0.