isicad: Тест-драйв HYPERPC PRO T7 STUDIO. Взгляд на платформу NVIDIA STUDIO в действии

Дмитрий Чехлов

Коллеги и друзья! Я рад приветствовать вас в очередном большом «многосерийном» обзоре новинок компьютерного оборудования. В прошлом году я активно тестировал ноутбуки, созданные на основе инициативы и платформы NVIDIA STUDIO и ориентированные на широкий круг пользователей. Я протестировал два ноутбука от MSI (см. ссылки в конце публикации) и продемонстрировал возможности платформы NVIDIA STUDIO.

В этом году специалисты CG-индустрии и проектирования много говорят о Blender и AI, а также ML, но я же, как всегда, в поиске интересных решений и способов применить возможности нового оборудования, такого как процессоры Intel Core 10-го поколения и NVIDIA TITAN RTX. Оказалось, что с помощью таких систем можно решать самые разнообразные вычислительные задачи параллельно.

Итак, мы в M&E и области проектирования всегда испытываем определенные трудности при нехватке вычислительной мощности рабочих станций. Но в то же время хотим приобретать компьютеры, которые будут стоять на рабочем месте не один год и выполнять самые разнообразные задачи, «привет дженералистам!»* .

В новейшем тестировании и практической оценке решения и демонстрации возможностей NVIDIA STUDIO я постарался собрать максимум информации о десятом поколении процессоров Intel Core i9 и GPU линейки TITAN RTX и изучить возможности технологии NVIDIA NVLink.

Сразу замечу, что каждое из приложений по-своему использует возможности CPU и GPU, а также может поддерживать и не поддерживать режим NVIDIA SLI и в частности NVLink, а это может потребовать создания глобальных конфигураций системы под определенные задачи.

* Дженералист (Generalist) – в индустрии M&E является специалистом широкого профиля, способным решать самые разнообразные задачи за короткое время. – прим. автора.

Характеристики протестированной рабочей станции HYPERPC PRO T7 STUDIO
Взаимодействие в различных процессах
Обзор и тестирование компонентов системы NVIDIA STUDIO
Возможности платформы NVIDIA STUDIO с NVIDIA TITAN RTX
Линейки компьютеров HYPERPC PRO STUDIO

Характеристики протестированной рабочей станции HYPERPC PRO T7 STUDIO

В прошлом году мне довелось протестировать превосходные ноутбуки на основе платформы NVIDIA STUDIO. Данные обзоры были с интересом встречены профессиональными пользователями. Зимой 2020 года компания NVIDIA объявила о расширении платформы NVIDIA STUDIO и на настольные системы. Идея заключается в том, чтобы создавать сбалансированные рабочие станции с применением единого многофункционального драйвера – STUDIO DRIVER, который содержит не только обширные настройки и шаблоны для игровых приложений, но и реализует поддержку профессиональных приложений и графических ускорителей линейки NVIDIA Quadro, а пользователям GPU линейки GeForce становятся доступны новые возможности, ранее доступные только в линейке GPU NVIDIA Quadro. Мне же, как профессиональному пользователю, было интересно взглянуть и протестировать современные приложения на современном оборудовании с поддержкой многих передовых технологий и сравнить, как изменилась производительность нового процессора по сравнению с CPU предыдущих поколений и даже с CPU от AMD. При этом я планирую обновлять свою рабочую станцию, и я непременно рискнул предоставленной мне возможностью протестировать современный компьютер.

Фотография пришедшего ко мне на тест-драйв компьютера

В свежем обзоре я рассматриваю новинку этого лета, а именно высокопроизводительную рабочую станцию HYPERPC PRO T7 от компании HYPERPC в кастомной конфигурации.

Для вашего удобства я подготовил сводную таблицу всех ключевых характеристик протестированной мною рабочей станции.

Таблица 1. Характеристики и краткие спецификации рабочей станции HYPERPC PRO T, участвовавшей в тестировании

Характеристики HYPERPC PRO T7 STUDIO
Matherboard	ASUS WS X299 SAGE	Intel LGA-2066 DDR4 4200MHz Dual M.2 & U.2 support Intel X299 CEB Motherboard for Intel® Core™ X-Series Processors Suport 2-, 3-, 4-Way NVIDIA®SLI® or AMD® CrossfireX™
CPU	Intel Core i9-10940X (@3.30 GHz)	14-cores / 28-threads Cache L3: 19.25 MB Intel® Smart Cache Max Turbo Frequency @4.6 GHz TDP: 165W
RAM	128 Gb DDR4-2400 (@1200 MHz)
HDD	Seagate IronWolf 10Tb	ST10000VN0008 SATA 6 Гбит/с 7200 RPM 256 Mb cache memory
SSD M.2	Samsung SSD 970 EVO Plus 2 Tb	PCIe Gen 3.0 x4, NVMe 1.3 Samsung 2GB Low Power DDR4 SDRAM buffer memory Read: 3500 Mb/s Write: 2500 Mb/s
GPU_1	NVIDIA TITAN RTX	CUDA cores: 4608 Tensor cores: 576 RT cores: 72 Base Clock (MHz): 1350 MHz Boost Clock (MHz): 1770 MHz Memory Clock: 7000 MHz L2 Cache Size: 6144 Kb Total Video Memory: 24 GB GDDR6 Memory Interface: 384-bit Total Memory Bandwidth: 672 GB/s Texture Rate (Bilinear): 510 GigaTexels/sec Connectors: 3 x DisplayPort , 1 x HDMI, 1 x USB Type-C
GPU_2	NVIDIA TITAN RTX
GPU_SLI	GEFORCE RTX NVLINK BRIDGE 3
CPU Fan	Be Quiet! DARK ROCK PRO 4

Как я писал в ранних обзорах, ключевыми для платформы NVIDIA STUDIO являются нескольких правил, обеспечивающих высокую производительность в работе. По сути, мы увеличиваем размер системы от мобильного форм-фактора до полноценной рабочей станции, с возможностью более гибкой кастомизации. А формат настольного ПК для этого подходит лучше всего.

Для моего тестирования была подготовлена модификация компьютера с двумя GPU NVIDIA TITAN RTX, поставляемых с 24 Гб графической памяти и созданных на основе чипа TU102 на базе архитектуры NVIDIA Turing.

В качестве платформы была выбрана материнская плата ASUS WS X299 SAGE, созданная на основе чипсета X299 и поддерживающая процессоры Intel Core 10-го поколения. Для работы с большими массивами данных я попросил укомплектовать компьютер 128 Гб ОЗУ, что позволило протестировать приложения с ИИ, а также протестировать визуализацию комплексных моделей и сцен.

Сердцем всей системы является процессор Intel Core i9-10940X. Процессоры 10-го поколения стали доступны совсем недавно и пока в основном для компаний производителей компьютерного оборудования. Так как плата поддерживает установку двух и более GPU, для тестов разработчики системы предложили установить два GPU NVIDIA TITAN RTX, объединенные мостом NVLink, чтобы протестировать производительность системы в различных задачах и приложениях, требовательных к системной памяти и памяти GPU. Это особенно актуально в задачах обработки видео и композитинга, где могут активно использоваться возможности GPU для ускорения вычислений и хранения кэша данных.

Перед тем как я поделюсь результатами тестирования и подробнее опишу ключевые особенности каждого из протестированных компонентов, я хочу сделать небольшое отступление и описать процессы и задачи, которые используют определенные компоненты системы (CPU, GPU, SSD, HDD). Одним из важных моментов является тестирование совокупности компонентов системы, когда в вычислениях активно участвуют и CPU и GPU, а также дополнительное оборудование, обеспечивающее ускорение вычислений в специализированных задачах, например обработке звука или оцифровке видеосигнала.

Взаимодействие в различных процессах

Одним из проблемных мест многих обзоров является то, что все тесты выполняются с учетом того, что нагрузке подвергается определенный элемент компьютерной системы, например процессор или видеокарта. Но когда мы работаем, программа задействует практически все компоненты системы, например считывает данные с жесткого диска или SSD-накопителя, а также может обратиться к сетевому хранилищу. Затем они загружаются в системную память и далее их визуализацию выполняет графический ускоритель, и вот здесь важность обработки данных и последовательности операций, выполняемых внутри приложений, возрастает.

Опираясь на личный опыт, я стараюсь не использовать параллельно и CPU, и GPU и считаю особой расточительностью отдавать память GPU, даже если её объем составляет 11 или даже 24 Гб, под хранение кэша страниц веб-браузера. А вот использовать GPU как инструмент для кэширования данных в процессе анимации, визуализации и композитинга гораздо выгоднее.

Каждое приложение обладает определенным набором инструментов, классические приложения зачастую большинство вычислений выполняют с помощью CPU, а GPU выполняет визуализацию изображения в окне проекции или на экране. То есть когда мы выполняем действие, чтобы GPU отобразил изображение, необходимо, чтобы CPU предварительно выполнил вычисление. Это хорошо заметно в играх, когда при манипуляции персонажем анимация и дополнительные трансформации рассчитываются CPU, а GPU формирует кадр, и это все должно происходить в 1/60 секунды и даже быстрее. Но в играх, по сути, мы работаем с кэшем, заранее подготовленными наборами операций и анимации, а если говорить про создание моделей, их анимацию и визуализацию – здесь процесс изменяется, и CPU может быстро не обработать данные, из-за чего мы видим снижение производительности. Такие приложения, как Autodesk Maya, обладают внутренними инструментами для профилирования и оптимизации сцены. Технические специалисты могут заранее продумать, какие задачи будут выполняться на CPU, а какие на GPU, или они будут выполнены параллельно.

Чтобы система корректно справлялась с поставленными задачами и были минимальные задержки, необходимо подбирать компоненты, которые способны быстро выполнять как последовательные, так и параллельные вычисления. А для этого необходима надежная и высокоскоростная передача данных между CPU и GPU, за что обычно отвечают шина PCI-E и системная шина, осуществляющая передачу данных из системной памяти в CPU и обратно.

Рассмотрим три примера возможных рабочих процессов, в которых пользователь выполняет определенные операции, но задействует различные инструменты, разработанные для выполнения на CPU, GPU или в гибридном режиме (CPU/GPU).

Рис. 1. Рабочий процесс взаимодействия операций, выполняемых пользователем, и оборудования

В приведенном на рис. 1 примере вы можете видеть единый рабочий процесс, состоящий из нескольких операций, например создание модели с применением различных инструментов программы, какие-то из которых разработаны для выполнения на CPU, а какие-то на GPU. В большинстве процессов мы создаем контент, используя CPU. Выполняя действие в программе, процессор осуществляет вычисления и затем, передавая обновленные данные алгоритму визуализации, визуализирует с помощью GPU. В иных случаях GPU может выступать как со-ускоритель вычислений и не только формировать визуальный результат, но и выполнять соответствующий расчет.

Рис. 2. Рабочий процесс, в котором использованы три подхода к выполнению операций

Второй возможный сценарий выполнения операций – это применение инструментов с различными функциями и возможностями аппаратного ускорения. Мы можем простые операции переложить на плечи CPU, и в то же время массивные параллельные вычисления можно передать GPU. Это хорошо видно в процессе работы с видеоконтентом и его кодированием/декодированием. В ряде задач, например в процессе гибридного рендеринга или процессе дополнительных вычислений при изменении модели, могут быть применены как CPU, так и GPU. В случае если внесены изменения в лопатки турбореактивного двигателя, сами лопатки и их форму перестроить не сложно, а вот обработать модель, изучить потоки воздуха и завихрения – такой расчет может быть переложен на плечи GPU или выполнен в гибридном режиме.

Рис. 3. Рабочий процесс, в котором использован гибридный подход к вычислениям

Наиболее оптимальным, но не всегда реализуемым постоянно является гибридный процесс, когда используются возможности CPU и GPU и правильно скомбинированы инструменты для работы. На рис. 3 приведен пример подобного процесса, когда операции пользователя выполняются и на CPU, и на GPU, но постоянно. Такой подход широко используется специалистами по компьютерной визуализации и цифровому композитингу. Это позволяет постоянно использовать возможности всей системы в целом, а не отдавать все ресурсы одной задаче.

Использование многопроцессорных, многопоточных архитектур позволяет создавать сложные рабочие конвейеры для достижения максимальной производительности в работе. Использование возможностей виртуализации значительно расширяет границы по созданию комплексных вычислительных систем в рамках одной рабочей станции. Но это потребует дополнительного финансирования, так как аппаратное ускорение виртуальных сред пока доступно только в решениях NVIDIA Quadro и NVIDIA Tesla.

Процессы могут быть разнообразными, и многие из них реализуемы в большинстве программных решений, доступных на рынке. Зная возможности инструментария приложения, пользователь может активно использовать возможности аппаратного обеспечения, что я и постараюсь продемонстрировать в данной статье на нескольких примерах, а также остановлюсь на возможностях драйвера NVIDIA STUDIO.

Современные решения от ASUS и NVIDIA могут быть сконфигурированы под решение целого ряда задач. Одни задачи требуют меньшего энергопотребления, а другие большего, и для каждой из них может быть создан свой профиль.

Обзор и тестирование компонентов системы NVIDIA STUDIO

И вот мы подобрались к самому вкусному – тестированию и оценке каждого компонента системы, созданной на основе концепции платформы NVIDIA STUDIO. В этом обзорном тестировании я провел тесты современных CPU и GPU, а также систем хранения данных. Начну свой обзор с CPU Intel Core i9-10940X.

Процессор Intel Core i9-10940X

В основе первоначальной идеи платформы NVIDIA STUDIO лежали мобильные процессоры Intel Core 7-го и 9-го поколений. В связи с расширением возможностей и областей применения платформы NVIDIA STUDIO, а также расширения функционала драйверов, а также позиционирование на область настольных компьютеров. В 2020 году Intel выпустила десятое поколение процессоров Intel Core. Все процессоры десятого поколения начинаются с цифры 10. Наиболее выигрышными, с точки зрения функционала и возможностей для оверклокинга, являются процессоры Core серии X. Для тестирования мне потребовалось даже подождать, пока на рынке появятся процессоры Core i9 десятого поколения. Возможность даже небольшой корректировки частоты процессора или каких-то определенных параметров материнской платы может помочь оптимизировать производительность системы в целом.

В предоставленной мне на тест-драйв системе специалисты из HYPERPC установили процессор Intel Core i9-10940X, с техническими характеристиками которого вы могли познакомиться выше в таблице 1.

Процессор Core i9-10940X относится к архитектуре Cascade Lake, являющейся результатом оптимизации архитектуры Skylake и ее 14-нанометрового процесса производства. Одним из важных нововведений является оптимизация энергопотребления и тепловыделения. Также разработчики добавили поддержку модулей памяти на основе 3D XPoint. Кроме того, в новую архитектуру были добавлены инструкции Deep Learning Boost и были уменьшены риски, связанные с аппаратными уязвимостями Meltdown и Spectre.

Рис. 4. Информация о процессоре Intel Core i9-10940X в утилите CPU-Z

Помимо оптимизации энергопотребления и тепловыделения разработчики ставили перед собой задачу повысить производительность вычислений. Так, тестируемый мною образец содержит 14 ядер/28-потоков, работает на частоте 3.3 GHz, а благодаря технологии Turbo Boost 2.0 частота процессора может быть увеличена до 4.6 GHz для одного ядра и до 4.1 GHz для всех ядер. При использовании Turbo Boost 3.0 частота процессора может быть повышена до 4.8 GHz, что в ряде вычислительных задач позволяет значительно нарастить производительность. Новый процессор обладает кэшем третьего уровня (L3 cache) объемом 19.25 Mb и поддерживает 4 канала памяти, с максимальной пропускной способностью в 94GB/s, стандарта DDR4-2933.

За последние годы я протестировал несколько моделей процессоров разных поколений и от нескольких производителей. Это позволит нам проследить за изменением производительности в вычислениях оптимизированной архитектуры Intel Cascade Lake.

Я всегда провожу тестирование с помощью наборов профессиональных синтетических тестов от SPEC, охватывающих большинство задач, выполняемых с помощью современных высокопроизводительных компьютеров. Также я провожу тестирование с помощью практических приложений, таких как Autodesk Maya, Blender, DaVinci Resolve и других.

Конечно, результат напрямую зависит от поддержки функционала новой архитектуры и её возможностей. Обычно для оптимизации программного обеспечения под новую архитектуру требуется от полугода до года. Также необходимо помнить и понимать, что разработчики могут реализовать определенные инструменты, разработанные с учетом возможностей новой архитектуры процессора, которые могут быть недоступны в системах, построенных на предыдущем поколении процессоров. Это особенно актуально в свете многофункциональной и очень развитой архитектуры современных графических ускорителей от NVIDIA.

В процессе тестирования я выделяю несколько областей и тестирую CPU с помощью синтетических и практических тестов, а затем сверяюсь с ранее собранными данными.

В новом тестировании я постарался провести сравнение производительности нескольких поколений CPU от Intel и сравнил с ранними тестами CPU от AMD. Хочется сказать сразу, что процессор от Intel 10-го поколения меня порадовал так же, как в свое время меня впечатлили решения от AMD на основе архитектуры ZEN. Я же сейчас опираюсь на свою оценку на основе свежего тестирования с применением современного программного обеспечения, разработанного в последние пару лет, с учетом поддержки всех необходимых инструкций процессора и API.

Давайте взглянем на результаты тестирования процессора Intel Core i9-10940X.

Результаты тестов CPU в SPECwpc 3

Набор тестов от SPEC давно стал для меня важным инструментом в подготовке обзоров и тестировании оборудования. Его разработкой занимаются не первый год, и он включает в себя множество разнообразных тестов, которые опираются на реальные приложения и алгоритмы. Поэтому с его помощью можно хорошо протестировать систему в самых разнообразных нагрузках.

Рис. 5. Результаты теста SPECwpc M&E CPU

Тест SPEC M&E используется для определения производительности CPU в визуализации трехмерной графики, кодировании/декодировании видео. В основе теста лежит измерение времени, затрачиваемого на визуализацию растрового изображения с помощью Blender и LuxRender. Также тест включает в себя измерение скорости кодирования видео с помощью приложения Handbrake с понижением разрешения из формата 4K и кодирования с помощью кодеков H.265 и H.264. Как видно из приведенной на рис. 5 диаграммы, новый процессор от Intel не уступает своему предшественнику, а в ряде задач превосходит его и своего конкурента в лице AMD Ryzen Threadripper 2950X, протестированного мною ранее. Если выбирать процессор для выполнения визуализации и кодирования/декодирования видео, согласно тестам SPECwpc я рекомендую присмотреться к новому процессору от Intel.

Рис. 6. Результаты теста SPECwpc Product Development CPU

В области разработки продуктов новый процессор от Intel также показал хороший результат. Не считая странного снижения производительности в тесте Viewperf, связанного с SolidWorks (Sw-03). Если присмотреться к производительности CPU от AMD, то он лидирует в тестах, связанных с вычислениями с плавающей точкой. Так, процессор AMD показывает наибольшую производительность в тестах CalculiX и Rodinia (CFD). А тест WPCcfd основан на пакете вычислительной гидродинамики с открытым исходным кодом OpenFOAM. Решатель сгорания XiFoam из OpenFOAM используется для решения задач предварительно смешанного или частично предварительно смешанного горения с моделированием турбулентности.

Рис. 7. Результаты теста SPECwpc Life Sciences CPU

В группе тестов Life Sciences новый процессор Intel показал очень хороший результат, незначительно уступая процессору Threadripper 2950X. Здесь процессор от AMD за счет большего количества вычислительных ядер и потоков показывает результат лучше.

Рис. 8. Результаты теста SPECwpc Financial Services CPU

В задачах, связанных с вычислениями алгоритмов в финансовых операциях, процессор Intel Core i9-10940X показывает хороший результат в тесте с алгоритмом Monte Carlo, но также из-за меньшего количества ядер уступает процессору AMD. Конечно, увеличение или достижение равного с AMD результата можно получить с помощью замены процессора на старшую модель, например Core i9-10980X.

Рис. 9. Результаты теста SPECwpc General Operations CPU

В задачах работы с Python и 7-Zip новинка от Intel показывает свое превосходство. Учитывая тот факт, что процессор AMD более производителен с точки зрения технических характеристик, обновленная архитектура Intel и оптимизация программного обеспечения дают серьезное повышение производительности.

Рис. 10. Результаты теста SPECwpc Energy CPU

В таких требовательных к вычислительным мощностям областях, как геология и энергетика, в наборе тестов от SPEC новый процессор от Intel также показал себя с хорошей стороны, при этом значительно уступив в двух тестах своему младшему коллеге и представителю конкурента. Наихудший результат в данном тесте Core i9-10940X показал в тесте SRMP, который выполняет вычисления в области обработки сейсмических данных.

Результаты тестирования в Autodesk Maya 2020 и MtoA 4

Пакет Autdoesk Maya и ядро визуализации SolidAngle Arnold активно используют возможности CPU и GPU для выполнения разнообразных вычислений. Отличительной особенностью Maya является поддержка возможностей для использования памяти GPU для кэширования данных сцены, а если в рабочей станции используется большой объем памяти, то аниматоры получают возможность активно использовать инструментарий Playback Cache, а при создании кэша анимации использовать возможности многопоточных CPU и GPU. Помимо этого, специалисты по Look Development, работающие с ядром визуализации Arnold Renderer, могут использовать возможности таких CPU, как Core i9-10940X и GPU NVIDIA TITAN RTX для увеличения производительности в работе с комплексными моделями, содержащими высококачественные текстурные карты в высоком разрешении и с детализацией, а также моментально вносить изменения в модель и сцену в целом, визуализируя изображение за несколько минут или даже секунд. В данном тестировании я покажу вам, как работает Maya и Arnold Renderer (MtoA 4) на многопроцессорных и многопоточных системах.

Рис. 11. Пример модели, используемой для теста скорости визуализации 3D сцены

Autodesk Maya по праву считается одним из лидирующих приложений, активно использующим множество технологий. Результатом активной совместной работы Autodesk и NVIDIA стала реализация мощной системы кэширования данных в виде Playback Cache и поддержка вычислений на GPU ряда требовательных к производительности вычислений деформеров. Ядро Viewport 2.0 также разработано с применением возможностей API OpenGL и DirectX и поддерживает язык программирования шейдеров GLSL и расширения от NVIDIA (доступно в Maya SDK).

Начиная с Maya 2020, приложение получило поддержку новейшего формата данных – USD (Universal Scene Description) и специального графического ядра Hydra. Это внутренняя разработка PIXAR Animation Studios, опубликованная в открытом доступе. Данные технологии легли в основу платформы NVIDIA Omniverse.

Рис. 12. Результаты тестирования скорости визуализации сцены NVIDIA SOL с помощью CPU

Одним из ключевых продуктов компании Autodesk, который поддерживает NVIDIA RTX и для которого оптимизируются драйверы NVIDIA STUDIO, является ядро визуализации SolidAngle Arnold 6. На рис. 12 приведена диаграмма, сравнивающая производительность различных компонентов компьютерных систем. Как видите, графические ускорители на основе GPU NVIDIA Turing. В протестированной мною рабочей станции HYPERPC PRO 7T STUDIO установлены два GPU NVIDIA TITAN RTX, объединенных мостом NVLink. Данная конфигурация позволила использовать вычислительные возможности двух GPU для ускорения вычислений в процессе визуализации. На визуализацию представленной на рис. 11 сцены им потребовалось 99 секунд. Это наилучший показатель из протестированных мною GPU и систем в целом. Также хочется отметить, что Arnold Renderer превосходно поддерживает NVLink и позволяет использовать возможности передачи данных между GPU на максимальной скорости. Все тесты с двумя GPU, представленными в данной статье с системами визуализации, выполнены с поддержкой NVlink.

Результаты тестирования в Blender 2.8

Пакет компьютерной графики и анимации Blender давно вызывает большие дискуссии в профессиональном сообществе. Ему уделяется много внимания среди пользователей. На текущий момент в Blender доступны два мощных инструмента – ядро визуализации Cycles и ядро аппаратной визуализации EEVEE. Ядро EEVEE как раз наделало много шума и сразу было тепло встречено пользователями. Его ключевым преимуществом является поддержка высококачественной аппаратной визуализации, выполняемой с помощью GPU, при этом такие графические ускорители, как NVIDIA TITAN RTX, могут быть использованы для создания высококачественного образа, с высококачественными текстурами и сложными эффектами для затенения. Для работы с визуализацией с помощью EEVEE наличие объемов графической памяти более 16 Гб становится крайне желательным, так как вывод изображения на дисплеи с большим разрешением и подготовка текстурных карт в разрешениях 4K и 8K требуют загрузки данных в память GPU.

Рис. 13. Сцена из проекта Grossbery, используемая для замера скорости визуализации кадра

Рис. 14. Сравнение производительности различных моделей и поколений процессоров в Blender Cycles Engine

Скорость визуализации трехмерных сцен наглядно демонстрирует развитие производительности центральных процессоров последних поколений. Классические ядра визуализации, такие как V-Ray, RenderMan, Arnold и др., ориентированы на разработчиков ПО, расширяющих их функционал. При всей привлекательности GPU, на CPU выполняется большинство задач, при этом персонализированные разработки выгоднее вести на CPU и только затем портировать решение на GPU. Классические алгоритмы Path Tracing и Monte Carlo превосходно работают на GPU, но вот решения на основе Bucket Rendering зачастую реализуются только на CPU, за рядом исключений.

Я уже не первый год активно тестирую производительность CPU на тестах визуализации с помощью Cycles Renderer и вижу, как развиваются CPU и сам пакет Blender в плане производительности. Диаграмма на рис. 14 наглядно показывает прирост производительности в современных CPU в последние 3–4 поколения.

В качестве основы можно взять моего старого верного помощника – Intel Xeon E3-1240 v2, который у меня используется как опорная точка. Также в текущем тестировании я сравнил результаты тестов из своих предыдущих исследований, посвященных процессорам AMD Ryzen Threadripper первого и второго поколений. Согласно приведенной диаграмме, новейшее поколение процессоров Intel показывает очень хороший результат в производительности визуализации трехмерной графики. Оптимизация ядра Blender Cycles, выполненная разработчиками, также сказывается на результатах тестирования. Отмечу, что Cycles становится production ready решением и уже получил независимую редакцию в виде standalone приложения.

На диаграмме отчетливо видно, как Intel Core i9-10940X даже при базовых характеристиках и без разгона показывает хорошую производительность. Это особенно хорошо заметно в визуализации сложной комплексной сцены с процедурными эффектами из проекта Grossbery. Ближе к нему подходит процессор 7-го поколения Core i9-7900X, протестированный мною около двух лет назад в тестах процессоров AMD Ryzen Threadripper. Если же сравнить с Threadripper, то Core i9-10940X показал высокую производительность в визуализации именно сложных процедурных эффектов, наподобие формирования травы, меха и волос.

Взгляд на Autodesk Fusion 360 и многопоточные вычисления

Пакет Fusion 360 от Autodesk является одной из самых динамично развивающихся САПР на рынке решений для машиностроения, 3D-печати, генеративного дизайна и анализа комплексных моделей. Его возможности как локального приложения, выполняемого на персональном компьютере пользователя, значительно расширены с помощью облачного сервиса Fusion 360.

Рис. 15. Модуль CAM во Fusion 360 использует для вычислений многопоточные CPU и GPU для интерактивной визуализации процесса создания детали

Fusion 360 превосходно подходит под концепцию платформы NVIDIA STUDIO и может быть использован на таких рабочих станциях, как T7 STUDIO от HYPERPC. Приложение использует возможности нескольких GPU для ускорения вычислений и визуализации модели, активно использует многопоточные процессоры для выполнения моделирования CAM и CFD.

Применение многопоточных процессоров, таких как Intel Core i9-10940X, превосходно подходит для моделирования сложной геометрии. Этот момент важно учитывать при выборе рабочей станции, так как история создания модели может достаточно долго вычисляться, особенно в комплексных сборках и высокодетализированных элементах.

Результат теста в RealFlow 10

Моделирование жидкостей и сложных динамических эффектов всегда являлось ресурсоемкой задачей, особенно когда речь заходит о моделировании сложных и реалистичных сцен, в которых взаимодействуют множество объектов моделируемой среды (вода, гель, газ и т. п.).

В своей работе я обычно использую пакет RealFlow 10, обладающий большим функционалом и на основе математического ядра которого разработан инструментарий, входящий в поставку пакета Dassault Systèmes Simulia, носящий имя XFLOW.

Пакет RealFlow поддерживает вычисления не только на CPU, но также активно развивает ускорение с помощью GPU. И такие решения, как NVIDIA TITAN RTX, помогают специалистам по моделированию жидкостей и динамических эффектов быстро решать производственные задачи. На рис. 16 приведен пример модели всплывающей подводной лодки из демонстрационного проекта RF10. Для эксперимента я создал модель продолжительностью 64 кадра, которые процессор смоделировал за 139 минут.

Рис. 16. Модель всплывающей подводной лодки в RealFlow 10. Моделирование эффекта с помощью Core i9 10940X заняло 139 минут

Во время тестирования процессора AMD Ryzen Threadripper 2950X данный тест был пройден за 176 минут. Большая производительность Core i9-10940X объясняется оптимизацией самой архитектуры процессора, бОльшим количеством ядер и потоков, а также оптимизацией ядра Hybrido, используемого в RF10 для моделирования динамических эффектов. В разделе, посвященном NVIDIA STUDIO и GPU NVIDIA TITAN RTX, я продемонстрирую пример вычислений с помощью ядра Dyverso, доступного в RF10 и поддерживающего NVIDIA CUDA.

Накопители данных

Одним из ключевых элементов каждой системы на основе платформы и концепции NVIDIA STUDIO является высокоскоростной NVMe SSD накопитель, подключенный посредством шины PCE-E. Скорость шины PCI-Express 3.0 превосходит стандартный SATA 6Гбит/сек, что позволяет активно использовать данные накопители в работе с видео в формате 4K, 6K и 8K. Применение накопителей SSD актуально также при работе с кэшированием данных, например в процессе вычислений динамических эффектов (пример из RealFlow 10), и при работе с алгоритмами машинного обучения, искусственного интеллекта и в процессе исследования данных. Рабочая станция HYPERPC PRO T7 STUDIO, присланная мне на тест-драйв, укомплектована 2Tb SSD M.2 от Samsung и 10Tb HDD от Seagate.

Рис. 17. Сравнение производительности SSD-накопителя Samsung SSD 970 EVO Plus и HDD-накопителя Seagate IronWolf

Высокая производительность SSD-накопителя позволяет достичь высокой скорости в чтении и записи данных, особенно временных данных, таких как наборы данных для обучения или кэш частиц динамической модели.

Как видно из теста DiskMark, SSD накопитель Samsung может работать на скорости более 3000 MB/s, в то время как классический HDD показывает скромные 248 MB/s. На рис. 18 приведен пример трех тестов, выполненных с помощью DaVinci Resolve и демонстрирующих возможности скоростных характеристик SSD накопителя для сборки видео в форматах 4K и преобразования 4K в DCI (2048х1080).

Рис. 18. Сравнение скорости сборки видео в DaVinci Resolve при чтении данных с SSD-накопителя Samsung SSD 970 EVO Plus и HDD-накопителя Seagate Iron Wolf

Важный момент заключается в том, что SSD-накопитель и классический HDD незначительно влияют на скорость сборки видео, состоящего из данных, записанных в RAW форматах или находящихся в формате QuickTime. Это единый файл, занимающий определенную область на диске. Но когда необходимо работать с секвенциями статичных кадров, например в 32-bit формате OpenEXR с компрессией ZIP, тогда каждый кадр будет представлен как отдельная единица, которую необходимо прочитать, декодировать и загрузить в оперативную память. А если файл объемом около 97 Mb, то классические жесткие диски значительно уступают в производительности SSD накопителям. Я всегда рекомендую использовать SSD накопители для кэширования данных и для работы над текущими проектами, что позволяет ускорить рабочий процесс в монтаже видео и при создании визуальных эффектов на этапе композитинга.

Материнская плата ASUS WS X299 SAGE

В основе систем RTX STUDION от HYPERPC лежат высокопроизводительные и многофункциональные материнские платы ASUS. В предоставленной мне на тест-драйв модели HYPERPC PRO T7 STUDIO использована материнская плата для рабочих станций ASUS WS X299 SAGE, созданная на основе чипсета Intel X299. Данная материнская плата превосходно подходит для создания рабочих станций с несколькими GPU и с процессорами Intel Core серии X. Она предоставляет поддержку технологий NVIDIA 4-Way SLI и AMD 4-Way CrossFireX. Наличие семи портов PCI-E позволяет создавать конфигурации, содержащие до семи графических ускорителей. А это позволяет разрабатывать системы для таких задач, как фотореалистичная высококачественная визуализация, обработка комплексных моделей и обработка данных, включая машинное обучение.

Рис. 19. Материнская плата ASUS WS X299 SAGE, использованная в протестированной конфигурации

Во всех решениях ASUS реализовано многофункциональное приложение ASUS AI Suite 3. Данное приложение позволяет производить настройку аппаратных компонентов системы и создавать профили конфигураций под различные задачи. Это становится особенно удобно при использовании комплектующих с разгонным потенциалом, таких, какие были использованы в протестированном мною решении от HYPERPC.

Рис. 20. Реализовать возможности для разгона системы помогает утилита AI Suite 3 От ASUS

С помощью утилиты ASUS AI Suite вы можете настраивать напряжение, изменять частоты процессора и оперативной памяти, конфигурировать кулеры, установленные в системе, и создавать профили индивидуально под конкретное приложение. Именно за счет этого функционала такие компании, как HYPERPC, и специалисты, собирающие высокопроизводительные игровые компьютеры, выбирают решения от ASUS.

Возможности платформы NVIDIA STUDIO с NVIDIA TITAN RTX

Мы подошли к самому интересному – к тестированию двух высокопроизводительных графических ускорителей NVIDIA TITAN RTX. По своей концепции платформа NVIDIA STUDIO объединяет оборудование, API, SDK и программное обеспечение, но нацелена на применение профессиональными пользователями мобильных и настольных компьютеров. Платформа NVIDIA STUDIO предоставляет ряд требований, которые должны быть соблюдены разработчиками мобильных и настольных компьютеров для полноценного соответствия идеям компании NVIDIA и разработчиков ПО.

Рис. 21

Покупая новый компьютер с маркером NVIDIA RTX STUDIO, вы получите сбалансированный по производительности и функционалу продукт, который будет решать поставленные перед вами задачи с минимизацией временных издержек на подготовку оборудования и ПО для работы.

Компания NVIDIA совместно со своими партнерами, производителями компьютерного оборудования, давно создает уникальные решения, оптимизированные для профессиональных игроков и профессиональных дизайнеров, разработчиков, занимающихся разработкой приложений с применением CUDA и библиотек с возможностями искусственного интеллекта.

Почему была создана платформа?

К созданию новой платформы и концепции компанию NVIDIA подстегнули три фактора. Первый – огромное количество online ресурсов в сети Интернет, второй – огромный массив данных, загружаемый в формате видео (только на YouTube в минуту загружается около 400 часов видео, по данным за 2019 год), и третий – это более 5 миллионов приложений для устройств с Android и IOS. Все это достояние человечества и информационного мира становится возможным только благодаря развитию оборудования, творческого потенциала создателей и возможностей программного обеспечения.

Но существующие на данный момент времени решения были разработаны с учетом предыдущих идей и требований к производственным процессам, присущим, в первую очередь, стационарным компьютерам и рабочим станциям. Современное поколение создателей медиа и графики ориентируется на мобильность и высокую скорость работы как ПО, так и самого оборудования.

Доступные для художников инструменты с GPU-ускорением

За последнее десятилетие сформировался определенный набор инструментов, обеспеченных стабильной поддержкой возможностей современных GPU и CPU, а также специальных модулей расширения (панелей управления, плат ввода/вывода и обработки видео и др.). Для создания платформы NVIDIA STUDIO разработчики выделили 5 ключевых направлений, а в каждом из них представлено по несколько приложений.

Наиболее активным и всеобъемлющим в плане применения технологий с активным использованием GPU является направление 3D и MOTION GRAPHICS. Это и неудивительно, так как трехмерная графика, анимация и фотореалистичная визуализация требуют высокой производительности при работе в режиме реального времени. Поэтому практически все наиболее популярные и распространенные приложения обладают поддержкой ускорения вычислений с помощью GPU.

Рис. 22

Следующее направление – VIDEO EDITING. Здесь стоит отметить важную причину такого акцента внимания на данную область. На популярные сервисы видеохостингов загружается очень много контента, который необходимо смонтировать и подготовить за короткие сроки. При этом уже давно пришла эра 4K форматов, и далеко не за горами следующий этап — 8K, но для работы с данными форматами необходимо не только съемочное оборудование, но и системы хранения, и высокопроизводительные рабочие станции. Особое внимание уделяется повышению производительности в работе с видео в формате RAW (RED, ARRI, BlackMagick, Canon) и его подготовке на ранних этапах, еще на съемочной площадке. Здесь ускорение вычислений с помощью GPU, кодирование и декодирование видео, высокопроизводительные SSD накопители, а также достаточный объем оперативной памяти (для CPU и GPU) предоставляют высокий потенциал для повышения скорости работы как операторов, так и монтажеров и специалистов по визуальным эффектам.

Из личного опыта могу сказать, что, выполняя съемки для эффектов, мы работаем с форматом 4K, и зачастую нам хочется получать удачные дубли еще на этапе съемок и сразу передавать на монтаж в DaVinci Resolve, куда заранее были отправлены данные о пути к файлам и их временным меткам. Во время съемок мы заранее просматриваем материал, полученный с камеры, и необходимо быстро воспроизводить видео, что ранее было доступно только при наличии MacBook Pro или тяжеловесной рабочей станции PC.

В направлении PHOTOGRAPHY всего два ключевых приложения. Компания Adobe активно продвигает свои решения для фотографов и обеспечивает их удобными инструментами. И такие приложения, как Photoshop CC и Lightroom CC, уже давно обладают поддержкой ускорения с помощью GPU. Но помимо решений от Adobe есть множество хороших инструментов от сторонних разработчиков, которые также используют возможности графических процессоров для обеспечения высокой производительности фотографов и дизайнеров.

Графический дизайн (GRAPHIC DESIGN) является, пожалуй, одним из самых динамичных и мобильных направлений в творчестве современных художников и дизайнеров. Особенно актуально это при работе над графическим оформлением видео или при разработке дизайна.

И самое наиболее активное и развивающееся направление в современных медиа — online трансляции и прямые эфиры. Глобальная сеть Интернет и развитие мобильных технологий, а также развитие современных медиа, сделали направление BROADCASTING как никогда требовательным к производительным многофункциональным мобильным рабочим станциям с высокой производительностью в компактном корпусе.

Выбор независимых художников

Новая концепция и платформа NVIDIA STUDIO ориентируется на независимых разработчиков контента. Для этого были проанализированы потребности среди независимых художников и дизайнеров, кому может быть полезна равномерная уравновешенная производительность, но по приемлемой цене, при этом закрывающая необходимость в мобильности устройства.

Рис. 23

Независимые дизайнеры и художники используют ноутбуки и бюджетные рабочие станции для создания видео, обработки фотографий, публикаций в социальных сетях и медиа и для удаленной работы над средними и крупными проектами (фрилансеры на аутсорсе). Все три группы были расположены между ключевыми группами – запись и производство в промышленных масштабах (студии и компании).

Помимо распределения по категориям пользователей и выполняемым ими задачам, при разработке NVIDIA STUDIO была учтена потребность пользователей в производительности и ключевые компоненты, которые пользователи желают обновить в своих компьютерах или ноутбуках.

Согласно проведенным опросам и исследованиям, пользователи зачастую желают обновить GPU и увеличить объем оперативной памяти. И здесь есть большая доля правды, так как обновление данных компонентов может значительно повысить производительность в задачах и приложениях, активно использующих вычисления на GPU и требовательных к объему ОЗУ.

Введение в концепцию платформы NVIDIA STUDIO

В первую очередь, NVIDIA разработали концепцию платформы, которую могут реализовать производители компьютерной техники, опираясь на выбор определенных правил и компонентов систем.

В основе лежат графические ускорители на основе архитектуры NVIDIA Turing. Платформа NVIDIA STUDIO практически ознаменовала выход мобильных решений на основе GeForce RTX и Quadro RTX, предоставив возможность использовать трассировку луча и другие технологии в мобильных устройствах. Также это первые мобильные устройства, в конфигурациях которых можно выбрать GPU с объемом графической памяти, равным 16 Гб и выше. Также стоит отметить, что все мобильные системы, разрабатываемые под платформу NVIDIA STUDIO, будут обладать концепцией MAX-Q Design, обеспечивающей реализации тонкого и легкого устройства с высокой производительностью.

Рис. 24

Рассмотрим основные направления и технологии, реализуемые в новых решениях. В первую очередь – NVIDIA RTX. Представленная в 2018 году архитектура Turing позволяет выполнять трассировку луча в режиме реального времени, выполнять вычисления для работы алгоритмов, использующих возможности ИИ, и выводить высококачественное видео в высоком разрешении с большой частотой кадров.

NVIDIA Studio Stack и платформа NVIDIA RTX

Ключевыми компонентами стека NVIDIA STUDIO являются форматы представления и передачи данных (MDL и USD), графические API (OpenGL, DirectX и Vulkan) и API для трассировки луча (OptiX, DXR и Vulkan), а также обширный набор библиотек и возможностей, относящихся к платформе NVIDIA RTX Platform.

Рис. 25

Наиболее актуальными на текущий момент развития и применения в приложениях являются рассмотренные ниже компоненты стека NVIDIA STUDIO.

Ускорение трассировки луча и алгоритмов ИИ

Это, пожалуй, одна из самых интересных особенностей архитектуры Turing, так как увеличить скорость трассировки лучей удалось только за счет активного использования многоядерных процессоров и алгоритмов прогрессивной визуализации. Здесь возможности GPU по ускорению вычислений общего назначения показали себя лучше всего. Но вычислять трассировку лучей в режиме реального времени удалось только в последние пару лет, когда такие API, как DirectX и OpenGL/Vulkan, смогли получить необходимые для этого функции и элементы.

С анонсом архитектуры Turing были представлены решения для визуализации, поддерживающие вычисления с помощью NVIDIA OptiX, DXR и VKray. В частности, системы визуализации Autodesk Arnold, Autodesk VRED, Chaos Group V-Ray, Unreal Engine и многие другие уже предоставляют своим пользователям возможности ускорения вычислений трассировки лучей в режиме реального времени с помощью ядер RT cores.

Рис. 26

Помимо этого, фотографы и специалисты по обработке изображений, использующие Photoshop Lightroom, получили возможность использовать алгоритмы ИИ для улучшения качества фотоснимков. Компания BlackMagic активно развивает новейшую версию DaVinci Resolve 16 Studio с их новым ядром DaVinci Neural Engine, в котором активно используются алгоритмы ИИ. А Resolve 16.2 получил обновление и расширение функционала с поддержкой ИИ. В данной статье я активно продемонстрировал скорость работы Neural Engine на двух NVIDIA TITAN RTX.

Конечно, реализация новой концепции в первую очередь нацелена на интеграцию в рабочие процессы, в которых активно используется множество приложений, особенно в таких случаях, когда их используют независимые художники и дизайнеры, у которых высока необходимость применения нескольких приложений.

Рис. 27

Я однажды сам столкнулся с тем, что в последних версиях Maya возросло потребление графической памяти, и зачастую это приводит к некоторому снижению производительности, особенно на GPU с памятью меньше 6 Гб. Поэтому я обновил свой графический ускоритель, приобретя NVIDIA GeForce RTX 2080 SUPER. Но такие решения, как протестированная мною рабочая станция HYPERPC PRO 7T STUDIO, показывают более высокую производительность в обработке видео во время монтажа с применением алгоритмов ИИ и при работе с комплексными моделями, что во многом объясняет применение GPU с 24 Гб ОЗУ.

Рис. 28

NVIDIA GeForce RTX Studio, NVIDIA TITAN RTX и NVIDIA Quadro RTX Studio

Разработчики платформы NVIDIA STUDIO не стали значительно изменять своим идеям из предыдущих поколений. Графические ускорители GeForce в первую очередь предназначены для развлечений и разработки игровых приложений, а также для большинства задач, связанных с разработкой 3D моделей и анимации. Но если ваши задачи интенсивно используют графическую память и есть необходимость в продолжительной поддержке оборудования, сертификации от производителей (особенно актуально при работе с госорганизациями и в крупных компаниях), гибком управлении IT-Инфраструктурой и аппаратной обработке видео, включая захват и вывод на множество дисплеев, то здесь по-прежнему остается выбор за профессиональными GPU линейки Quadro.

Хочу заметить, что необходимость акцентировать внимание на том, что графические ядра таких приложений, как 3ds max, Maya и т. п., оптимизированы под Quadro, уже давно ушла в историю, сейчас графические ядра приложений компании Autodesk и многих других вендоров сбалансированы функционально и дают высокую производительность как на GeForce, так и на Quadro. Здесь нужно делать выбор именно в контексте деталей и определенных задач, которые вы будете выполнять с помощью мобильной или настольной рабочей станции и выбранного для нее GPU. О возможных процессах применения GPU как ускорителя вычислений я писал в самом начале статьи.

При выборе компьютера, оптимизированного для платформы NVIDIA STUDIO, вам также становится доступна возможность выбора GPU, оснащенного 24+ Гб графической памяти, что очень актуально при работе с такими ядрами визуализации, как Octane Renderer, V-Ray RT GPU, RedShift и другие, а также при загрузке и отображении текстур с высоким разрешением (8K, 12K) и при применении эффектов затенения (Ambient Occlusion, MSAA, Lighting и т. п.).

Итак, помимо того, что к опорным системным требованиям NVIDIA STUDIO разработчики относят компоненты, подобные представленным в таблице 1, они также предъявляют требования к наличию большого объема ОЗУ и SSD-накопителей. Конечно, если выбирать дисплей с разрешением 4K для визуализации большого массива пикселей, потребуется более производительный GPU. Для этого стоит присмотреться к GPU с объемами памяти от 8 Гб, это на самом деле оптимальный старт для работы с 4K дисплеями и в то же время для обработки 3D пространства в редакторах компьютерной графики.

Линейка мобильных GPU линейки Quadro пополнилась новыми моделями. Модели Quadro RTX 3000, Quadro RTX 4000 и Quadro RTX 5000 предоставляю все возможности и функции, заявленные разработчиками в спецификациях к NVIDIA STUDIO. А вот новые модели, Quadro T1000 и Quadro T2000, являются представителями начального и среднего классов и ограничены в ряде функций, например в трассировке лучей и поддержке виртуальной реальности.

Единый драйвер для NVIDIA STUDIO GPU`s

Теперь и для GeForce, и для Quadro GPU вы можете загрузить и использовать единый драйвер NVIDIA STUDIO. Однако хочу заметить, что вы вправе загрузить оригинальные драйверы, которые оптимизированы для работы как с GeForce, так и с Quadro. Если у вас Quadro и вам важен функционал корпоративного уровня, то следует загружать драйвер Quadro, а для работы с игровыми приложениями и для разработки контента в игровых движках типа Unreal Engine или Unity на GPU линейки GeForce можно выбрать родной драйвер GeForce.

Помимо входящей в состав драйвера оптимизации под различные приложения и GPU, в NVIDIA STUDIO Stack также включен NVIDIA STUDIO SDK, который предлагает SDK и API для ускорения трассировки лучей, визуализации, редактирования и обработки видео, векторной 2D анимации и многого другого. Разработчики приложений также могут добавлять в свои разработки функции искусственного интеллекта, такие как супермедленное движение или автоматические метки, с помощью платформы AI в CUDA-X, являющимся отраслевым стандартом для развития искусственного интеллекта.

Результат тестирования в практических и синтетических тестах

Во время тест-драйва рабочей станции HYPERPC PRO 7T STUDIO я сравнил производительность двух графических ускорителей NVIDIA TITAN RTX, объединенных мостом NVLink, который помогает значительно увеличить производительность в работе систем визуализации и алгоритмов машинного обучения и ИИ.

Рис. 29. Информация о GPU NVIDIA TITAN RTX, установленных в системе тестируемой HYPERPC PRO 7T STUDIO

Чтобы понимать, как определять производительность GPU, необходимо помнить, что производительность определяется в решении определенной задачи: насколько быстрее она будет выполнена в сравнении с предыдущим поколением GPU или конкурирующим решением.

Во время тест-драйва я протестировал GPU с помощью тестов SPECwpc 3 и практических приложений. В частности, превосходный результат показал движок EEVEE, входящий в пакет Blender. Данный движок очень быстро выполнял аппаратную визуализацию практически в режиме реального времени.

Результат тестирования NVIDIA TITAN RTX с помощью SPECwpc и SPECviewperf

Первый тест затрагивает производительность в вычислениях на GPU. В тесте использованы приложения LuxRender, CAFFE и FAH. В то время как LuxRender и любое другое ядро визуализации может выполняться как на CPU, так и на GPU, тесты, посвященные машинному обучению и обработке данных, полностью зависят от GPU.

Рис. 30. Результат тестов SPECwpc GPU Compute

В то время как тестовую сцену LuxRender визуализировал с практически идентичным CPU результатом, алгоритмы, полностью зависимые от GPU, не выполнялись на CPU. В качестве API был выбран OpenCL, как универсальный для CPU Intel и GPU NVIDIA.

Но так как в моем распоряжении была рабочая станция с двумя GPU, я протестировал её возможности с помощью теста SPECviewperf в режиме без SLI и активным режимом SLI и сравнил с результатами тестов из моих прошлых обзоров. Данный тест показал хорошую производительность графических ускорителей TITAN RTX как в режиме без SLI, так и в режиме SLI.

Рис. 31. Результаты теста SPEC Viewperf 13 для нескольких систем и моделей GPU

Но как показало тестирование, в режиме SLI классические OpenGL приложения, такие как САПР и приложения M&E, могут обладать немного меньшей производительностью. Но плюсом таких решений является возможность более оптимально и рационально использовать графическую память в моделях с текстурами, освещением и эффектами затенения.

Хочется заметить, что современные САПР приложения, такие как Autodesk Fusion 360, поддерживают multi-gpu системы и активно используют возможности всех GPU, объединенных мостом SLI (NVlink).

Синтетические тесты показывают только определенные сценарии, заранее проработанные их создателями. В практических приложениях рабочий процесс значительно отличается и неравномерен. Далее я приведу результаты тестов в ряде практических приложений и решении определенных задач, требовательных к высокопроизводительным компонентам системы.

Моделирование жидкостей в RealFlow 10 с применением GPU

Реализованное в RF10 ядро Dyverso поддерживает вычисление на CPU, на GPU с поддержкой OpenCL и GPU с поддержкой CUDA. При этом разработчики реализовали систему так, что если у вас используется GPU от NVIDIA, то для него автоматически становится доступен алгоритм на CUDA. Стоит отметить, что RF10 поддерживает вычисления только на одном GPU. Поэтому в multi-gpu системах вы можете выделить один из GPU, который может выполнять вычисления на CUDA.

Рис. 32. Результат теста RF Dyverso в расчете 780 кадров анимации карамели

Пакет RF10 является хорошим примером применения возможностей GPU и архитектуры CUDA для ускорения вычислений сложных физических моделей. На основе ядра RF10 создан пакет XFlow, входящий в поставку SIMULIA, он также поддерживает вычисления на GPU. Если вы занимаетесь расчетами физических моделей и планируете использовать GPU, я рекомендую присмотреться к связке решений от NVIDIA и NexLimit для получения высокопроизводительных комбинаций оборудования и ПО.

Визуализация в Blender 2.8

Буквально ворвавшийся на рынок компьютерной графики и получивший массу грантов от крупнейших вендоров, включая NVIDIA, пакет Blender стал активно использовать возможности библиотек NVIDIA CUDA и NVIDIA OptiX. Реализация поддержки возможностей CUDA и OptiX сразу же определила его в качестве одного из самых важных решений, поддерживающих платформу NVIDIA STUDIO.

Для меня Blender остается отличным инструментом для тестирования производительности оборудования в задачах визуализации изображений. На рис. 33 приведена диаграмма, в которой собраны результаты тестов вычислений на GPU нескольких сцен.

Рис. 33. Результат визуализации трех сцен в пакете Blender

Как видно из приведенного графа, чем производительнее система, тем меньше времени требуется на визуализацию изображения. Неоспоримым лидером сегодняшнего теста оказалась система от HYPERPC с двумя GPU NVIDIA TITAN RTX и при визуализации сцены с применением ядра Blender Cycles, использующего API OptiX. Это наименьшее время, которое потребовалось ядру для визуализации сцен. Для большой и комплексной сцены с множеством элементов меха и волос потребовалось всего 132 секунды на кадр, что говорит о высочайшей производительности двух GPU TITAN RTX, работающих в паре и использующих возможности RTX cores и библиотеки NVIDIA OptiX.

Визуализация изображений с помощью Chaos Group V-Ray

Ядро визуализации V-Ray интегрировано практически во все популярные 3D и CAD приложения. Пользователи 3ds max, Maya, Houdini, Revit, Rhino, Unreal Engine и других приложений используют возможности для создания высококачественных образов. Даже я использую V-Ray как основное ядро визуализации, иногда переходя на Arnold, для решения специфических задач. Что выделяет V-Ray и связывает его с экосистемой NVIDIA и платформой NVIDIA STUDIO?

Поддержка NVIDIA CUDA – ядро V-Ray является одним из первых решений, активно использующих возможности GPU для ускорения процесса визуализации. Также V-Ray поддерживает аппаратные шейдеры, созданные с помощью языка GLSL.

Поддержка NVIDIA MDL – разработчики шейдеров материалов и текстур могут использовать возможности языка описания материалов NVIDIA MDL, активно развиваемого сообществом и поддерживаемого системой визуализации NVIDIA iRay. В процессе работы с V-Ray вы можете использовать библиотеку NVIDIA vMaterials, содержащую обширный набор процедурных материалов и текстур, разработанных с помощью NVIDIA MDL.

Поддержка NVIDIA OptiX – ядро визуализации V-Ray стало одним из первых решений, активно внедрившим поддержку NVIDIA RTX и NVIDIA OptiX. Плюсом внедрения OptiX является поддержка высококачественного алгоритма устранения шума с помощью NVIDIA AI Denoiser. Данный подход позволяет значительно быстрее создавать предварительные тесты визуализации с применением Maya Playblast.

Я дополнил свою библиотеку измерений и тестов центральных и графических процессоров, производимых с помощью теста V-Ray Benchmark.

Рис. 34. Результат тестов CPU с помощью V-Ray Benchmark

При тестировании процессор Intel Coe i9-10940X показал превосходство над всеми протестированными ранее процессорами. В процессе работы над одним из проектов я провел несколько тестов с комплексной сценой, которая требует большого объема ОЗУ и оперирует большими данными (рис. 36), о чем я расскажу ниже.

Рис. 35. Результат тестов GPU с помощью V-Ray Benchmark

Мне довелось протестировать несколько GPU на различных системах. Использованные в графической станции HYPEREPC PRO T7 STUDIO графические ускорители NVIDIA TITAN RTX на данный момент показали наиболее производительный результат в тесте, набрав 369 mpaths в режиме с одним GPU и 728 mpaths в режиме с двумя GPU.

Рис. 36. Пример комплексной модели, созданной в Maya и визуализируемой с помощью V-Ray for Maya

В процессе работы я использую V-Ray RT GPU для разработки материалов, так как GPU позволяет выполнять данные операции гораздо быстрее по сравнению с CPU. Во время тест-драйва HYPERPC PRO T7 STUDIO я протестировал возможности GPU NVIDIA TITAN RTX в процессе разработки образа и материалов для комплексной модели.

Как и проведенные мною тесты с помощью V-Ray Benchmark, в результате тестов на модели, представленной на рисунке 36, GPU NVIDIA TITAN RTX позволили выполнять предварительную визуализацию гораздо быстрее, даже в сравнении с использованной в моей предыдущей рабочей станции NVIDIA GeForce RTX 20870 SUPER.

Повысить производительность также можно с помощью обновления оборудования, о чем я расскажу в следующем разделе.

Практические тесты в DaVinсi Resolve 16.2

Безоговорочным лидером в применении возможностей GPU для ускорения вычислений является пакет Resolve. Это обусловлено его архитектурой и модулем коррекции цвета. Обработка и коррекция цвета является достаточно требовательной к вычислительным ресурсам задачей. И внедрение поддержки GPU в данный процесс активно способствовало увеличению производительности вычислений в процессе обработки кадров.

Ниже приведены результаты тестов набора секвенций в DaVinci Resolve, использованных мною в процессе написания предыдущих статей, посвященных NVIDIA STUDIO.

Рис. 37. Скорость сборки видео в DaVinci Resolve с применением GPU NVIDIA и CPU Intel

Рис. 38. Скорость сборки видео в DaVinci Resolve с применением алгоритма масштабирования на GPU NVIDIA

Рис. 39. Скорость сборки видео в DaVinci Resolve с применением алгоритма масштабирования на GPU NVIDIA. Увеличение видео в четыре раза

Рис. 40. Скорость сборки видео в DaVinci Resolve с применением алгоритма ИИ для замедления и увеличения скорости видео

Производительность GPU NVIDIA TITAN RTX, которые установлены в HYPERPC PRO T7 STUDIO, наглядно представлена диаграммами на рисунках 37–40. За счет применения алгоритмов на основе ИИ масштабирование видео, изменение его скорости и реконструкция деталей выполняются за считанные секунды. Коррекция цвета и работа с масками также выполняются значительно быстрее, особенно в сравнении с CPU.

Решения на основе платформы NVIDIA STUDIO показывают высокую производительность в работе над сложнейшими проектами, когда выполняются объединение 3D анимации, композитинга, процесса монтажа и визуализации. Но можно еще повысить производительность системы, выполнив подбор компонентов, которые будут обладать большей производительностью. Все задачи, которые я рассмотрел в текущей статье, хорошо поддаются оптимизации и повышению производительности с помощью выбора более производительного CPU и GPU.

Линейки компьютеров HYPERPC PRO STUDIO

Одно из важнейших преимуществ современной компьютерной техники – масштабируемость и функциональная расширяемость. Решения HYPERPC PRO выстраиваются в виде трех вертикальных линеек, каждую из которых можно конфигурировать под определенные задачи и приложения. Это удобно, так как легче сделать первоначальный выбор и впоследствии обновить комплектующие и увеличить производительность системы в целом. Рассмотрим вкратце линейку компьютеров HYPERPC PRO.

HYPERPC PRO G – младший представитель линейки компьютеров для профессиональных пользователей. В компьютерах линейки PRO G используются процессоры Intel Core i7 и Intel Core i9 10-го поколения и графические ускорители линейки NVIDIA GeForce RTX.

Максимальный объем ОЗУ составляет 128 Гб (зависит от CPU). Вы можете выбрать базовую конфигурацию на основе CPU Intel Core i7 и GPU NVIDIA GeForce RTX 2060 SUPER и при повышении требований к вычислительной мощности компьютера заменить компоненты на CPU Intel Core i9 и GPU NVIDIA GeForce RTX 2080 Ti.

HYPERPC PRO Q – старший представитель линейки компьютеров для высокопроизводительных вычислений, опирающийся на применение GPU NVIDIA Quadro RTX и ориентированный на применение в решении сложнейших инженерных задач и использующий возможности решений корпоративного уровня. С помощью рабочих станций линейки Q можно не только решать задачи, связанные с проектированием и визулизацией, но и развертывать системы виртуализации и работать в области обработки данных (Data Science), где может потребоваться GPU с объемом памяти в 24 и 48 Гб. Компьютеры линейки PRO Q могут быть сконфигурированы с применением CPU Intel Core i9 и GPU NVIDIA Quadro RTX 4000 с возможностью расширения конфигурации с помощью NVIDIA Quadro RTX 8000. В рабочую станцию может быть установлено до 128 Гб ОЗУ (в зависимости от CPU).

HYPERPC PRO T – линейка компьютеров, специально разработанная как баланс между линейками PRO G и PRO Q. Я протестировал модель PRO T7, которая была сконфигурирована с двумя GPU NVIDIA TITAN RTX, что позволило оценить производительность графического чипа TU102 в полной мере. Компьютеры линейки PRO T могут быть сконфигурированы с применением процессоров Intel Core i9 10-го поколения, и в каждый компьютер может быть установлено до четырех GPU NVIDIA TITAN RTX, что позволяет создавать сверхпроизводительные системы, ориентированные на работу с большим массивом данных. Также компьютер может быть сконфигурирован до 128 Гб ОЗУ.

Компьютеры линейки PRO Q и PRO T могут быть созданы на основе платформы AMD. В данной конфигурации используются процессоры AMD Ryzen Threadripper. Существенным плюсом данной платформы является доступность установки оперативной памяти до 256 Гб и поддержка шины PCI-Express 4, что дает основу для обновления на GPU следующего поколения.

Благодарности

Благодарю компании HYPERPC и NVIDIA за предоставленное для тестирования и обзора оборудование и информационную поддержку в технических вопросах.

Во второй части статьи

Поддержка возможностей платформы NVIDIA STUDIO в САПР, демонстрация возможностей приложений для анимации и игровых движков, знакомство с функционалом драйвера NVIDIA STUDIO и влияние на производительность. Я продемонстрирую работу таких приложений, как LIRA 10, T-LEX CAD, Autodesk Revit, Autodesk Fusion 360 и других.

Обзоры ноутбуков MSI на основе платформы NVIDIA STUDIO

На портате RENDER.RU в прошлом году я открыл серию публикаций, посвященных платформе и стеку NVIDIA STUDIO. В моем распоряжении оказались два ноутбука компании MSI:

MSI Prestige P65 Creator 9SF – инициатива RTX STUDIO в металле

Тестирование мобильной рабочей станции MSI Mobile Workstation WS65

Дополнительные материалы для изучения

Платформа NVIDIA RTX

Платформа NVIDIA Omniverse

Стек NVIDIA STUDIO

Тест-драйв HYPERPC PRO T7 STUDIO. Взгляд на платформу NVIDIA STUDIO в действии

Часть 1