Углубленный анализ показывает, что Starfield лучше работает на графических процессорах AMD благодаря архитектурным преимуществам

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


(Примечание автора, это краткий перевод статьи, и он может не содержать каких-либо частей статьи, которые могут быть критически важными, это версия TL;DR. Для подробного ознакомления прикреплена ссылка на оригинал статьи)

Специалисты chipsandcheese.com изучили производительность игры на текущих флагманских картах обоих производителей, RTX 4090 и RX 7900 XTX, подчеркнув, что карта AMD обеспечивает более высокую эффективность использования при всех разрешениях.

Немного контекста про архитектуры: Графические процессоры AMD RDNA 3 созданы на базе процессоров рабочих групп (WGP). Каждый WGP имеет четыре SIMD, каждый из которых имеет свои собственные файлы регистров, исполнительные блоки и планировщик, способный отслеживать до 16 потоков. Под потоками подразумеваются потоки в смысле CPU, где каждый поток имеет независимый указатель инструкций. Вы можете думать о SIMD как о 16-стороннем SMT.

Графические процессоры Nvidia состоят из потоковых мультипроцессоров (SM), каждый из которых разделен на четыре подраздела SM (SMSP). Как и SIMD RDNA, каждый SMSP имеет файл регистров, исполнительные блоки и планировщик. SMSP Ады и Ампера могут отслеживать до 12 потоков, а Тьюринга — до восьми.

Движок очень требователен к ёмкости файла регистра. Графические процессоры RDNA 3 динамически распределяют емкость файлов регистров между потоками, и количество активных потоков часто зависит от того, сколько регистров использует каждый поток. Компилятор AMD решил выделить для этого кода 132 векторных регистра, что округляет до 144 регистров, поскольку RDNA 3 распределяет регистры блоками по 24. Таким образом, для каждого потока требуется 18,4 КБ векторных регистров (32 полосы * 4 байта на регистр * 144 регистра). Регистровый файл SIMD имеет емкость 192 КБ – этого достаточно для хранения состояния в течение 10 потоков.

В свою очередь каждый SIMD Nvidia имеет 64 КБ регистров, и Nsight указывает, что потоки не удалось запустить в массив шейдеров, поскольку не было доступных регистров. Компилятор Nvidia, вероятно, предоставил каждому потоку 128 регистров, или 16 КБ емкости файла регистров. Распределение регистров не сильно отличается между AMD и Nvidia, но гораздо меньший размер файла регистров Nvidia означает, что ее архитектура не может поддерживать столько же работы на линии SIMD.

Ещё отмечается, что из-за особенностей системы кэша, графические процессоры AMD имеют более высокий процент загрузки, когда карты Nvidia проводят чуть больше времени в режиме ожидания.

Отмечается, что адаптеры AMD периодически используют wave64 вместо wave32. Компилятор выделил довольно умеренные 93 (с округлением до 96) векторных регистра на поток. Wave64 означает, что каждый поток в основном выполняет 2048-битные векторные инструкции, дважды прокачиваемые через 1024-битные исполнительные блоки SIMD. Некоторые общие инструкции могут выполняться с полной пропускной способностью 1 за такт даже в режиме wave64 благодаря двойным исполнительным блокам RDNA 3 шириной 32. Однако для использования векторов шириной 64 требуется вдвое больше емкости файла регистров, чем для векторов шириной 32, поэтому SIMD AMD имеют достаточную емкость файла регистров только для отслеживания восьми потоков одновременно.

Nvidia же не может использовать режим wave64, что в купе с меньшим объёмом регистров так же ограничивает их GPU.

Также GPU Nvidia используют более 80% пропускной способности L2 кэша, что позволяет считать их ограниченными по ней. Nvidia RTX 4090 выглядит особенно ограниченной по пропускной способности: её шейдер большую часть времени использует полосу пропускания L2 кэша более, чем на 90%.

Подводя итоги, у специалистов нет единого объяснения относительно превосходства RDNA 3 в Starfield. По их мнению, большую роль играют более высокий процент загрузки и более высокая пропускная способность L2 кэша, а также более высокая тактовая частота внешнего интерфейса RDNA 3. Однако на самом деле в производительности Nvidia в этой игре нет ничего плохого, как можно предположить из некоторых комментариев в Интернете. Более низкое использование заложено в архитектуре Nvidia. Nvidia SM имеют меньшие файлы реестра и могут выполнять меньше операций в режиме ожидания.


Источник: vk.com

Комментарии: