Tesla P100 ES

Самый крупный графический процессор семейства Pascal был представлен 5 апреля 2016 года на конференции GPU Technology Conference, то есть еще до официального анонса игровых видеокарт GeForce GTX 1070 и GTX 1080.

Старший чип с индексом GP100 поразил всех огромной площадью кристалла в 610 мм², а передовой 16-нм техпроцесс позволил разместить там 15,3 млрд. транзисторов. Для сравнения, старший Maxwell GM200 состоит «всего» из 8 млрд. транзисторов. Процессор GP100 получил 3584 ядра CUDA и 224 текстурных модуля. Кроме того, для профессионального сегмента Nvidia не поскупилась на память и снабдила GP100 четырьмя блоками новейшей на то время HBM второго поколения суммарным объемом 16 ГБ. Это позволило достичь пропускной способности в 720 ГБ/с.

В этот день Nvidia представила не только сам чип GP100, но также и суперкомпьютер DGX-1, в состав которого вошли сразу восемь ускорителей вычислений Tesla P100 DGXS, связанных между собой по интерфейсу NVLink. Каждый из них был выполнен в необычном форм-факторе карты расширения DGS, а TDP одного такого ускорителя доходил до отметки в 300 Вт при частотах ядра 1328/1480 МГц. Цена на компьютер DGX-1 на момент анонса составила $129.000.

 

фото с сайта nvidia.com

 

После этого стало ясно, что выпуск более привычных ускорителей вычислений – это только вопрос времени. И действительно, 20 июня 2016 года Nvidia показала две вариации Tesla P100 под шину PCI-E. Одна карта получила 16 ГБ памяти HBM2, а другая – 12 ГБ. Частота памяти в обоих случаях составила 1400 МГц, а суммарный TDP чипа снизился до 250 Вт. Самым же серьезным ограничением новых Tesla P100 по сравнению с DGXS стала существенно более низкая пропускная способность интерфейса: 32 Гбайта/сек у PCI-E 3.0 против 160 Гбайт/сек у NVLink. Модель с 16 ГБ памяти была оценена в $5,699, а с 12 ГБ – в $4,599.

Но глядя на цены, не стоит забывать о главном преимуществе Tesla P100 перед игровыми видеокартами GeForce – очень высокой скорости вычислений FP64, составляющей всего 1/2 от скорости FP32 (что в численном выражении равно 4,75 и 9,5 ТФлопс соответственно). Для сравнения, GeForce GTX 1080 работает с числами FP64 в 32 раза медленнее, чем с FP32.

 

 

Данный экземпляр Tesla P100 под шину PCI-E является уникальным инженерным образцом. Эта карта родом из калифорнийской лаборатории Nvdia, где она использовалась при проектировании водоблоков для работы в контурах СВО с высоким давлением (2 атмосферы). После завершения всех необходимых научно-исследовательских и конструкторских работ карта вместе с системой охлаждения была позаимствована одним энтузиастом, который привез её в Москву в надежде заменить BIOS и таким образом привести ускоритель в рабочее состояние.

К сожалению для него (и к счастью для коллекции), перепрошивка BIOS от серийной Tesla P100 не помогла в полной мере восстановить функциональность ускорителя. Скорее всего, причина неработоспособности кроется в одной уникальной отличительной особенности данной инженерной Tesla – наличии у нее памяти HBM первого поколения вместо более совершенной HBM2, хотя объем всё тот же – 16 ГБ. Кроме того, на плате распаяны видеовыводы HDMI и DisplayPort, которых серийные Tesla P100 лишены. В итоге карта может самостоятельно выводить картинку на экран и загружать операционную систему, но после принудительной установки драйвера выдает код ошибки 43.

 

 

Центральное место на печатной плате занимает огромных размеров чип GP100 с надписью «198» на защитной рамке. Довольно непривычно наблюдать отсутствие микросхем памяти вокруг процессора, но здесь используется HBM от Hynix в количестве четырех стаков, размещенных на единой подложке с графическим кристаллом. В итоге ширина шины памяти составляет невероятные 4096 бит. Также бросается в глаза отсутствие на плате каких-либо электролитических конденсаторов, хотя посадочные места под них имеются. Все ёмкости у Tesla исключительно керамические либо танталовые. На верхнем торце платы находятся сразу два разъема NVLink, которые используются для объединения ускорителей в единый вычислительный кластер (по аналогии со SLI у GeForce и Quadro).

 

 

Правую часть платы занимает мощная подсистема питания, выполненная по схеме 10+2+1 (ГП, память и PLL). При этом из-за отсутствия привычных чипов памяти на текстолите остается довольно много свободного места. Питание ядра организовано на мосфетах DF40AA. Судя по индексу, они рассчитаны на ток в 40 А каждый. Для формирования питания памяти применены 8-амперные ШИМ-преобразователи Anpec APW8713, каждый из которых содержит по одному интегрированному N-канальному мосфету для верхнего и нижнего плеча. Для мониторинга напряжения и тока по интерфейсам I2C и SMBUS используются трехканальные микросхемы Texas Instruments INA3221.

С обратной стороны платы находится пара 4-фазных синхронных преобразователей ON Semiconductor NCP81174, поддерживающих режим энергосбережения и интерфейс PWM VID. Здесь же, с противоположной стороны от фаз питания, размещены 12 понижающих преобразователей Texas Instruments LM53603, работающих на частоте 2,1 МГц. Они способны формировать выходные напряжения от 3,3 до 10 В при токе до 3 А.

Система охлаждения Tesla P100 представлена, собственно, водоблоком полного покрытия, который сам по себе тоже является тестовым инженерным экземпляром. Он спроектирован специально под данную модель Tesla и выточен из цельного медного бруска. Сверху блок герметично закрыт металлической пластиной. Как уже упоминалось, он изначально рассчитан на работу при высоком давлении в контуре.

 

 

Ускорители Tesla применяются для решения высокопроизводительных задач (HPC), в том числе по глубокому обучению ИИ и нейросетей, в дата-центрах, при проведении крупномасштабных математических симуляций, а также для организации виртуальных рабочих станций. Поддержка языка CUDA позволяет проводить на них вычисления общего назначения, как и на обычных центральных процессорах. Серийные ускорители Tesla P100 до сих пор можно свободно приобрести в розницу по цене около 330 т.р. за версию с 12 ГБ памяти.

Характеристики Tesla P100 PCI-E ES:

Чип GP100
Техпроцесс 16 нм
Шейдерные процессоры 3584 унифицированных
Блоки текстурирования (TMU) 224
Блоки растровых операций (ROP) 96
Частота GPU 1190-1329 МГц
Частота RAM 500 (1000) МГц HBM
Объем памяти 16 ГБ
Шина памяти 4096 бита
Интерфейс PCI-E 3.0 x16
Поддержка API DirectX 12.0, Vulkan 1.1.122
Скорость текстурирования 127,6 Гпикс./сек
Производительность FP32 / FP64 9526 / 4763 Гфлопс

Скачать BIOS Tesla P100 ES

Спасибо Александру CoolTweak за предоставленный ускоритель вычислений Tesla P100.