AMD (NASDAQ: AMD) hari ini mengumumkan yang baru AMD Instinct ™ MI100 sebuah accelerator – tercepat di dunia HPC GPU dan pertama GPU server x86 mengungguli para 10 teraflops (FP64) kinerja penghalang . 1 Didukung oleh baru dipercepat menghitung platform yang s dari Dell, Gigabyte , HPE, dan Supermicro , yang MI100, dikombinasikan dengan AMD EPYC TM CPU dan yang ROCm ™ 4.0 terbuka software platform yang , yang dirancang untuk mendorong baru penemuan menjelang era exascale .
Dibangun pada baru AMD arsitektur cDNA, AMD Instinct MI100 GPU memungkinkan kelas baru dari sistem dipercepat untuk HPC dan AI ketika dipasangkan dengan 2 nd Gen AMD EPYC prosesor . The MI100 o ffer s hingga 11 0,5 TFLOPS dari puncak FP64 kinerja untuk HPC dan hingga 46 0,1 TFLOPS puncak FP32 Matrix p erformance untuk AI dan belajar mesin beban kerja 2 . Dengan teknologi AMD Matrix Core baru , MI100 juga memberikan peningkatan hampir 7x dalam kinerja titik mengambang puncak teoritis FP16 untuk beban kerja pelatihan AI dibandingkan dengan akselerator generasi sebelumnya dari AMD . 3
“ Hari ini AMD mengambil besar langkah maju dalam perjalanan menuju exascale komputasi seperti yang kita mengungkap yang AMD Instinct MI100 – tercepat di dunia HPC GPU, ” kata Brad M c C redie , wakil presiden perusahaan , Data Center GPU dan Accelerated Processing , AMD. “ Tepat ditargetkan ke arah beban kerja yang peduli dalam komputasi ilmiah, akselerator terbaru kami, w hen c ombined dengan yang AMD ROCm terbuka platform perangkat lunak , yang dirancang untuk memberikan para ilmuwan dan peneliti dasar superior untuk pekerjaan mereka di HPC.”
Platform Perangkat Lunak Terbuka untuk Era Exascale
The AMD ROCm d eveloper s oftware memberikan landasan bagi e komputasi xascale. Sebagai n toolset open source yang terdiri dari kompiler, pemrograman API dan perpustakaan, ROCm digunakan oleh e pengembang perangkat lunak xascale untuk membuat aplikasi kinerja tinggi. ROCm 4.0 telah dioptimalkan untuk memberikan kinerja dalam skala besar untuk sistem berbasis MI100. ROCm 4.0 telah mengupgrade compiler menjadi open source dan bersatu untuk mendukung OpenMP ® 5.0 dan HIP. PyTorch dan Tensorflow kerangka kerja , yang telah dioptimalkan dengan ROCm 4.0, sekarang dapat mencapai kinerja yang lebih tinggi dengan MI100 7,8 . ROCm 4.0 adalah penawaran terbaru untuk pengembang aplikasi HPC, ML dan AI yang memungkinkan m untuk membuat perangkat lunak portabel berkinerja.
“Kami telah menerima akses awal ke akselerator MI100, dan hasil awalnya sangat menggembirakan. Kami biasanya melihat peningkatan kinerja yang signifikan, hingga 2-3x dibandingkan dengan GPU lain, ”kata Bronson Messer, direktur sains, Fasilitas Komputasi Kepemimpinan Oak Ridge. “Yang juga penting untuk diketahui adalah pengaruh perangkat lunak terhadap kinerja. Fakta bahwa platform perangkat lunak terbuka ROCm dan alat pengembang HIP adalah sumber terbuka dan bekerja pada berbagai platform, itu adalah sesuatu yang hampir membuat kami terobsesi sejak kami meluncurkan sistem CPU / GPU hybrid pertama. ”
Kemampuan dan fitur utama akselerator AMD Instinct MI100 meliputi:
· All-New AMD cDNA Architecture– Direkayasa berkuasa AMD GPU untuk era exascale dan di jantung MI100 accelerator, AMD cDNA arsitektur penawaran yang luar biasa kinerja dan efisiensi daya
· Memimpin FP64 dan FP32 Kinerja untuk HPC Beban Kerja – D elivers industri terkemuka 11,5 TFLOPS puncak FP64 kinerja dan 23,1 TFLOPS puncak FP32 kinerja , memungkinkan para ilmuwan dan peneliti di seluruh dunia untuk mempercepat penemuan di industri termasuk ilmu kehidupan, energi, keuangan, akademisi, pemerintah, pertahanan dan lainnya. 1
· Teknologi Inti Matriks Baru untuk HPC dan AI – Kinerja supercharged untuk berbagai operasi matriks presisi tunggal dan campuran , seperti FP32, FP16, bFloat16, Int8 dan Int4, yang direkayasa untuk meningkatkan konvergensi HPC dan AI.
· 2nd Gen AMD Infinity Fabric ™ Technology – Instinct MI100 menyediakan ~ 2x peer-to-peer (P2P) puncak I / O bandwidth lebih PCIe® 4.0 dengan sampai 340 GB / s dari bandwidth yang agregat per kartu dengan tiga AMD Infinity Fabric ™ Tautan. 4 Dalam sebuah server, MI100 GPU dapat dikonfigurasi dengan hingga dua kumpulan GPU quad yang terhubung sepenuhnya, masing-masing menyediakan hingga 552 GB / dtk bandwidth I / O P2P untuk berbagi data dengan cepat . 4
· Memori HBM2 Sangat Cepat – Menampilkan memori HBM2 bandwidth tinggi 32 GB pada kecepatan jam 1,2 GHz dan memberikan bandwidth memori sangat tinggi 1,2 3 TB / dtk untuk mendukung kumpulan data besar dan membantu menghilangkan kemacetan dalam memindahkan data masuk dan keluar memori . 5
· Dukungan untuk PCIe® Gen 4.0 – D Terbaru di Industri yang selaras dengan dukungan teknologi PCIe Gen 4.0 terbaru yang menyediakan bandwidth data transportasi teoretis puncak hingga 64 GB / dtk dari CPU ke GPU. 6
Solusi Server yang Tersedia
AMD Instinct MI100 akselerator yang diharapkan oleh akhir yang tahun dalam sistem dari utama OEM dan ODM mitra di pasar enterprise , termasuk :
Dell
“Server Dell EMC PowerEdge akan mendukung AMD Instinct MI100 baru, yang akan memungkinkan wawasan yang lebih cepat dari data. Hal ini akan membantu pelanggan kami mencapai HPC lebih kuat dan efisien dan AI hasil cepat,”kata Ravi Pendekanti, s enior v es p residen, PowerEdge Server, Dell Technologies. “AMD telah menjadi mitra berharga dalam dukungan kami untuk memajukan inovasi di pusat data. Kemampuan performa tinggi akselerator AMD Instinct sangat cocok untuk portofolio AI & HPC server PowerEdge kami.”
Gigabyte
“Kami senang dapat kembali bekerja dengan AMD sebagai mitra strategis yang menawarkan perangkat keras server kepada pelanggan untuk komputasi kinerja tinggi,” kata Alan Chen, seorang ssistant v ice p residen di NCBU, GIGABYTE. “Akselerator AMD Instinct MI100 mewakili tingkat berikutnya dari komputasi berkinerja tinggi di pusat data, menghadirkan konektivitas dan bandwidth data yang lebih besar untuk penelitian energi, dinamika molekuler, dan pelatihan pembelajaran mendalam. Sebagai akselerator baru dalam portofolio GIGABYTE, pelanggan kami dapat memperoleh manfaat dari peningkatan kinerja di berbagai beban kerja HPC ilmiah dan industri. ”
Hewlett Packard Enterprise (HPE)
“Pelanggan menggunakan sistem HPE Apollo untuk kapabilitas dan kinerja yang dibuat khusus untuk menangani berbagai beban kerja intensif data yang kompleks di seluruh komputasi kinerja tinggi (HPC), pembelajaran mendalam dan analitik,” kata Bill Mannel, wakil presiden dan manajer umum, HPC di HPE. “Dengan diperkenalkannya HPE Apollo 6500 sistem Gen10 Ditambah baru, kita lebih maju portofolio kami untuk meningkatkan kinerja beban kerja dengan mendukung akselerator AMD Instinct MI100 baru, yang memungkinkan konektivitas yang lebih besar dan pengolahan data, bersama 2 nd prosesor Gen AMD EPYC ™ . Kami berharap dapat melanjutkan kolaborasi kami dengan AMD untuk memperluas penawaran kami dengan CPU dan akselerator terbaru. ”
Supermicro
“Kami senang bahwa AMD membuat dampak besar dalam komputasi kinerja tinggi dengan akselerator GPU AMD Instinct MI100,” kata Vik Malyala, wakil presiden senior, bidang teknik aplikasi dan pengembangan bisnis, Supermicro. “ Dengan kombinasi kekuatan komputasi yang diperoleh dengan arsitektur CDNA baru, bersama dengan memori tinggi dan bandwidth peer-to-peer GPU yang dibawa MI100, pelanggan kami akan mendapatkan akses ke solusi hebat yang akan memenuhi persyaratan komputasi yang dipercepat dan kritis. beban kerja perusahaan. AMD Instinct MI100 akan menjadi tambahan yang bagus untuk server multi-GPU kami dan portofolio ekstensif sistem performa tinggi dan solusi blok penyusun server kami. ”
Spesifikasi MI100
Unit Hitung | Prosesor Streaming | FP64 TFLOPS (Puncak) | FP32 TFLOPS (Puncak) | FP32 Matrix TFLOPS
(Puncak) |
FP16 / FP16 Matrix TFLOPS(Puncak) |
INT4 | TOPS INT8
(Puncak) |
bFloat16 TFLOP
(Puncak) |
Memori HBM2 ECC |
Bandwidth Memori |
120 | 7680 | Hingga 11,5 | Hingga 23, 1 | Hingga 46.1 | Hingga 184,6 | Hingga 184,6 | Hingga 92,3 TFLOPS | 32 GB | Hingga 1,23 TB / dtk |