‘Exascale’ AI уже в подлунном мире

День российского проектировщика и снег стоят на дворе, а из Америки пишут о выпуске компьютера Andromeda фирмой Cebebras, в котором 13.5 миллионов вычислительных ядер The system strings together 16 CS-2 systems in a cluster, with a total of 13.5 million compute cores focused on AI.

Each CS-2 system has a wafer-sized chip with 850,000 cores, which is considered the largest piece of silicon ever made. The Andromeda system has 96.8 terabits of internal bandwidth. For preprocessing, Andromeda is attached to 284 single-socket servers, with each system having an AMD Epyc 7713 “Milan” CPUs, 128GB RAM, three 1.92TB NVMe drives and two 100Gb Ethernet network cards.



Linear scaling, training models from scratch. Source: Cerebras Systems.
The exaflop benchmark is based on 16-bit, half precision performance with linear scaling, said Andrew Feldman, CEO of Cerebras. “Linear scaling means when you go from one to two systems, it takes half as long for your work to be completed. That is a very unusual property in computing,” Feldman said, adding that Andromeda can scale beyond the 16 connected systems.

A single chip in the CS-2 can train language models with billions of parameters. Andromeda can potentially train larger language models with trillions of parameters, or train smaller models in less time. Andromeda cost about $30 million to build and was set up in just three days, Feldman said.

То есть на 16 чипах каждый из которых содержит 2.6 триллиона транзисторов получается пускай урезанный, но для нужд ИИ достаточный экзаскейл за 30 миллионов нынешних долларов! И с учётом, что вычисления на 16 мегачипах идут в 15.32 раза быстрее чем на одном, и систему можно до 192 чипов с аналогичным приростом производительности смасштабировать, то и производительность на порядок больше не за горами, это вопрос уже чисто финансовый.

И вот теперь ёжиков мучает вопрос, а в таких системах хоть какой-нибудь разум от сырости или помех со сбоями с течением времени завестись сможет?