1500py470 (1500py470) wrote,
1500py470
1500py470

Categories:

Как такие МЕГАчипы корпусируют

В прошлом году на конференции Hotchips компания Cerebras представила свой Wafer Scale Engine (WSE). Сотрудничество с TSMC позволило создать чип, занимающий максимальный по размеру четырехугольник, выпиленный из 300-мм подложки размером 215 x 215 мм и площадью 46.225 мм². На самом деле подобный квадрат нельзя вписать в подложку диаметром 300 мм, но Cerebras коварно обошла этот досадный момент закруглила углы WSE. На этом МЕГАчипе расположены 84 идентичных структуры, 12 по горизонтали и 7 по вертикали. Современное оборудование для фотолитографии EUV и маски позволяют выпускать кристаллы размером, максимум, 26 x 33 мм или 858 мм². Cerebras обходит это досадное ограничение по максимальному размеру современных чипов разместив 84 идентичных структуры площадью 507,9 мм² на одном WSE. Каждая структура содержит 4774 ядер ИИ. В результате мы получаем 84 х 4774 = 401016 ядра или с учётом дефектов около 400.000 вычислительных ядер под нужды искусственного интеллекта.



Тогда народ волновало как это счастье применить можно, как оно в корпусе выглядит и сколько стоит, теперь на эти вопросы есть ответы!





Чип производится на заводах TSMC по техпроцессу 16 нм (16FF+). Поэтому техпроцесс в данном случае максимально проработанный, с минимальным количеством ошибок. Но с таким размером монокристалл без дефектов все равно не сделать. Удивительно Cerebras добавила примерно 1% дополнительных ядер. Всего ОДИН % запасных ядер на брак при производстве, с учётом дефектов самой пластины, воистину TSMC кисть даёт!

Тонкий момент, в их презентациях встречается размер МЕГАчипа 203х229 мм (диагональ 306 мм) и 215х215 мм (диагональ 304 мм), что намекает на несколько ревизий, но нынче на сайте в отношении готовой системы Cerebras CS-1 фигурирует квадратный Wafer Scale Engine.



Корпусировка и производство такого МЕГАчипа крайне сложная задача. Любопытно сколько пластин у TSMC и Cerebras из-за доли выхода годных структур меньше 99% идёт в утиль? А получившихся шедевров тяжёлого микросхемостроения при корпусировании? Очень большой секрет маленькой компании Cerebras как и где расположены резервные ядра, и как организован интерконнект, который тоже имеет резервирование, между ними. Кстати если одно из рабочих ядер даст сбой, то будет автоматический переход на одно из резервных ядер.





Огромные проблемы с подачей питания и охлаждения к такому МЕГАчипу иллюстрируют фото. 400 000 ядер, 15 кВт и 1,2 триллиона транзисторов дело серьёзное. Специальные слои между кремниевой подложкой и печатной платой должны устранять проблемы с разными коэффициентами расширения у материалов. Любопытно как долго? Или они чтоб прогрев был равномерным и температура не скакала все ядра всегда под нагрузкой держат? Это ещё древние латиняне придумали отапливать свои вилы круглый год, чтоб трубы керамические от термоударов не трескались.



Что касается охлаждения. Cerebras использует жидкостное охлаждение с двумя контурами, очевидно для надёжности, чтоб если один из них выйдет из строя было время для аварийного отключение и замену насоса или вентилятора. Дальше тепло сбрасывается вентиляторами внизу корпуса с производительностью кубометр в секунду. с учётом того, что вы видите на фото имеет конструктив размером в всего 15 юнитов, и продувает через себя 86500 кубометров в сутки, то если забить на стоимость замены теплообмеников одну стойку с тремя Cerebras CS-1 можно использовать для отопления школьного спортзала с пятикратным в час воздухообменом.

Очевидно вентиляция и воздухоподготовка должна быть в датацентре очень серьёзной, такая штука вполне способна двери пластиковые и металические выгибать на раз при любой ошибке проектирования. Наверняка сам пользователь заменить теплообменик забитый пылью или проеденный атмосферными гадостями заменить не может, а в инструкции может и сказано на около 800-й странице мелким шрифтом под звёздочкой, что потребитель должен обеспечивать воздух как минимум приборной чистоты, а то и лучше. Любопытно какой гарантийный срок у этого процессора и условия для ремонта?





Компания уже поставила несколько десятков систем CS-1, но точное число не называется. Первые ушли в Аргоннскую национальную лабораторию, в которой работают самые мощные суперкомпьютеры в США. кроме Argonne National Labs эти CS-1 были установлен и в Lawrence Livermore National Laboratory, разумеется открытой цены для народа народа эти поставки не имели.



По вычислительной производительности в сфере ИИ система CS-1 соответствует 1 000 NVIDIA Tesla V100. На системе CS-1 работает стандартное программное обеспечение Pytorch и Tensorflow, максимально оптимизированное под её архитектуру. Более того, особенности этой архитектуры позволяют легко наращивать мощность системы, подключая несколько систем в параллель. В рамках эксперимента в компании Cerebras Systems подключили параллельно 32 системы CS-1 и получили при этом 32-кратное увеличение вычислительной мощности.

"Это отличает нашу архитектуру от архитектур на базе графических и центральных процессоров" - рассказывает Эндрю Фельдман (Andrew Feldman), основатель и руководитель компании Cerebras Systems, - "Когда вы группируете графические процессоры в кластер, то его поведение отличается от поведения единой вычислительной системы. Несмотря на все усилия, поведение кластера так и остается суммарным поведением большого количества маленьких компьютеров".



Недавно суперкомпьютерный центр Питтсбурга анонсировал инсталяцию систем CS-1 для своего нового суперкомпьютера Neocortex. Национальный научный фонд США выделил на финансирование этого суперкомпьютера $5 млн. При этом мощностями Neocortex американские исследователи смогут использовать бесплатно, однако сначала проекты исследователей должны быть утверждены. До 90% машинного времени Neocortex будет выделяться через XSEDE (Extreme Science and Engineering Discovery Environment), финансируемую NSF организацию, которая координирует совместное использование передовых цифровых услуг, включая суперкомпьютеры и ресурсы для визуализации и анализа данных, с исследователями на национальном уровне. Суперкомпьютер Neocortex планируется построить ближе к концу 2020 года.



В Питтсбурге будут развернуты две системы CS-1 плюс сервер хранения данных Hewlett Packard Enterprise Superdome Flex Server с 32 процессорами Xeon, 24 Тбайт ОЗУ и 205 Тбайт накопителей. Чтобы связать две системы CS-1 будут использоваться комутаторы с производительностью 1,2 Тбит/с. Каждый сервер Cerebras CS-1 подключается к SuperDome Flex через 12 каналов со скоростью 100 Гбит/с каждый. Отсюда можно сделать вывод, что стоимость одного Wafer Scale Engine составляет около 2 млн долларов, а первого Cerebras CS-1 не более 2,5 млн долларов, со второго явно скидка идёт.

Один процессор WSE способен обрабатывать 9 Пбайт данных в секунду, а это по подсчетам Nystrom, эквивалентно примерно миллиону фильмов в HD-качестве. Очевидно с распространением таких штук, скоро и фильм с людьми похожими на.... даже в разрешении 8К больше не будут приниматься судами к рассмотрению как доказательства чего либо. Чего может наворотить кластер из CS-1 подумать страшно.

Для программирования предоставлен графовый компилятор с поддержкой систем разработки нейронных сетей CNTK, Mxnet, PyTorch и TensorFlow. Однако с учётом талантов нынешних программистов, у меня есть обоснованные подозрения, что в скорм времени даже кластер из 32 подобных систем будет тормозить на практически всех поставленных перед ним задачах. И натренировать на нём сетку чтобы пройти роботу с ИИ тест Стива Возняка не получится точно. И даже того самого Алана Тюринга сомнительно.

Cerebras представит второе поколение Wafer Scale Engine на конференции Hot Chip 2020 в августе этого года. Интересно, какие там будут рекорды или улучшения объявлены. С нынешними технологиями производства вдруг они на пластины 450 мм перейдут или на единицы Нм.

За их новостями и железом стоит следить у них на сайте.

Tags: "ИИ да AI", heavy metal, semiconductors, СБИС БИС ИС
Subscribe

Posts from This Journal “semiconductors” Tag

  • К вопросу о мифичности BE-S1000

    Как написал у себя в телеграме фабрикант Зорин, некогда сидевший в ЖЖ: Теперь про настоящую электронику. Байкал Электроникс только что представил…

  • Analog in Memory Computing (AiMC) от IMEC и GlobalFoundries

    Недавно компания GlobalFoundries и бельгийский исследовательский центр Imec произвели демонстрацию своего нового чипа для нужд ИИ. Он основан на…

  • Radhard с биологической защитой будет?

    Тут любопытная публикация на биоархиве появилась A Self-Replicating Radiation-Shield for Human Deep-Space Exploration: Radiotrophic Fungi can…

  • По следу диодов Д1 и Д2, или... совершенно секретно

    Надеюсь вчерашний День святого Варфоломея (Feast of Saint Bartholomew широко отмечается католической церковью), и Варфоломеевскую ночь широко…

  • От диодов – к транзистору

    Для тех кто за суетой и ковидом пропустил, стоит прочитать статью в журнале Радио, опубликованную Андреем Николаевичем Чечневым в мае этого года. В…

  • Очередное дно пробито!

    Cerebras раскрыла сведения про своё второе поколение Wafer Scale Engine, которое назвали просто Generation 2. Второе поколение WSE содержит 850000…

  • Мегабитный ReRAM 55 нм ULP (Ultra Low Power) от «Крокус Наноэлектроника»

    «Крокус Наноэлектроника», портфельная компания РОСНАНО, объявила о выпуске чипов энергонезависимой резистивной памяти, созданных на базе…

  • Куда катится этот мир?!

    Подразделение Huawei HiSilicon разрабатывала микросхемы, используя софт американских компаний. HiSilicon выпускала широкий спектр продукции, включая…

  • 75 лет тому самому Киму

    75 лет тому назад, 21 июля 1945 года, в селе Взморье, Долинского района, Сахалинской области родился мальчик Саша. Рос и вполне успешно занимался…

  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 26 comments