Разрушая «монополию» NVIDIA с помощью дифференциации, d-Matrix снижает стоимость вычислительной мощности инференса ИИ в 30 раз

Первоисточник: Альфа Коммуна

Источник изображения: Generated by Unbounded AI

За взрывным ростом AIGC стоит огромный спрос на обучение ИИ и рассуждения ИИ. В настоящее время NVIDIA является крупнейшим поставщиком вычислительных мощностей ИИ, и ее прибыльность во втором квартале (рост на 854% в годовом исчислении) посылает сигнал о том, что спрос отрасли на вычислительные мощности ИИ далек от удовлетворения.

Монополия NVIDIA на вычислительные мощности ИИ (доля рынка более 80%) заставила обеспокоиться многие компании, использующие вычислительные мощности ИИ, Microsoft, Amazon и OpenAI активно строят ядра, а у OpenAI также были скандалы с приобретениями стартапов по производству чипов ИИ, таких как Cerebras и Atomic Semi.

Требования к вычислительной мощности ИИ для запуска приложений ИИ в будущем значительно превысят требования к вычислительной мощности для обучения больших моделей, а требования к вычислительной мощности для рассуждений — это не то же самое, что обучение, а существующие графические процессоры для выполнения логических выводов не имеют преимущества в стоимости, что требует проприетарных чипов логического вывода ИИ.

Недавно d-Matrix, стартап, специализирующийся на чипах для рассуждений на основе искусственного интеллекта, получил $110 млн в рамках финансирования серии B во главе с Temasek, включая инвесторов из предыдущих раундов финансирования, таких как Playground Global, M12 (Microsoft Venture Capital Fund), Industry Ventures, Ericsson Ventures, Samsung Ventures, SK Hynix и т. д., причем значительная часть приходится на промышленные инвестиции. Сид Шет (Sid Sheth), генеральный директор d-Matrix, сказал: «Это капитал, который знает, как построить полупроводниковый бизнес, и может работать с нами в течение длительного времени. "

Новое финансирование от d-Matrix будет использовано для создания Corsair, своей вычислительной карты Digital In-Memory Computing (DIMC) Chiplet Inference Computing Card. Говорят, что эта карта в 9 раз быстрее, чем графический процессор NVIDIA H100, а в случае кластера вычислительных карт она в 20 раз более энергоэффективна, в 20 раз меньше задержек и до 30 раз дешевле, чем аналогичные решения NVIDIA.

Два ветерана чипов нацелены на обоснование потребностей ИИ в вычислительной мощности в эпоху AIGC

Системы ИИ используют разные типы вычислений при обучении моделей ИИ по сравнению с использованием его для прогнозирования и вывода. Логический вывод ИИ требует меньше вычислительной мощности, но при запуске крупной службы ИИ в долгосрочной перспективе требуется больше вычислительной мощности, чем для обучения.

Сложно развернуть выделенный центр обработки данных для инференса ИИ с минимальными затратами, используя существующее оборудование ИИ. Сообщается, что сервис Microsoft GitHub Copilot размещается в среднем за 20 долларов на пользователя в месяц, и, по словам Дилана Пателя, главного аналитика SemiAnalysis, ежедневные инвестиционные затраты OpenAI на запуск ChatGPT могут достигать 700 000 долларов. Эти затраты представляют собой затраты на логический вывод ИИ, которые не могут быть снижены при запуске служб ИИ.

Индустрия искусственного интеллекта должна развиваться более здорово, с более низкими затратами на логические выводы и меньшим энергопотреблением чипов для логических выводов ИИ.

Два ветерана индустрии микросхем, Сид Шет и Судип Бходжа, основали d-Matrix в 2019 году после того, как ранее работали вместе в Marvell и Broadcom. В 2019 году модель ИИ архитектуры Transformer только зарождалась, и они увидели большой потенциал и возможности этой модельной архитектуры и решили спроектировать свое аппаратное обеспечение ИИ специально для этих больших языковых моделей.

Сид Шет, генеральный директор и соучредитель d-Matrix, сказал: «В 2019 году мы сделали ставку на платформу ускорения для моделей Transformer и сосредоточиться на инференсе, и к концу 2022 года, когда генеративный ИИ взорвался, d-Matrix стала одной из немногих компаний, у которой есть вычислительная платформа для генеративного ИИ. Мы росли и использовали эту возможность в течение трех лет. Все наше аппаратное и программное обеспечение создано для ускорения моделей Transformer и генеративного ИИ. "

Сид Шет (Sid Sheth) описал уникальность рыночного позиционирования d-Matrix: «Генеративный ИИ навсегда изменит парадигму того, как люди и компании создают, работают и взаимодействуют с технологиями.

Но текущая совокупная стоимость владения (TCO) для выполнения логических выводов ИИ быстро растет, и команда d-Matrix меняет экономику затрат на развертывание логических выводов ИИ с помощью специализированных вычислительных решений для больших языковых моделей, и этот раунд финансирования еще раз подтверждает нашу позицию в отрасли. "

Майкл Стюарт (Michael Stewart), инвестор Microsoft M12, сказал: «Мы официально вступили в производство, когда совокупная стоимость владения выводом больших языковых моделей стала ключевым ограничивающим фактором для предприятий, использующих передовой ИИ в своих сервисах и приложениях. Компания d-Matrix придерживается плана, который обеспечит лучшую в отрасли совокупную стоимость владения для различных сценариев обслуживания потенциальных моделей с использованием гибкой, отказоустойчивой архитектуры Chiplet, основанной на подходе, ориентированном на память. "

Снижение затрат на логический вывод ИИ в 30 раз

Использование центральных и графических процессоров для обучения и вывода ИИ — не самый эффективный способ. Для операций логического вывода ИИ перемещение данных является самым узким местом. В частности, передача данных туда и обратно в оперативную память вызывает значительную задержку, что, в свою очередь, приводит к более высокому энергопотреблению и затратам, а также замедляет работу всей системы ИИ.

Решить эту проблему можно тремя способами.

Первый ускоряет глубокое обучение, уменьшая объем данных, обрабатываемых с помощью выборки и конвейеров, но он также ограничивает точность и достоверность.

Во-вторых, установить выделенный процессор AI engine рядом с традиционным процессором, Apple, NVIDIA, Intel и AMD используют этот метод, но эти решения по-прежнему используют традиционную архитектуру процессора фон Неймана, для интеграции SRAM и внешней памяти DRAM все они должны перемещать данные в память и из нее, что по-прежнему приводит к высокому энергопотреблению и низкой эффективности.

В-третьих, переместить вычисления ближе к ОЗУ (памяти), что является подходом, используемым d-Matrix. Эта архитектура механизма, называемая цифровыми вычислениями в памяти (DIMC), снижает задержки и энергопотребление. Он также хорошо подходит для логических выводов ИИ, поскольку логический вывод включает в себя относительно статичный (но большой) взвешенный набор данных, к которому обращаются многократно, а DIMC устраняет большую часть расходов на передачу энергии и задержек при перемещении данных.

d-Matrix использует несколько микросхем для создания более крупных, модульных и масштабируемых интегральных схем. Это позволяет создавать масштабируемые платформы для задач логического вывода ИИ корпоративного уровня, помогая предприятиям ИИ повысить производительность и эффективность.

Чиплет Джейхок II

В 2021 году d-Matrix запустила чиплет Nighthawk, после чего запустила Jayhawk Chiplet Platform, первую в отрасли платформу Bunch of Vores (BoW) Open Domain-Specific Architecture (ODSA), предназначенную для обеспечения энергоэффективного соединения между чипами на основе органической подложки.

Первые продукты с архитектурой DIMC от d-Matrix будут основаны на недавно анонсированном процессоре Jayhawk II, чиплете, содержащем около 16,5 миллиардов транзисторов.

Каждый чиплет Jayhawk II содержит ядро RISC-V для управления им, 32 ядра Apollo (каждое с восемью блоками DIMC, работающими параллельно) и 256 МБ SRAM с пропускной способностью 150 ТБ/с. Ядро подключается с помощью специального сетевого чипа с пропускной способностью 84 ТБ/с.

Вычислительная карта Corsair

d-Matrix также представила вычислительные карты Corsair, похожие на NVIDIA H100, каждая вычислительная карта Corsair имеет 8 чиплетов Jayhawk II, каждый Jayhawk II обеспечивает пропускную способность 2 Тбит/с (250 ГБ/с) от чипа к чипу, а одна вычислительная карта Corsair имеет совокупную пропускную способность 8 Тбит/с (1 ТБ/с).

Архитектура и масштабируемость программного обеспечения d-Matrix позволяют агрегировать интегрированную память SRAM в единый пул памяти, обеспечивающий очень высокую пропускную способность. Например, сервер с 16 картами Corsair имеет 32 ГБ SRAM и 2 ТБ LPDDR5, чего достаточно для запуска модели Transformer с 20-30 миллиардами параметров.

d-Matrix утверждает, что серверы с вычислительными картами Corsair снижают совокупную стоимость владения генеративным логическим выводом ИИ в 10-30 раз по сравнению с решениями на базе GPU, но этот набор оборудования не будет официально доступен до 2024 года.

Программный стек d-Matrix Aviator

Мощь NVIDIA в вычислительной мощности ИИ заключается не только в графическом процессоре, но и в программном стеке CUDA и многочисленных библиотеках, оптимизированных для конкретных рабочих нагрузок и сценариев использования, образуя, таким образом, целостную экосистему.

d-Matrix также предоставляет клиентам полный опыт работы с программным стеком Aviator наряду с аппаратным обеспечением, которое включает в себя ряд программного обеспечения для развертывания моделей в рабочей среде, таких как цепочки инструментов машинного обучения, системное программное обеспечение для распределения рабочей нагрузки, программное обеспечение сервера вывода для производственных развертываний и т. д. И большая часть ее программного стека использует широко распространенное программное обеспечение с открытым исходным кодом.

Стремитесь к относительно небольшой модели

Сид Шет (Sid Sheth), генеральный директор d-Matrix, отметил, что в дополнение к позиционированию логических выводов ИИ, они также сосредоточены на многомиллиардных и десятках миллиардов малых и средних моделей, а не на сотнях миллиардов больших моделей общего назначения.

Карл Фройнд (Karl Freund), основатель и главный аналитик компании Cambrian AI, занимающейся исследованиями в области полупроводников и искусственного интеллекта, соглашается с этим: «Большинство компаний не развертывают модели с сотнями миллиардов или триллионами параметров. Но они будут использовать собственные данные компании для тонкой настройки модели, и модель, которую они фактически развернут, будет намного меньше. Для модели такого размера NVIDIA H100 не обязательно является самым экономичным вариантом, когда дело доходит до инференса ИИ, и H100 в настоящее время продается по цене до 40 000 долларов. "

Он также отметил, что d-Matrix сталкивается с окном возможностей, и у него есть относительно пустой период времени, чтобы показать свою ценность, прежде чем такие гиганты, как Nvidia, обратятся к этому рынку.

На данный момент d-Matrix ожидает выручку в размере не более $10 млн в этом году, в основном от клиентов, которые покупают чипы для оценки. Основатель компании Шет сказал, что d-Matrix ожидает годовой доход в размере от 70 до 75 миллионов долларов в течение двух лет и безубыточность. Рыночное пространство, на котором сталкивается d-Matrix, огромно, и Cambrian AI прогнозирует, что к 2030 году коэффициент вычислительной мощности чипов инференса ИИ может достичь более 1000 TOPS на ватт.

Автономность и стоимость — почва для чипов ИИ

С одной стороны, почва выживания стартапов по производству ИИ-чипов, таких как d-Matrix, исходит из независимых и контролируемых потребностей производителей ИИ, будь то гиганты, такие как Microsoft, Meta, Amazon, супер-единороги, такие как OpenAI, Anthropic, или ведущие стартапы, такие как Cohere, они не хотят, чтобы их вычислительные мощности ИИ были привязаны к одной компании.

С другой стороны, эксплуатационные расходы на сервисы ИИ, для крупных модельных компаний, в долгосрочной перспективе, стоимость вычислительных мощностей для запуска сервисов ИИ будет выше, чем стоимость вычислительной мощности для обучающих моделей, и на данном этапе эксплуатационные расходы одного пользователя предприятий ИИ являются убыточным состоянием, а совокупная стоимость владения (TCO) также высока. Для богатых денежных гигантов эта потеря доступна, но для стартапов это огромное бремя, замедляющее дальнейшее расширение их бизнеса.

Сторонняя, недорогая вычислительная мощность ИИ крайне необходима как гигантам, так и стартапам.

На данном этапе, с какими рисками сталкиваются стартапы в сфере AI-чипов? Во-первых, это, конечно же, «монополия» гиганта NVIDIA, а также Microsoft, Meta, Google, OpenAI, крупнейших ИИ-компаний, самостоятельно разрабатывающих чипы, а затем и программная экологическая проблема, поддерживающая чип.

И эти проблемы d-Matrix находится в процессе решения. Она нацелена на рынок коммерческих малых и средних моделей ИИ, а также сотрудничает с сообществом разработчиков ПО с открытым исходным кодом для создания экосистемы программного обеспечения, которая может дать ей дифференцированное конкурентное преимущество в конкуренции с гигантами.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить