Потенциальный обзор трека: Рынок децентрализованных вычислительных мощностей (Часть I)

Автор: Зик, YBB Capital

Введение

С момента рождения GPT-3 генеративный ИИ открыл взрывной переломный момент в области искусственного интеллекта с его удивительной производительностью и широкими сценариями применения, и технологические гиганты начали вступать в колею ИИ группами. Однако для обучения и вывода больших языковых моделей (LLM) требуется большая вычислительная мощность, а при итеративном обновлении модели потребность в вычислительной мощности и стоимость растут экспоненциально. Если взять в качестве примера GPT-2 и GPT-3, то разница в количестве параметров между GPT-2 и GPT-3 составляет 1166 раз (150 миллионов параметров для GPT-2 и 175 миллиардов параметров для GPT-3), а стоимость GPT-3 может достигать до 12 миллионов долларов на основе ценовой модели общедоступного облака GPU на тот момент, что в 200 раз больше, чем у GPT-2. В процессе фактического использования каждый вопрос пользователя должен быть выведен и рассчитан, в соответствии с ситуацией с 13 миллионами уникальных пользователей на начало этого года, соответствующий спрос на чипы составляет более 30 000 штук A100GPU. Первоначальные затраты составят ошеломляющие 800 миллионов долларов, из которых около 700 000 долларов в день будут потрачены на вывод модели.

Недостаточная вычислительная мощность и высокие затраты стали проблемой для всей индустрии искусственного интеллекта, но, похоже, та же проблема, похоже, преследует и индустрию блокчейна. С одной стороны, грядет четвертый халвинг биткоина и прохождение ETF, а по мере роста цены в будущем спрос на вычислительное оборудование со стороны майнеров неизбежно значительно возрастет. С другой стороны, технология «доказательства с нулевым разглашением» (ZKP) переживает бум, и Виталик неоднократно подчеркивал, что влияние ZK на пространство блокчейна в следующем десятилетии будет столь же важным, как и сам блокчейн. Несмотря на то, что будущее этой технологии с нетерпением ожидает индустрия блокчейна, ZK также потребляет много вычислительной мощности и времени в процессе генерации доказательств, таких как ИИ, из-за сложного вычислительного процесса.

В обозримом будущем дефицит вычислительных мощностей станет неизбежным, так будет ли рынок децентрализованных вычислительных мощностей хорошим бизнесом?

Определение рынка децентрализованных вычислений

Рынок децентрализованных вычислительных мощностей на самом деле в основном эквивалентен треку децентрализованных облачных вычислений, но по сравнению с децентрализованными облачными вычислениями, лично я думаю, что этот термин будет более подходящим для описания новых проектов, упомянутых ниже. Рынок децентрализованных вычислительных мощностей должен принадлежать подмножеству DePIN (децентрализованная сеть физической инфраструктуры), и его целью является создание открытого рынка вычислительных мощностей с помощью стимулов в виде токенов, чтобы любой, у кого есть свободные вычислительные ресурсы, мог предоставлять свои ресурсы на этом рынке, в основном обслуживая сообщество конечных пользователей и разработчиков. Если говорить об известных проектах, то к этому треку относятся такие известные проекты, как Render Network — сеть рендер-решений на базе децентрализованных графических процессоров и Akash Network — распределенный одноранговый маркетплейс для облачных вычислений.

Далее мы начнем с базовой концепции, а затем обсудим три развивающихся рынка: рынок вычислительных мощностей AGI, рынок вычислительной мощности Bitcoin и рынок вычислительных мощностей AGI на рынке аппаратного ускорения ZK, причем последние два будут обсуждаться в «Potential Track Preview: Decentralized Computing Power Market (Part II)».

Обзор хешрейта

Происхождение понятия вычислительной мощности можно проследить до изобретения компьютеров, первоначальный компьютер был механическим устройством для выполнения вычислительных задач, а вычислительная мощность относится к вычислительной мощности механического устройства. С развитием компьютерных технологий понятие вычислительной мощности также эволюционировало, и теперь под вычислительной мощностью обычно понимается способность компьютерного оборудования (CPU, GPU, FPGA и т. д.) и программного обеспечения (операционной системы, компилятора, приложения и т. д.) работать вместе.

Определение

Под вычислительной мощностью понимается объем данных, который может обработать компьютер или другое вычислительное устройство, или количество вычислительных задач, которые могут быть выполнены за определенный период времени. Хешрейт часто используется для описания производительности компьютера или другого вычислительного устройства, и он является важным показателем вычислительной мощности вычислительного устройства.

Метрики

Вычислительную мощность можно измерять различными способами, такими как скорость вычислений, потребление вычислительной энергии, точность вычислений и параллелизм. В компьютерной сфере обычно используются метрики вычислительной мощности, такие как FLOPS (операции с плавающей запятой в секунду), IPS (количество инструкций в секунду), TPS (транзакции в секунду) и т. д.

FLOPS (Floating-Point Operations Per Second) относится к способности компьютера обрабатывать операции с плавающей запятой (математические операции над числами с десятичными запятыми, принимая во внимание такие проблемы, как точность и ошибки округления), и он измеряет, сколько операций с плавающей запятой компьютер может выполнить в секунду. FLOPS — это мера высокопроизводительной вычислительной мощности компьютера, которая обычно используется для измерения вычислительной мощности суперкомпьютеров, высокопроизводительных вычислительных серверов и графических процессоров (GPU). Например, компьютерная система имеет FLOPS 1 TFLOPS (1 триллион операций с плавающей запятой в секунду), что означает, что она может выполнять 1 триллион операций с плавающей запятой в секунду.

IPS (количество инструкций в секунду) относится к скорости, с которой компьютер обрабатывает инструкции, и измеряет, сколько инструкций компьютер способен выполнить в секунду. IPS — это мера производительности компьютера с одной командой, которая часто используется для измерения производительности центрального процессора (ЦП) и т. д. Например, процессор с IPS 3 ГГц (который может выполнять 300 миллионов инструкций в секунду) означает, что он может выполнять 300 миллионов инструкций в секунду.

TPS (количество транзакций в секунду) относится к способности компьютера обрабатывать транзакции и измеряет, сколько транзакций компьютер может выполнить в секунду. Он часто используется для измерения производительности сервера базы данных. Например, сервер базы данных с TPS 1000 означает, что он может обрабатывать 1000 транзакций базы данных в секунду.

Кроме того, существуют некоторые индикаторы вычислительной мощности для конкретных сценариев приложений, такие как скорость вывода, скорость обработки изображений и точность распознавания речи.

Тип хешрейта

Вычислительная мощность графического процессора относится к вычислительной мощности графического процессора. В отличие от центрального процессора, графический процессор — это аппаратное обеспечение, специально разработанное для обработки графических данных, таких как изображения и видео, и имеет большое количество процессоров и эффективную параллельную вычислительную мощность, которая может выполнять большое количество операций с плавающей запятой одновременно. Поскольку графические процессоры изначально использовались для обработки игровой графики, они, как правило, имеют более высокую тактовую частоту и большую пропускную способность памяти, чем центральные процессоры, для поддержки сложных графических операций.

Разница между CPU и GPU

Архитектура: Вычислительная архитектура центральных и графических процессоров отличается. Процессоры обычно имеют одно или несколько ядер, каждое из которых является процессором общего назначения, способным выполнять множество различных операций. Графические процессоры, с другой стороны, имеют большое количество потоковых процессоров и шейдеров, которые предназначены для выполнения операций, связанных с обработкой изображений.

Параллельные вычисления: графические процессоры обычно имеют более высокие возможности параллельных вычислений. Процессоры имеют ограниченное количество ядер и могут выполнять только одну инструкцию на ядро, но графические процессоры могут иметь тысячи потоковых процессоров, которые могут выполнять несколько инструкций и операций одновременно. В результате графические процессоры, как правило, лучше, чем центральные процессоры, подходят для выполнения задач параллельных вычислений, таких как машинное обучение и глубокое обучение, которые требуют большого количества параллельных вычислений.

Программирование: программирование на GPU является более сложным, чем на CPU, и требует использования специальных языков программирования (таких как CUDA или OpenCL) и использования специальных методов программирования для использования преимуществ параллельных вычислений графических процессоров. В отличие от них, процессоры проще в программировании и могут использовать распространенные языки программирования и инструменты программирования.

Важность вычислительной мощности

В эпоху промышленной революции нефть была кровью всего мира, пронизывающей все отрасли промышленности. Вычислительная мощность находится в блокчейне, и в наступающую эру искусственного интеллекта вычислительные мощности станут «цифровой нефтью» мира. От сумасшедшего ажиотажа крупных компаний на чипы искусственного интеллекта и того факта, что акции Nvidia превысили один триллион, до недавней блокады высокопроизводительных чипов в Китае со стороны Соединенных Штатов, до размера вычислительной мощности, площади чипов и даже плана запретить облако GPU, его важность очевидна, и вычислительная мощность станет товаром в следующую эпоху.

! [Потенциальный обзор трека: Рынок децентрализованных вычислительных мощностей (Часть I)] (https://img-cdn.gateio.im/webp-social/moments-69a80767fe-0827192de8-dd1a6f-cd5cc0.webp)

Общие сведения об искусственном интеллекте

Искусственный интеллект (ИИ) — это новая техническая наука, которая изучает и разрабатывает теории, методы, технологии и прикладные системы для моделирования, расширения и расширения человеческого интеллекта. Он возник в пятидесятых и шестидесятых годах 20-го века, и после более чем полувековой эволюции пережил переплетение трех волн символизма, коннекционизма и акторов. Более конкретное определение генеративного ИИ — это общий искусственный интеллект (AGI), система ИИ с широким пониманием, которая может выполнять интеллект, аналогичный человеческому или превосходящий его, в различных задачах и областях. В основном AGI должен состоять из трех элементов: глубокого обучения (DL), больших данных и крупномасштабных вычислительных мощностей.

Глубокое обучение

Глубокое обучение — это подобласть машинного обучения (ML), а алгоритмы глубокого обучения — это нейронные сети, смоделированные по образцу человеческого мозга. Например, человеческий мозг содержит миллионы взаимосвязанных нейронов, которые работают вместе, чтобы обучаться и обрабатывать информацию. Точно так же нейронные сети глубокого обучения (или искусственные нейронные сети) состоят из нескольких слоев искусственных нейронов, которые работают вместе внутри компьютера. Искусственные нейроны — это программные модули, называемые узлами, которые используют математические вычисления для обработки данных. Искусственные нейронные сети — это алгоритмы глубокого обучения, которые используют эти узлы для решения сложных задач.

! [Потенциальный обзор трека: Рынок децентрализованных вычислительных мощностей (Часть I)] (https://img-cdn.gateio.im/webp-social/moments-69a80767fe-23a44030b8-dd1a6f-cd5cc0.webp)

Нейронные сети можно разделить на входные, скрытые и выходные слои, а параметры связаны между разными слоями.

Входной слой: Входной слой является первым слоем нейронной сети и отвечает за получение внешних входных данных. Каждому нейрону входного слоя соответствует признак входных данных. Например, при обработке данных изображения каждый нейрон может соответствовать одному пиксельному значению изображения;

Скрытые слои: входной слой обрабатывает данные и передает их более дальним слоям нейронной сети. Эти скрытые слои обрабатывают информацию на разных уровнях, корректируя свое поведение по мере получения новой информации. Сети глубокого обучения имеют сотни скрытых слоев, которые можно использовать для анализа проблем с разных точек зрения. Например, если вам дали изображение неизвестного животного, которое необходимо классифицировать, вы можете сравнить его с уже знакомым вам животным. Например, по форме ушей, количеству ног и размеру зрачков можно определить, что это за животное. Скрытые слои в глубоких нейронных сетях работают по тому же принципу. Если алгоритм глубокого обучения пытается классифицировать изображение животного, каждый из его скрытых слоев обрабатывает различные черты животного и пытается точно классифицировать его;

Выходной слой: Выходной слой является последним слоем нейронной сети и отвечает за генерацию выходных данных сети. Каждый нейрон в выходном слое представляет возможный выходной класс или значение. Например, в задаче классификации каждый нейрон выходного слоя может соответствовать категории, в то время как в задаче регрессии выходной слой может иметь только один нейрон, значение которого представляет прогнозируемый результат;

Параметры: В нейронной сети связи между различными слоями представлены параметрами Веса и Смещения, которые оптимизируются во время обучения, чтобы сеть могла точно выявлять закономерности и делать прогнозы в данных. Увеличение параметров может увеличить модельные возможности нейронной сети, т.е. способность модели обучаться и представлять сложные закономерности в данных. Однако увеличение параметров увеличит спрос на вычислительные мощности.

Большие данные

Для эффективного обучения нейронным сетям часто требуется большой объем данных, разнообразных и качественных, а также из нескольких источников. Это основа для обучения и валидации моделей машинного обучения. Анализируя большие данные, модели машинного обучения могут изучать закономерности и взаимосвязи в данных, чтобы делать прогнозы или классификации.

Огромная вычислительная мощность

Многослойная сложная структура нейронной сети, большое количество параметров, необходимость обработки больших данных, итерационный метод обучения (на этапе обучения модель должна повторяться, а прямое и обратное распространение каждого слоя необходимо вычислять в процессе обучения, включая вычисление функции активации, расчет функции потерь, расчет градиента и обновление веса), необходимость высокоточных вычислений, возможность параллельных вычислений, технология оптимизации и регуляризации, а также процесс оценки и верификации модели — все это приводит к требованию высокой вычислительной мощности. Требования AGI к крупномасштабным вычислительным мощностям увеличиваются примерно в 10 раз каждый год. На данный момент последняя модель GPT-4 содержит 1,8 триллиона параметров, стоимость одного обучения составляет более 60 миллионов долларов США, а требуемая вычислительная мощность составляет 2,15e25 FLOPS (21 500 триллионов вычислений с плавающей запятой). Спрос на вычислительные мощности для обучения следующей модели продолжает расти, и новые модели также увеличиваются.

Экономика вычислений на основе искусственного интеллекта

Будущий объем рынка

Согласно наиболее авторитетным оценкам, «Отчет об оценке глобального индекса вычислительной мощности за 2022-2023 годы», составленный совместно IDC (International Data Corporation) и Inspur Information и Институтом глобальных отраслевых исследований Университета Цинхуа, Объем мирового рынка вычислений на основе искусственного интеллекта вырастет с 19,50 млрд долларов США в 2022 году до 34,66 млрд долларов США в 2026 году, а объем рынка вычислений с генеративным ИИ вырастет с 820 млн долларов США в 2022 году до 10,99 млрд долларов США в 2026 году. Генеративные вычисления на основе искусственного интеллекта вырастут с 4,2% до 31,7% от общего рынка вычислений на основе искусственного интеллекта.

! [Потенциальный обзор трека: Рынок децентрализованных вычислительных мощностей (Часть I)] (https://img-cdn.gateio.im/webp-social/moments-69a80767fe-f96a0c08e0-dd1a6f-cd5cc0.webp)

Вычислительная мощность, экономическая монополия

Производство графических процессоров с искусственным интеллектом было монополизировано NVIDA, и они чрезвычайно дороги (последний H100 был продан по цене 40 000 долларов за чип), и графические процессоры были раскуплены гигантами Кремниевой долины, как только они были выпущены, и некоторые из этих устройств используются для обучения своих собственных новых моделей. Другая часть сдается в аренду разработчикам ИИ через облачные платформы, такие как Google, Amazon и платформы облачных вычислений Microsoft, которые осваивают большое количество вычислительных ресурсов, таких как серверы, графические процессоры и TPU. Вычислительные мощности стали новым ресурсом, монополизированным гигантами, и большое количество разработчиков, связанных с искусственным интеллектом, не могут даже купить выделенный GPU без наценки, а для того, чтобы использовать новейшее оборудование, разработчикам приходится арендовать облачные серверы AWS или Microsoft. Согласно финансовому отчету, этот бизнес имеет чрезвычайно высокую прибыль: валовая прибыль облачных сервисов AWS составляет 61%, в то время как валовая прибыль Microsoft выше — 72%.

! [Потенциальный обзор трека: Рынок децентрализованных вычислительных мощностей (Часть I)] (https://img-cdn.gateio.im/webp-social/moments-69a80767fe-a2d9d13bc5-dd1a6f-cd5cc0.webp)

Так должны ли мы смириться с этой централизованной властью и контролем и платить 72% от прибыли за вычислительные ресурсы? Будут ли гиганты, монополизировавшие Web2, иметь монополию на следующую эпоху?

Проблема децентрализованных вычислительных мощностей AGI

Когда дело доходит до антимонопольного законодательства, децентрализация, как правило, является оптимальным решением, и из существующих проектов, можем ли мы использовать протокол для достижения крупномасштабной вычислительной мощности, необходимой для ИИ, с помощью проектов хранения в DePIN и простаивающих графических процессоров, таких как RDNR? Ответ — нет, путь к уничтожению драконов не так прост, ранние проекты не были специально разработаны для вычислительной мощности AGI, это неосуществимо, а вычислительные мощности должны столкнуться, по крайней мере, со следующими пятью проблемами в цепочке:

  1. Проверка работы: Чтобы построить по-настоящему надежную вычислительную сеть и обеспечить финансовые стимулы для участников, сеть должна иметь способ проверки того, что вычислительная работа глубокого обучения действительно выполняется. В основе этой проблемы лежит зависимость от состояния моделей глубокого обучения; В модели глубокого обучения входные данные каждого слоя зависят от выходных данных предыдущего слоя. Это означает, что вы не можете просто проверить один слой в модели, не рассмотрев все слои до него. Вычисления для каждого слоя основаны на результатах всех слоев, которые ему предшествовали. Поэтому, чтобы проверить работу, выполненную в определенной точке (например, в определенном слое), вся работа должна быть выполнена от начала модели до этой конкретной точки;

  2. Рынок: Будучи развивающимся рынком, рынок вычислительных мощностей ИИ подвержен дилеммам спроса и предложения, таким как проблемы холодного запуска, и ликвидность спроса и предложения должна быть примерно согласована с самого начала, чтобы рынок мог успешно расти. Для того, чтобы захватить потенциальное предложение хэш-мощности, участникам должно быть предложено явное вознаграждение в обмен на их хэш-ресурсы. Маркетплейсу нужен механизм, позволяющий отслеживать проделанную вычислительную работу и своевременно выплачивать соответствующие комиссии провайдерам. На традиционных рынках посредники выполняют такие задачи, как управление и адаптация, при этом снижая операционные расходы за счет установления минимальных выплат. Однако такой подход более затратен при масштабировании рынка. Только небольшая часть предложения может быть эффективно захвачена экономически, что приводит к пороговому равновесному состоянию, когда рынок может захватывать и поддерживать только ограниченное предложение и не может расти дальше;

  3. Проблема простоя: Проблема простоя является фундаментальной проблемой в теории вычислений, которая включает в себя суждение о том, будет ли данная вычислительная задача завершена за конечное время или никогда не остановится. Эта задача неразрешима, а это значит, что не существует универсального алгоритма, который мог бы предсказать, остановятся ли все вычислительные задачи за конечное время. Например, в Ethereum исполнение смарт-контрактов сталкивается с аналогичным временем простоя. т.е. невозможно заранее определить, сколько вычислительных ресурсов потребуется для исполнения смарт-контракта, или будет ли он выполнен в разумные сроки;

(В контексте глубокого обучения эта проблема будет более сложной, поскольку модели и фреймворки перейдут от статического построения графов к динамическому построению и выполнению.) )

  1. Конфиденциальность: Проектирование и разработка осведомленности о конфиденциальности является обязательным для проектной команды. Несмотря на то, что большой объем исследований в области машинного обучения может быть выполнен на общедоступных наборах данных, для повышения производительности моделей и их адаптации к конкретным приложениям часто требуется тонкая настройка моделей на основе проприетарных пользовательских данных. Этот процесс тонкой настройки может включать в себя обработку персональных данных и, следовательно, должен учитывать требования Соглашения о правилах обмена конфиденциальной информацией;

  2. Распараллеливание: Это ключевой фактор осуществимости текущих проектов, модели глубокого обучения часто обучаются параллельно на больших аппаратных кластерах с проприетарными архитектурами и чрезвычайно низкой задержкой, в то время как графические процессоры в распределенных вычислительных сетях требуют частого обмена данными для внесения задержки и ограничены самыми низкопроизводительными графическими процессорами. В случае ненадежных и ненадежных источников вычислительной мощности вопрос о том, как добиться гетерогенного распараллеливания, является проблемой, которую необходимо решить, и в настоящее время возможным методом является достижение распараллеливания с помощью моделей трансформаторов, таких как коммутационные трансформаторы, которые в настоящее время имеют характеристики высокой параллелизации.

Решение: Несмотря на то, что нынешняя попытка создания децентрализованного рынка вычислительных мощностей AGI все еще находится на ранней стадии, есть два проекта, которые предварительно решили согласованный дизайн децентрализованной сети и процесс реализации децентрализованной вычислительной сети в обучении модели и выводе. Ниже мы возьмем Gensyn и Together в качестве примера для анализа методов проектирования и проблем децентрализованного рынка вычислительных мощностей AGI.

Воссоединение

! [Потенциальный обзор трека: Рынок децентрализованных вычислительных мощностей (Часть I)] (https://img-cdn.gateio.im/webp-social/moments-69a80767fe-1c80fe339c-dd1a6f-cd5cc0.webp)

Gensyn — это рынок вычислительных мощностей AGI, который все еще находится на стадии создания и направлен на решение многочисленных проблем децентрализованных вычислений глубокого обучения и снижение стоимости глубокого обучения сегодня. Gensyn — это, по сути, протокол Layer 1 proof-of-stake, основанный на сети Polkadot, который напрямую вознаграждает решателей (Solvers) через смарт-контракты в обмен на их простаивающие устройства GPU для вычислений и выполняет задачи машинного обучения.

Итак, возвращаясь к предыдущему вопросу, суть создания по-настоящему надежной вычислительной сети заключается в проверке проделанной работы по машинному обучению. Это очень сложная задача, требующая нахождения баланса на стыке теории сложности, теории игр, криптографии и оптимизации.

Gensyn предлагает простое решение, в котором решатель отправляет результаты выполненной им задачи машинного обучения. Чтобы убедиться в точности этих результатов, другой независимый валидатор пытается повторить ту же работу. Этот метод можно назвать одиночной репликацией, так как повторно будет выполняться только один валидатор. Это означает, что существует только одно дополнительное усилие для проверки точности оригинальной работы. Однако, если лицо, проверяющее работу, не является заказчиком исходного задания, то проблема доверия остается. Потому что сами валидаторы могут быть нечестными, и их работу нужно проверять. Это приводит к потенциальной проблеме, заключающейся в том, что если человек, проверяющий работу, не является заказчиком оригинальной работы, то для проверки его работы необходим другой валидатор. Но этому новому валидатору также можно не доверять, поэтому для проверки их работы необходим другой валидатор, который может продолжаться вечно, образуя бесконечную цепочку репликации. Здесь нам нужно ввести три ключевых понятия и переплести их для построения четырехролевой системы участников для решения задачи бесконечной цепи.

Доказательство вероятностного обучения: используйте метаданные процесса оптимизации на основе градиента для создания сертификата о проделанной работе. Реплицируя определенные этапы, можно быстро проверить эти сертификаты, чтобы убедиться, что работа выполнена в соответствии с графиком.

Протокол точечных вычислений на основе графов: использует протокол Pinnacle на основе графов с множественной степенью детализации, а также согласованное выполнение перекрестных оценок. Это позволяет повторно запускать и сравнивать усилия по верификации для обеспечения согласованности и, в конечном итоге, подтверждать самим блокчейном.

Поощрительные игры в стиле Truebit: используйте стейкинг и слэшинг для создания поощрительных игр, которые гарантируют, что каждый финансово состоятельный участник будет действовать честно и выполнять поставленные перед ним задачи.

Система контрибьюторов состоит из коммиттеров, решателей, валидаторов и информаторов.

Заявители:

Отправитель является конечным пользователем системы, предоставляет задачи, которые будут рассчитаны, и оплачивает единицы выполненных работ;

Решателей:

Решатель является основным рабочим процессом системы, выполняющим обучение модели и генерирующим доказательства, которые проверяются валидаторами;

Показатели:

Верификатор является ключом к связыванию недетерминированного процесса обучения с детерминированными линейными вычислениями, воспроизведением части доказательства решателя и сравнением расстояния с ожидаемым порогом;

Осведомители:

Разоблачители — это последняя линия обороны, проверяющая работу валидаторов и делающая челленджи в надежде на выгодные бонусные выплаты.

Система работает

Протокол предназначен для работы в игровой системе, которая будет состоять из восьми фаз, охватывающих четыре основные роли участников, и будет использоваться для завершения полного процесса от отправки задачи до окончательной проверки.

  1. Отправка задачи: Задача состоит из трех конкретных фрагментов информации:
  • Метаданные, описывающие задачи и гиперпараметры;
  • Двоичный файл модели (или базовая схема);
  • Общедоступные, предварительно обработанные обучающие данные.
  1. Для того, чтобы отправить задачу, отправитель указывает детали задачи в машиночитаемом формате и отправляет ее в цепочку вместе с двоичным файлом модели (или машиночитаемой схемой) и общедоступным местоположением предварительно обработанных обучающих данных. Открытые данные можно хранить в простом объектном хранилище, таком как AWS S3, или в децентрализованном хранилище, таком как IPFS, Arweave или Subspace.

  2. Профилирование: В процессе анализа определяется пороговое значение базового расстояния для обучения проверке доказательства. Валидатор будет периодически очищать задачу анализа и генерировать порог вариации для сравнения с доказательством обучения. Чтобы сгенерировать пороговые значения, валидаторы будут детерминированно запускать и повторно запускать часть обучения, используя различные случайные начальные значения, генерируя и проверяя свои собственные доказательства. Во время этого процесса валидатор устанавливает общий порог ожидаемого расстояния, который можно использовать в качестве недетерминированной попытки проверки решения.

  3. Обучение: После анализа задача попадает в публичный пул задач (аналог мемпула Ethereum). Выберите решатель для выполнения задачи и удалите задачу из пула задач. Механизм расчета выполняет задачу на основе метаданных, предоставленных отправителем, а также предоставленных данных модели и обучения. При выполнении задачи обучения решатель также генерирует доказательство обучения, периодически проверяя и сохраняя метаданные (включая параметры) из процесса обучения, чтобы верификатор мог как можно точнее воспроизвести следующие шаги оптимизации.

  4. Создание доказательства: механизм расчета периодически сохраняет весовые коэффициенты или обновления модели и соответствующий индекс с обучающим набором данных для идентификации выборок, используемых для создания обновлений весов. Частоту контрольных точек можно регулировать для обеспечения большей надежности или экономии места для хранения. Доказательство может быть "сложено", что означает, что доказательство может начинаться со случайного распределения весов, используемых для инициализации весов, или начинаться с предварительно обученных весов, сгенерированных с использованием собственных доказательств. Это позволяет протоколу создавать набор проверенных, предварительно обученных базовых моделей (т. е. базовых моделей), которые могут быть точно настроены для более конкретных задач.

  5. Проверка доказательства: Как только задача завершена, решатель регистрирует задачу в цепочке и отображает свое доказательство обучения в общедоступном месте для доступа валидатора. Валидатор извлекает задачу проверки из общего пула задач и выполняет вычислительную работу для повторного запуска части доказательства и вычисления расстояния. Затем цепочка (вместе с пороговыми значениями, вычисленными на этапе анализа) использует полученное расстояние, чтобы определить, соответствует ли проверка доказательству.

  6. Задача с точными точками на основе графов: после проверки доказательства обучения осведомитель может скопировать работу валидатора, чтобы проверить, что сама проверка выполняется правильно. Если осведомитель считает, что проверка была выполнена по ошибке (злонамеренной или незлонамеренной), он может оспорить кворум контракта, чтобы получить вознаграждение. Это вознаграждение может поступать от депозитов солверов и валидаторов (в случае истинно положительного) или из призового фонда лотерейного хранилища (в случае ложного срабатывания), а арбитраж осуществляется с использованием самой цепочки. Осведомители (в их случае валидаторы) будут проверять и впоследствии оспаривать работу только в том случае, если они ожидают получить соответствующую компенсацию. На практике это означает, что ожидается, что осведомители присоединятся к сети и покинут ее в зависимости от количества осведомителей, занимающихся другой деятельностью (т.е. с живыми депозитами и проблемами). Таким образом, ожидаемая стратегия по умолчанию для любого осведомителя заключается в том, чтобы присоединиться к сети, когда других осведомителей меньше, внести депозит, случайным образом выбрать активную задачу и начать процесс проверки. После того, как первое задание будет выполнено, они возьмут еще одно случайное активное задание и будут повторять до тех пор, пока количество разоблачителей не превысит установленный ими порог выплаты, а затем они покинут сеть (или, что более вероятно, перейдут к другой роли в сети — валидатору или решателю — в зависимости от их аппаратных возможностей) до тех пор, пока ситуация снова не изменится.

  7. Контрактный арбитраж: Когда валидатору бросает вызов осведомитель, он вступает в процесс с цепочкой, чтобы выяснить, где находится спорное действие или вход, и, наконец, цепочка выполняет заключительную базовую операцию и определяет, оправдан ли вызов. Для того, чтобы осведомитель оставался честным и заслуживающим доверия, а также преодолел дилемму валидаторов, здесь введены регулярные вынужденные ошибки и выплаты джекпотов.

  8. Расчет: В процессе расчета участники получают оплату на основе завершения проверок вероятности и определенности. В зависимости от результатов предыдущих проверок и челленджей будут разные выплаты по разным сценариям. Если работа считается выполненной правильно и все проверки пройдены, поставщик решения и валидатор получают вознаграждение в зависимости от предпринятого действия.

Краткий обзор проекта

Gensyn разработал замечательную игровую систему на уровне верификации и уровне поощрения, которая может быстро идентифицировать ошибку, найдя точки расхождения в сети, но в текущей системе все еще отсутствует много деталей. Например, как установить параметры, чтобы гарантировать, что поощрения и наказания разумны, но порог не слишком высок? Учитывалась ли в игре разница между экстремальным случаем и вычислительной мощностью решателя? В текущей версии white paper нет подробного описания гетерогенной параллельной работы, и кажется, что реализация Gensyn по-прежнему сложна и длинна.

Together.ai

Together — это компания, которая фокусируется на открытом исходном коде больших моделей и стремится к децентрализованным вычислительным решениям на основе искусственного интеллекта, надеясь, что каждый может получить доступ к ИИ и использовать его в любом месте. Строго говоря, Together не является блокчейн-проектом, но проект предварительно решил проблему задержки в децентрализованной вычислительной сети AGI. Поэтому в следующей статье анализируется только решение Together, но не оценивается проект.

Как можно обучать и выводить большие модели, если децентрализованная сеть в 100 раз медленнее, чем центр обработки данных?

Давайте представим, как бы выглядело распределение GPU-устройств, участвующих в сети, если бы децентрализацию убрали. Эти устройства будут распределены по разным континентам, в разных городах, и их нужно будет подключать друг к другу, а задержка и пропускная способность соединения будут различаться. Как показано на рисунке ниже, распределенный сценарий моделируется с устройствами, распределенными по Северной Америке, Европе и Азии, с разной пропускной способностью и задержкой между устройствами. Так что же нужно сделать, чтобы соединить его последовательно?

! [Потенциальный обзор трека: Рынок децентрализованных вычислительных мощностей (Часть I)] (https://img-cdn.gateio.im/webp-social/moments-69a80767fe-42ef6469f3-dd1a6f-cd5cc0.webp)

Моделирование распределенных обучающих вычислений: На следующем рисунке показано базовое обучение модели на нескольких устройствах, и существует три типа связи с точки зрения типов связи: прямая активация, обратный градиент и боковая связь.

! [Потенциальный обзор трека: Рынок децентрализованных вычислительных мощностей (Часть I)] (https://img-cdn.gateio.im/webp-social/moments-69a80767fe-ea4665b014-dd1a6f-cd5cc0.webp)

В сочетании с пропускной способностью и задержкой связи необходимо рассмотреть две формы параллелизма: параллелизм конвейера и параллелизм данных, соответствующие трем типам связи в случае нескольких устройств:

При конвейерном параллелизме все слои модели разбиваются на этапы, где каждое устройство обрабатывает фазу, представляющую собой непрерывную последовательность слоев, например, несколько трансформаторных блоков; При прямом прохождении активация передается на следующий этап, тогда как при обратном прохождении градиент активации передается на предыдущий этап.

При параллелизме данных устройство независимо вычисляет градиенты разных микропакетов, но обменивается данными для синхронизации этих градиентов.

Оптимизация планирования:

В децентрализованной среде процесс обучения часто ограничивается общением. Алгоритмы планирования обычно назначают задачи, требующие большого объема связи, устройствам с более высокой скоростью соединения, и, учитывая зависимости между задачами и неоднородность сети, сначала необходимо смоделировать стоимость конкретной стратегии планирования. Для того, чтобы учесть сложные коммуникационные затраты на обучение базовой модели, Together предлагает новую формулу и декомпозирует модель затрат на два уровня с помощью теории графов:

  • Теория графов — раздел математики, изучающий природу и структуру графов (сетей). Граф состоит из вершин (узлов) и ребер (линий, соединяющих узлы). Основной целью теории графов является изучение различных свойств графов, таких как связность графов, цвета графов, природа путей и циклов в графах.
  • Первый уровень — сбалансированное разбиение графа (разбиение множества вершин графа на несколько подмножеств равных или примерно равных размеров, при этом минимизирующее количество рёбер между подмножествами. В этой сегментации каждое подмножество представляет секцию, и затраты на связь уменьшаются за счет минимизации границ между секциями, что соответствует затратам на передачу данных при параллелизме данных.
  • Второй уровень — совместная задача сопоставления графов и задача коммивояжера (совместная задача сопоставления графов и задача коммивояжера — комбинаторная оптимизационная задача, объединяющая элементы задач сопоставления графов и коммивояжера. Задача сопоставления графов заключается в том, чтобы найти совпадение в графе таким образом, чтобы минимизировать или максимизировать какие-либо затраты. Задача коммивояжера состоит в том, чтобы найти кратчайший путь ко всем узлам графа), соответствующий затратам на связь параллелизма конвейера.

! [Потенциальный обзор трека: Рынок децентрализованных вычислительных мощностей (Часть I)] (https://img-cdn.gateio.im/webp-social/moments-69a80767fe-15383f3e42-dd1a6f-cd5cc0.webp)

На рисунке выше показана принципиальная схема процесса, так как сам процесс реализации включает в себя несколько сложных расчетных формул. Для того, чтобы было проще понять, ниже будет объяснен процесс на схеме простыми словами, а с подробным процессом реализации можно ознакомиться самостоятельно в документации на официальном сайте Together.

Предположим, что имеется набор устройств D с N устройствами, и связь между ними имеет неопределенную задержку (A-матрица) и полосу пропускания (B-матрица). На основе набора устройств D сначала мы генерируем сбалансированную сегментацию графика. Количество устройств в каждом разделении или группе устройств примерно одинаково, и все они обрабатывают одни и те же этапы конвейера. Это гарантирует, что при параллельном подключении данных группы устройств выполняют одинаковый объем работы. (Параллелизм данных — это когда несколько устройств выполняют одну и ту же задачу, в то время как этапы конвейерной обработки — это когда устройства выполняют разные шаги задачи в определенном порядке). Исходя из задержки и пропускной способности связи, «стоимость» передачи данных между группами устройств можно рассчитать с помощью формул. Каждая сбалансированная группа устройств объединяется для создания полносвязного грубого графа, где каждый узел представляет собой этап конвейера, а ребра представляют стоимость связи между двумя этапами. Чтобы минимизировать затраты на связь, используется алгоритм сопоставления, чтобы определить, какие группы устройств должны работать вместе.

Для дальнейшей оптимизации задачу также можно смоделировать как задачу коммивояжера с разомкнутым контуром (разомкнутый контур означает, что нет необходимости возвращаться к началу пути) для поиска оптимального пути передачи данных между всеми устройствами. Наконец, Together использует свой инновационный алгоритм планирования для поиска оптимальной стратегии распределения для заданной модели затрат, чтобы минимизировать затраты на связь и максимизировать пропускную способность обучения. Согласно фактическим измерениям, даже если сеть работает в 100 раз медленнее при такой оптимизации планирования, сквозная пропускная способность обучения будет всего в 1,7–2,3 раза медленнее.

Оптимизация сжатия данных:

! [Потенциальный обзор трека: Рынок децентрализованных вычислительных мощностей (Часть I)] (https://img-cdn.gateio.im/webp-social/moments-69a80767fe-a29a418c60-dd1a6f-cd5cc0.webp)

Для оптимизации сжатия коммуникаций Together представляет алгоритм AQ-SGD (подробный процесс расчета см. в статье Тонкая настройка языковых моделей в медленных сетях с использованием сжатия активации с гарантиями). Алгоритм AQ-SGD представляет собой новую технологию активного сжатия, предназначенную для решения проблемы эффективности связи при параллельном обучении трубопроводов на низкоскоростных сетях. В отличие от предыдущих методов прямого сжатия значения активности, AQ-SGD фокусируется на сжатии изменений значения активности одной и той же обучающей выборки за разные периоды, и этот уникальный метод вводит интересную «самоисполняющуюся» динамику, и ожидается, что производительность алгоритма будет постепенно улучшаться по мере стабилизации обучения. После тщательного теоретического анализа алгоритм AQ-SGD доказывает, что он имеет хорошую скорость сходимости при определенных технических условиях и функцию квантования с ограниченной погрешностью. Алгоритм может быть реализован эффективно без добавления дополнительных накладных расходов на сквозную среду выполнения, хотя для хранения активного значения требуется больше памяти и твердотельных накопителей. Благодаря обширной экспериментальной проверке наборов данных классификации последовательностей и языкового моделирования, AQ-SGD может сжимать значения активности до 2-4 бит без ущерба для производительности сходимости. Кроме того, AQ-SGD также может быть интегрирован с современными алгоритмами градиентного сжатия для достижения «сквозного сжатия связи», то есть обмен данными между всеми машинами, включая градиенты модели, прямые значения активности и обратные градиенты, сжимается до низкой точности, тем самым значительно повышая эффективность связи распределенного обучения. По сравнению со сквозной производительностью обучения централизованной вычислительной сети (например, 10 Гбит/с) без сжатия, в настоящее время она всего на 31% ниже. В сочетании с данными оптимизации планирования, несмотря на то, что все еще существует определенное отставание от централизованной вычислительной сети, есть относительно большая надежда наверстать упущенное в будущем.

Заключение

В условиях дивидендного периода, вызванного волной искусственного интеллекта, рынок вычислительных мощностей AGI, несомненно, является рынком с наибольшим потенциалом и наибольшим спросом среди многих рынков вычислительных мощностей. Тем не менее, сложность разработки, требования к аппаратному обеспечению и капиталу также являются самыми высокими. В сочетании с двумя вышеупомянутыми проектами до реализации рынка вычислительных мощностей AGI еще далека определенная дистанция, а реальная децентрализованная сеть намного сложнее идеальной ситуации, которой явно недостаточно для конкуренции с облачными гигантами. На момент написания этой статьи также было замечено, что некоторые проекты, которые находятся в зачаточном состоянии (стадия PPT), начали исследовать некоторые новые точки входа, такие как сосредоточение внимания на менее сложном этапе вывода или обучении небольших моделей, которые являются более практическими попытками.

Несмотря на то, что он сталкивается со многими проблемами, в долгосрочной перспективе важно, чтобы децентрализация и неразрешимое значение вычислительных мощностей AGI не были сосредоточены в руках нескольких централизованных гигантов. Потому что человечеству не нужна ни новая «религия», ни новый «папа», не говоря уже о том, чтобы платить дорогостоящие «членские взносы».

библиография

1.Генсин Лайтпейпер:

2.NeurIPS 2022: Преодоление узких мест в коммуникации для децентрализованного обучения:

3.Тонкая настройка языковых моделей в медленных сетях с использованием сжатия активации с гарантиями:

  1. Вычислительный протокол машинного обучения и наше будущее:

5.Microsoft:Отчет о прибылях и убытках за 23 квартал 2 финансового года:

  1. Соревнуйтесь за билеты ИИ: BAT и Byte Meituan соревнуются за графический процессор:

  2. IDC: Отчет об оценке глобального индекса вычислительной мощности за 2022-2023 гг.:

  3. Оценка обучения большой модели Guosheng Securities:

  4. Крылья информации: Какова связь между вычислительными мощностями и искусственным интеллектом? :

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить