С момента рождения GPT-3 генеративный ИИ открыл взрывной переломный момент в области искусственного интеллекта с его удивительной производительностью и широкими сценариями применения, и технологические гиганты начали вступать в колею ИИ группами. Однако для обучения и вывода больших языковых моделей (LLM) требуется большая вычислительная мощность, а при итеративном обновлении модели потребность в вычислительной мощности и стоимость растут экспоненциально. Если взять в качестве примера GPT-2 и GPT-3, то разница в количестве параметров между GPT-2 и GPT-3 составляет 1166 раз (150 миллионов параметров для GPT-2 и 175 миллиардов параметров для GPT-3), а стоимость одного обучения GPT-3 может достигать 12 миллионов долларов, что в 200 раз больше, чем у GPT-2, исходя из ценовой модели общедоступного облака GPU на тот момент. В процессе фактического использования каждый вопрос пользователя должен быть выведен и просчитан, и, согласно ситуации с 13 миллионами уникальных пользователей на начало этого года, соответствующий спрос на чипы составляет более 30 000 графических процессоров A 100. Это ошеломляющие 800 миллионов долларов первоначальных затрат на входные данные и примерно 700 000 долларов в день на вывод модели.
Недостаточная вычислительная мощность и высокие затраты стали проблемой для всей индустрии искусственного интеллекта, но те же проблемы, похоже, преследуют и блокчейн-индустрию. С одной стороны, приближается четвертый халвинг биткоина и проход ETF, и по мере роста цен в будущем спрос майнеров на вычислительное оборудование неизбежно значительно возрастет. С другой стороны, технология «доказательства с нулевым разглашением» (ZKP) переживает бум, и Виталик неоднократно подчеркивал, что влияние ZK на пространство блокчейна в следующем десятилетии будет столь же важным, как и сам блокчейн. Несмотря на то, что блокчейн-индустрия с нетерпением ожидает будущего этой технологии, ZK потребляет много вычислительной мощности и времени в процессе генерации доказательств, как и ИИ, из-за сложного вычислительного процесса.
В обозримом будущем дефицит вычислительных мощностей станет неизбежным, так будет ли рынок децентрализованных вычислительных мощностей хорошим бизнесом?
Определение рынка децентрализованных вычислений
Рынок децентрализованных вычислительных мощностей на самом деле в основном эквивалентен треку децентрализованных облачных вычислений, но по сравнению с децентрализованными облачными вычислениями, лично я думаю, что этот термин будет более подходящим для описания новых проектов, упомянутых ниже. Рынок децентрализованных вычислений должен принадлежать к подмножеству DePIN (децентрализованная сеть физической инфраструктуры), и его целью является создание открытого вычислительного рынка, где любой, у кого есть свободные вычислительные ресурсы, может предоставлять свои ресурсы с помощью стимулов в виде токенов, в основном обслуживая сообщество конечных пользователей и разработчиков. Если говорить об известных проектах, то к этому треку относятся такие известные проекты, как Render Network — сеть рендер-решений на базе децентрализованных графических процессоров и Akash Network — распределенный одноранговый маркетплейс для облачных вычислений.
Далее мы начнем с основных концепций, а затем обсудим три развивающихся рынка в рамках этого направления: рынок вычислительных мощностей AGI, рынок вычислительных мощностей Bitcoin и рынок вычислительных мощностей AGI на рынке аппаратного ускорения ZK, причем последние два будут обсуждаться в "Potential Track Preview: Decentralized Computing Power Market (Part II)".
Обзор хешрейта
Происхождение понятия вычислительной мощности можно проследить до изобретения компьютеров, первоначальный компьютер был механическим устройством для выполнения вычислительных задач, а вычислительная мощность относится к вычислительной мощности механического устройства. С развитием компьютерных технологий понятие вычислительной мощности также эволюционировало, и теперь под вычислительной мощностью обычно понимается способность компьютерного оборудования (CPU, GPU, FPGA и т. д.) и программного обеспечения (операционной системы, компилятора, приложения и т. д.) работать вместе.
Определения
Под вычислительной мощностью понимается объем данных, который может обработать компьютер или другое вычислительное устройство, или количество вычислительных задач, которые могут быть выполнены за определенный период времени. Хешрейт часто используется для описания производительности компьютера или другого вычислительного устройства, и он является важным показателем вычислительной мощности вычислительного устройства.
Метрики
Вычислительную мощность можно измерять различными способами, такими как скорость вычислений, потребление вычислительной энергии, точность вычислений и параллелизм. В компьютерной сфере обычно используются метрики вычислительной мощности, такие как FLOPS (операции с плавающей запятой в секунду), IPS (количество инструкций в секунду), TPS (транзакции в секунду) и т. д.
FLOPS (Floating-Point Operations Per Second) относится к способности компьютера обрабатывать операции с плавающей запятой (математические операции над числами с десятичными запятыми, принимая во внимание такие проблемы, как точность и ошибки округления), и он измеряет, сколько операций с плавающей запятой компьютер может выполнить в секунду. FLOPS — это мера высокопроизводительной вычислительной мощности компьютера, которая обычно используется для измерения вычислительной мощности суперкомпьютеров, высокопроизводительных вычислительных серверов и графических процессоров (GPU). Например, компьютерная система имеет FLOPS 1 TFLOPS (1 триллион операций с плавающей запятой в секунду), что означает, что она может выполнять 1 триллион операций с плавающей запятой в секунду.
IPS (количество инструкций в секунду) относится к скорости, с которой компьютер обрабатывает инструкции, и измеряет, сколько инструкций компьютер способен выполнить в секунду. IPS является мерой производительности компьютера с одной командой и часто используется для измерения производительности центрального процессора (ЦП) и т. д. Например, процессор с IPS 3 ГГц (который может выполнять 300 миллионов инструкций в секунду) означает, что он может выполнять 300 миллионов инструкций в секунду.
TPS (количество транзакций в секунду) относится к способности компьютера обрабатывать транзакции и измеряет, сколько транзакций компьютер может выполнить в секунду. Он часто используется для измерения производительности сервера базы данных. Например, сервер базы данных с TPS 1000 означает, что он может обрабатывать 1000 транзакций базы данных в секунду.
Кроме того, существуют некоторые индикаторы вычислительной мощности для конкретных сценариев приложений, такие как скорость вывода, скорость обработки изображений и точность распознавания речи.
Типы хеш-мощности
Вычислительная мощность графического процессора относится к вычислительной мощности графического процессора. В отличие от центрального процессора, графический процессор — это аппаратное обеспечение, специально разработанное для обработки графических данных, таких как изображения и видео, и имеет большое количество процессоров и эффективную параллельную вычислительную мощность для одновременного выполнения большого количества операций с плавающей запятой. Поскольку графические процессоры изначально использовались для обработки игровой графики, они, как правило, имеют более высокую тактовую частоту и большую пропускную способность памяти, чем центральные процессоры, для поддержки сложных графических операций.
Разница между CPU и GPU
Архитектура: Вычислительная архитектура центральных и графических процессоров отличается. Процессоры обычно имеют одно или несколько ядер, каждое из которых является процессором общего назначения, способным выполнять множество различных операций. Графические процессоры, с другой стороны, имеют большое количество потоковых процессоров и шейдеров, которые предназначены для выполнения операций, связанных с обработкой изображений.
Параллельные вычисления: графические процессоры обычно имеют более высокие возможности параллельных вычислений. Процессоры имеют ограниченное количество ядер и могут выполнять только одну инструкцию на ядро, но графические процессоры могут иметь тысячи потоковых процессоров, которые могут выполнять несколько инструкций и операций одновременно. В результате графические процессоры, как правило, лучше подходят для задач параллельных вычислений, таких как машинное обучение и глубокое обучение, которые требуют большого количества параллельных вычислений.
Программирование: графические процессоры более сложны в программировании, чем центральные процессоры, что требует использования специальных языков программирования, таких как CUDA или OpenCL, а также использования определенных методов программирования для использования преимуществ параллельных вычислений графических процессоров. В отличие от них, процессоры проще в программировании и могут использовать распространенные языки программирования и инструменты программирования.
Важность вычислительной мощности
В эпоху промышленной революции нефть была кровью всего мира, пронизывающей все отрасли промышленности. Вычислительная мощность находится в блокчейне, и в наступающую эру искусственного интеллекта вычислительные мощности станут «цифровой нефтью» мира. От сумасшедшей спешки крупных компаний за чипами искусственного интеллекта и триллионами акций Nvidia до недавней блокады высокопроизводительных чипов в Китае со стороны Соединенных Штатов, до размера вычислительной мощности, площади чипов и даже запланированного запрета на облако GPU — его важность очевидна, и вычислительная мощность станет товаром в следующую эпоху.
Искусственный интеллект (ИИ) — это новая техническая наука, которая изучает и разрабатывает теории, методы, технологии и прикладные системы для моделирования, расширения и расширения человеческого интеллекта. Она возникла в пятидесятых и шестидесятых годах 20-го века, и после более чем полувековой эволюции она пережила переплетение трех волн символизма, коннекционизма и акторов, и теперь, как новая общая технология, она приводит к большим изменениям в общественной жизни и во всех сферах жизни. Более конкретное определение генеративного ИИ — это общий искусственный интеллект (AGI), система ИИ с широким пониманием, которая может демонстрировать интеллект, аналогичный человеческому или превосходящий его, в различных задачах и областях. В основе AGI лежат три элемента: глубокое обучение (DL), большие данные и крупномасштабные вычислительные мощности.
Глубокое обучение
Глубокое обучение — это подобласть машинного обучения (ML), а алгоритмы глубокого обучения — это нейронные сети, смоделированные по образцу человеческого мозга. Например, человеческий мозг содержит миллионы взаимосвязанных нейронов, которые работают вместе, чтобы обучаться и обрабатывать информацию. Точно так же нейронные сети глубокого обучения (или искусственные нейронные сети) состоят из нескольких слоев искусственных нейронов, которые работают вместе внутри компьютера. Искусственные нейроны — это программные модули, называемые узлами, которые используют математические вычисления для обработки данных. Искусственные нейронные сети — это алгоритмы глубокого обучения, которые используют эти узлы для решения сложных задач.
Нейронные сети можно разделить на входные, скрытые и выходные слои, а параметры связаны между разными слоями.
Входной слой: Входной слой является первым слоем нейронной сети и отвечает за получение внешних входных данных. Каждому нейрону входного слоя соответствует признак входных данных. Например, при обработке данных изображения каждый нейрон может соответствовать одному пиксельному значению изображения;
Скрытые слои: входной слой обрабатывает данные и передает их более дальним слоям нейронной сети. Эти скрытые слои обрабатывают информацию на разных уровнях, корректируя свое поведение по мере получения новой информации. Сети глубокого обучения имеют сотни скрытых слоев, которые можно использовать для анализа проблем с разных точек зрения. Например, если вам дали изображение неизвестного животного, которое необходимо классифицировать, вы можете сравнить его с уже знакомым вам животным. Например, по форме ушей, количеству ног и размеру зрачков можно определить, что это за животное. Скрытые слои в глубоких нейронных сетях работают по тому же принципу. Если алгоритм глубокого обучения пытается классифицировать изображение животного, каждый из его скрытых слоев обрабатывает различные черты животного и пытается точно классифицировать его;
Выходной слой: Выходной слой является последним слоем нейронной сети и отвечает за генерацию выходных данных сети. Каждый нейрон в выходном слое представляет возможный выходной класс или значение. Например, в задаче классификации каждый нейрон выходного слоя может соответствовать категории, в то время как в задаче регрессии выходной слой может иметь только один нейрон, значение которого представляет прогнозируемый результат;
Параметры: В нейронной сети связи между различными слоями представлены параметрами Веса и Смещения, которые оптимизируются во время обучения, чтобы сеть могла точно выявлять закономерности и делать прогнозы в данных. Увеличение параметров может увеличить модельные возможности нейронной сети, т.е. способность модели обучаться и представлять сложные закономерности в данных. Однако увеличение параметров увеличит спрос на вычислительные мощности.
Большие данные
Для эффективного обучения нейронным сетям часто требуется большой объем данных, разнообразных и качественных, а также из нескольких источников. Это основа для обучения и валидации моделей машинного обучения. Анализируя большие данные, модели машинного обучения могут изучать закономерности и взаимосвязи в данных, чтобы делать прогнозы или классификации.
Крупномасштабные вычислительные мощности
Многослойная сложная структура нейронных сетей, большое количество параметров, необходимость обработки больших данных, итерационные методы обучения (на этапе обучения модель нуждается в многократной итерации, а прямое и обратное распространение каждого слоя необходимо вычислять в процессе обучения, включая вычисление функции активации, расчет функции потерь, расчет градиента и обновление веса), необходимость высокоточных вычислений, возможность параллельных вычислений, технология оптимизации и регуляризации, а также процесс оценки и верификации модели Спрос на крупномасштабные вычислительные мощности увеличивается примерно в 10 раз в год. На данный момент последняя модель GPT-4 содержит 1,8 триллиона параметров, стоит более 60 миллионов долларов за одно обучение и требует 2,15 и 25 операций с плавающей запятой (21 500 триллионов вычислений с плавающей запятой). Спрос на вычислительные мощности для обучения следующей модели продолжает расти, и новые модели также увеличиваются.
Экономика вычислений на основе искусственного интеллекта
Будущий объем рынка
Согласно наиболее авторитетным оценкам, «Отчет об оценке глобального индекса вычислительной мощности за 2022-2023 годы», составленный совместно IDC (International Data Corporation) и Inspur Information и Институтом глобальных отраслевых исследований Университета Цинхуа, показывает, что мировой рынок вычислений на основе искусственного интеллекта вырастет с $19,50 млрд в 2022 году до $34,66 млрд в 2026 году, из которых рынок вычислений генеративного ИИ увеличится с 8,2 млрд в 2022 году $100 млн вырастет до $10,99 млрд к 2026 году. Генеративные вычисления на основе искусственного интеллекта вырастут с 4,2% до 31,7% от общего рынка вычислений на основе искусственного интеллекта.
ГРАФИЧЕСКИЕ ПРОЦЕССОРЫ С ИСКУССТВЕННЫМ ИНТЕЛЛЕКТОМ МОНОПОЛИЗИРОВАНЫ NVIDA, ЧРЕЗВЫЧАЙНО ДОРОГИ (ПОСЛЕДНИЙ H-100 ПРОДАЕТСЯ ПО 40 000 ДОЛЛАРОВ ЗА ЧИП), И ГРАФИЧЕСКИЕ ПРОЦЕССОРЫ БЫЛИ РАСКУПЛЕНЫ ГИГАНТАМИ КРЕМНИЕВОЙ ДОЛИНЫ, КАК ТОЛЬКО ОНИ ПОСТУПИЛИ В ПРОДАЖУ, И НЕКОТОРЫЕ ИЗ ЭТИХ УСТРОЙСТВ ИСПОЛЬЗУЮТСЯ ДЛЯ ОБУЧЕНИЯ СВОИХ СОБСТВЕННЫХ НОВЫХ МОДЕЛЕЙ. Другая часть сдается в аренду разработчикам ИИ через облачные платформы, такие как Google, Amazon и платформы облачных вычислений Microsoft, которые имеют большое количество вычислительных ресурсов, таких как серверы, графические процессоры и TPU. Вычислительные мощности стали новым ресурсом, монополизированным гигантами, и большое количество разработчиков, связанных с искусственным интеллектом, не могут даже купить выделенный GPU без наценки, а для того, чтобы использовать новейшее оборудование, разработчикам приходится арендовать облачные серверы AWS или Microsoft. С финансовой точки зрения бизнес чрезвычайно прибыльный: валовая прибыль облачных сервисов AWS составляет 61 %, в то время как валовая прибыль Microsoft выше – 72 %.
Так должны ли мы смириться с этой централизованной властью и контролем и платить 72% от прибыли за вычислительные ресурсы? Будут ли гиганты, монополизировавшие Web2, иметь монополию на следующую эпоху?
Загадка децентрализованной вычислительной мощности AGI
Когда дело доходит до антимонопольного законодательства, децентрализация, как правило, является оптимальным решением, и из существующих проектов, можем ли мы использовать протокол для достижения крупномасштабной вычислительной мощности, необходимой для ИИ, с помощью проектов хранения в DePIN и простаивающих графических процессоров, таких как RDNR? Ответ — нет, путь к уничтожению драконов не так прост, ранние проекты не были специально разработаны для вычислительной мощности AGI, это неосуществимо, и вычислительные мощности должны столкнуться, по крайней мере, со следующими пятью проблемами в цепочке:
Проверка работы: Чтобы построить по-настоящему надежную вычислительную сеть и обеспечить финансовые стимулы для участников, сеть должна иметь способ проверки того, что вычислительная работа глубокого обучения действительно выполняется. В основе этой проблемы лежит зависимость от состояния моделей глубокого обучения; В модели глубокого обучения входные данные каждого слоя зависят от выходных данных предыдущего слоя. Это означает, что вы не можете просто проверить один слой в модели, не рассмотрев все слои до него. Вычисления для каждого слоя основаны на результатах всех слоев, которые ему предшествовали. Поэтому, чтобы проверить работу, выполненную в определенной точке (например, в определенном слое), вся работа должна быть выполнена от начала модели до этой конкретной точки;
Рынок: Рынок вычислительных мощностей ИИ, как развивающийся рынок, подвержен дилеммам спроса и предложения, таким как проблемы холодного запуска, и ликвидность спроса и предложения должна быть примерно согласована с самого начала, чтобы рынок мог успешно расти. Для того, чтобы захватить потенциальное предложение хэш-мощности, участникам должно быть предложено явное вознаграждение в обмен на их хэш-ресурсы. Маркетплейсу нужен механизм, позволяющий отслеживать проделанную вычислительную работу и своевременно выплачивать соответствующие комиссии провайдерам. На традиционных рынках посредники выполняют такие задачи, как управление и адаптация, при этом снижая операционные расходы за счет установления минимальных выплат. Однако такой подход более затратен при масштабировании рынка. Только небольшая часть предложения может быть эффективно захвачена экономически, что приводит к пороговому равновесному состоянию, когда рынок может захватывать и поддерживать только ограниченное предложение и не может расти дальше;
Проблема простоя: Проблема простоя является фундаментальной проблемой в теории вычислений, которая включает в себя суждение о том, будет ли данная вычислительная задача завершена за конечное время или никогда не остановится. Эта задача неразрешима, а это значит, что не существует универсального алгоритма, который мог бы предсказать, остановятся ли все вычислительные задачи за конечное время. Например, в Ethereum исполнение смарт-контрактов сталкивается с аналогичным временем простоя. т.е. невозможно заранее определить, сколько вычислительных ресурсов потребуется для исполнения смарт-контракта, или будет ли он выполнен в разумные сроки;
(В контексте глубокого обучения эта проблема будет более сложной, поскольку модели и фреймворки перейдут от статического построения графов к динамическому построению и выполнению.) )
Конфиденциальность: Проектирование и разработка осведомленности о конфиденциальности является обязательным для проектной команды. Несмотря на то, что большой объем исследований в области машинного обучения может быть выполнен на общедоступных наборах данных, для повышения производительности моделей и их адаптации к конкретным приложениям часто требуется тонкая настройка моделей на основе проприетарных пользовательских данных. Этот процесс тонкой настройки может включать в себя обработку персональных данных и, следовательно, должен учитывать требования Соглашения о правилах обмена конфиденциальной информацией;
Распараллеливание: Это ключевой фактор жизнеспособности текущих проектов, модели глубокого обучения часто обучаются параллельно на больших аппаратных кластерах с проприетарными архитектурами и очень низкой задержкой, в то время как графические процессоры в распределенных вычислительных сетях требуют частого обмена данными и ограничены самыми низкопроизводительными графическими процессорами. В случае ненадежных и ненадежных источников вычислительной мощности вопрос о том, как добиться гетерогенного распараллеливания, является проблемой, которую необходимо решить, и в настоящее время возможным методом является достижение распараллеливания с помощью моделей трансформаторов, таких как коммутационные трансформаторы, которые в настоящее время имеют характеристики высокой параллелизации.
Решение: Несмотря на то, что нынешняя попытка создания децентрализованного рынка вычислительных мощностей AGI все еще находится на ранних стадиях, существует два проекта, которые изначально решили проблему консенсусного дизайна децентрализованной сети и процесса реализации децентрализованной вычислительной сети в обучении модели и выводе. Ниже мы возьмем Gensyn и Together в качестве примера для анализа методов проектирования и проблем децентрализованного рынка вычислительных мощностей AGI.
Gensyn — это рынок вычислительных мощностей AGI, который все еще находится на стадии создания и предназначен для решения многочисленных проблем децентрализованных вычислений глубокого обучения, а также для снижения стоимости глубокого обучения сегодня. Gensyn — это, по сути, протокол Proof-of-Stake уровня 1, основанный на сети Polkadot, который напрямую вознаграждает решателей (Solvers) через смарт-контракты в обмен на их простаивающие устройства GPU для вычислений и выполняет задачи машинного обучения.
Итак, возвращаясь к предыдущему вопросу, суть создания по-настоящему надежной вычислительной сети заключается в проверке проделанной работы по машинному обучению. Это очень сложная задача, требующая нахождения баланса на стыке теории сложности, теории игр, криптографии и оптимизации.
Gensyn предлагает простое решение, в котором решатель отправляет результаты выполненной им задачи машинного обучения. Чтобы убедиться в точности этих результатов, другой независимый валидатор пытается повторить ту же работу. Этот метод можно назвать одиночной репликацией, так как повторно будет выполняться только один валидатор. Это означает, что существует только одно дополнительное усилие для проверки точности оригинальной работы. Однако, если лицо, проверяющее работу, не является заказчиком исходного задания, то проблема доверия остается. Потому что сами валидаторы могут быть нечестными, и их работу нужно проверять. Это приводит к потенциальной проблеме, заключающейся в том, что если человек, проверяющий работу, не является заказчиком оригинальной работы, то для проверки его работы необходим другой валидатор. Но этому новому валидатору также можно не доверять, поэтому для проверки их работы необходим другой валидатор, который может продолжаться вечно, образуя бесконечную цепочку репликации. Здесь нам нужно ввести три ключевых понятия и переплести их для построения четырехролевой системы участников для решения задачи бесконечной цепи.
Доказательство вероятностного обучения: используйте метаданные процесса оптимизации на основе градиента для создания сертификата о проделанной работе. Реплицируя определенные этапы, можно быстро проверить эти сертификаты, чтобы убедиться, что работа выполнена в соответствии с графиком.
Протокол точечных вычислений на основе графов: использует протокол Pinnacle на основе графов с множественной степенью детализации, а также согласованное выполнение перекрестных оценок. Это позволяет повторно запускать и сравнивать усилия по верификации для обеспечения согласованности и, в конечном итоге, подтверждать самим блокчейном.
Поощрительные игры в стиле Truebit: используйте стейкинг и слэшинг для создания поощрительных игр, которые гарантируют, что каждый финансово состоятельный участник будет действовать честно и выполнять поставленные перед ним задачи.
Система контрибьюторов состоит из коммиттеров, решателей, валидаторов и информаторов.
Отправители:
Отправитель является конечным пользователем системы, предоставляет задачи, которые будут рассчитаны, и оплачивает единицы выполненных работ;
Солверы (Solvers) :
Решатель является основным рабочим процессом системы, выполняющим обучение модели и генерирующим доказательства, которые проверяются валидаторами;
Показатели:
Верификатор является ключом к связыванию недетерминированного процесса обучения с детерминированными линейными вычислениями, воспроизведением части доказательства решателя и сравнением расстояния с ожидаемым порогом;
Осведомители:
Разоблачители — это последняя линия обороны, проверяющая работу валидаторов и делающая челленджи в надежде на выгодные бонусные выплаты.
Система работает
Протокол предназначен для работы в игровой системе, которая будет состоять из восьми фаз, охватывающих четыре основные роли участников, и будет использоваться для завершения полного процесса от отправки задачи до окончательной проверки.
Отправка задачи: Задача состоит из трех конкретных фрагментов информации:
Для того, чтобы отправить задачу, отправитель указывает детали задачи в машиночитаемом формате и отправляет ее в цепочку вместе с двоичным файлом модели (или машиночитаемой схемой) и общедоступным местоположением предварительно обработанных обучающих данных. Открытые данные можно хранить в простом объектном хранилище, таком как AWS S3, или в децентрализованном хранилище, таком как IPFS, Arweave или Subspace.
Профилирование: В процессе анализа устанавливается пороговое значение базового расстояния для обучения проверке доказательства. Валидатор будет периодически очищать задачу анализа и генерировать порог вариации для сравнения с доказательством обучения. Чтобы сгенерировать пороговые значения, валидаторы будут детерминированно запускать и повторно запускать часть обучения, используя различные случайные начальные значения, генерируя и проверяя свои собственные доказательства. Во время этого процесса валидатор устанавливает общий порог ожидаемого расстояния, который можно использовать в качестве недетерминированной попытки проверки решения.
Обучение: После анализа задача отправляется в публичный пул задач (аналогично Mempool Ethereum). Выберите решатель для выполнения задачи и удалите задачу из пула задач. Механизм расчета выполняет задачу на основе метаданных, предоставленных отправителем, а также предоставленных данных модели и обучения. При выполнении задачи обучения решатель также генерирует доказательство обучения, периодически проверяя и сохраняя метаданные (включая параметры) из процесса обучения, чтобы верификатор мог как можно точнее воспроизвести следующие шаги оптимизации.
Создание доказательства: механизм расчета периодически сохраняет весовые коэффициенты или обновления модели и соответствующий индекс с обучающим набором данных для идентификации выборок, используемых для создания обновлений весов. Частоту контрольных точек можно регулировать для обеспечения большей надежности или экономии места для хранения. Доказательство может быть "сложено", что означает, что доказательство может начинаться со случайного распределения весов, используемых для инициализации весов, или начинаться с предварительно обученных весов, сгенерированных с использованием собственных доказательств. Это позволяет протоколу создавать набор проверенных, предварительно обученных базовых моделей (т. е. базовых моделей), которые могут быть точно настроены для более конкретных задач.
Проверка доказательства: После того, как задача выполнена, решатель регистрирует задачу в цепочке и отображает свое доказательство обучения в общедоступном месте для доступа валидатора. Валидатор извлекает задачу проверки из общего пула задач и выполняет вычислительную работу для повторного запуска части доказательства и вычисления расстояния. Затем цепочка (вместе с пороговыми значениями, вычисленными на этапе анализа) использует полученное расстояние, чтобы определить, соответствует ли проверка доказательству.
Задача на основе графов: После проверки доказательства обучения осведомитель может скопировать работу верификатора, чтобы убедиться, что сама проверка выполнена правильно. Если осведомитель считает, что проверка была выполнена по ошибке (злонамеренной или незлонамеренной), он может оспорить кворум контракта, чтобы получить вознаграждение. Это вознаграждение может поступать от депозитов солверов и валидаторов (в случае истинно положительного) или из призового фонда лотерейного хранилища (в случае ложного срабатывания), а арбитраж осуществляется с использованием самой цепочки. Осведомители (в их случае валидаторы) будут проверять и впоследствии оспаривать работу только в том случае, если они ожидают получить соответствующую компенсацию. На практике это означает, что ожидается, что осведомители присоединятся к сети и покинут ее в зависимости от количества осведомителей, занимающихся другой деятельностью (т.е. с живыми депозитами и проблемами). Таким образом, ожидаемая стратегия по умолчанию для любого осведомителя заключается в том, чтобы присоединиться к сети, когда других осведомителей меньше, внести депозит, случайным образом выбрать активную задачу и начать процесс проверки. После того, как первое задание будет выполнено, они возьмут еще одно случайное активное задание и будут повторять до тех пор, пока количество разоблачителей не превысит установленный ими порог выплаты, а затем они покинут сеть (или, что более вероятно, перейдут к другой роли в сети — валидатору или решателю — в зависимости от их аппаратных возможностей) до тех пор, пока ситуация снова не изменится.
Арбитраж контракта: Когда валидатору бросают вызов осведомитель, он вступает в процесс с цепочкой, чтобы выяснить, где находится спорная операция или вход, и, наконец, цепочка выполняет последнюю базовую операцию и определяет, оправдан ли вызов. Для того, чтобы осведомитель оставался честным и заслуживающим доверия, а также преодолел дилемму валидаторов, здесь введены регулярные вынужденные ошибки и выплаты джекпотов.
Расчет: В процессе расчета участники получают оплату на основе завершения проверок вероятности и определенности. В зависимости от результатов предыдущих проверок и челленджей будут разные выплаты по разным сценариям. Если работа считается выполненной правильно и все проверки пройдены, поставщик решения и валидатор получают вознаграждение в зависимости от предпринятого действия.
Краткий обзор проекта
Gensyn разработал замечательную игровую систему на уровнях верификации и поощрения, позволяющую быстро выявлять ошибки, находя расхождения в сети, но в текущей системе все еще отсутствует много деталей. Например, как установить параметры, чтобы гарантировать, что поощрения и наказания разумны, но порог не слишком высок? Учитывалась ли в игре разница между экстремальным случаем и вычислительной мощностью решателя? В текущей версии white paper нет подробного описания гетерогенной параллельной работы, и кажется, что до реализации Gensyn еще далеко.
Together.ai
Together — это компания, которая фокусируется на открытом исходном коде больших моделей и стремится к децентрализованным вычислительным решениям на основе искусственного интеллекта, надеясь, что каждый может получить доступ к ИИ и использовать его в любом месте. Строго говоря, Together не является блокчейн-проектом, но проект изначально решил проблему задержки в децентрализованной вычислительной сети AGI. Поэтому в следующей статье анализируется только решение Together, но не оценивается проект.
Как обучать и выводить большие модели, если децентрализованная сеть в 100 раз медленнее, чем центр обработки данных? **
Давайте представим, как выглядело бы распределение GPU-устройств, участвующих в сети, если бы убрали децентрализацию. Эти устройства будут распределены по разным континентам, в разных городах, и их нужно будет подключать друг к другу, а задержка и пропускная способность соединения будут различаться. Как показано на рисунке ниже, распределенный сценарий моделируется с устройствами, распределенными по Северной Америке, Европе и Азии, с разной пропускной способностью и задержкой между устройствами. Так что же нужно сделать, чтобы соединить его последовательно?
Вычислительное моделирование с распределенным обучением: На следующем рисунке показано базовое обучение модели на нескольких устройствах, и существует три типа связи с точки зрения типов связи: прямая активация, обратный градиент и боковая связь.
В сочетании с пропускной способностью и задержкой связи необходимо рассмотреть две формы параллелизма: параллелизм конвейера и параллелизм данных, соответствующие трем типам связи в случае нескольких устройств:
При конвейерном параллелизме все слои модели разбиваются на этапы, где каждое устройство обрабатывает фазу, представляющую собой непрерывную последовательность слоев, например, несколько трансформаторных блоков; При прямом прохождении активация передается на следующий этап, тогда как при обратном прохождении градиент активации передается на предыдущий этап.
При параллелизме данных устройство независимо вычисляет градиенты разных микропакетов, но обменивается данными для синхронизации этих градиентов.
Оптимизация планирования:
В децентрализованной среде процесс обучения часто ограничивается общением. Алгоритмы планирования обычно назначают задачи, требующие большого объема связи, устройствам с более высокой скоростью соединения, и, учитывая зависимости между задачами и неоднородность сети, сначала необходимо смоделировать стоимость конкретной стратегии планирования. Для того, чтобы учесть сложные коммуникационные затраты на обучение базовой модели, Together предлагает новую формулу и декомпозирует модель затрат на два уровня с помощью теории графов:
Теория графов — раздел математики, изучающий природу и структуру графов (сетей). Граф состоит из вершин (узлов) и ребер (линий, соединяющих узлы). Основной целью теории графов является изучение различных свойств графов, таких как связность графов, цвета графов, природа путей и циклов в графах.
Первый уровень — сбалансированное разбиение графа (разбиение множества вершин графа на несколько подмножеств равных или примерно равных размеров, при этом минимизирующее количество рёбер между подмножествами. В этой сегментации каждое подмножество представляет секцию, и затраты на связь уменьшаются за счет минимизации границ между секциями, что соответствует затратам на передачу данных при параллелизме данных.
Второй уровень — совместная задача сопоставления графов и задача коммивояжера (совместная задача сопоставления графов и задача коммивояжера — комбинаторная оптимизационная задача, объединяющая элементы задач сопоставления графов и коммивояжера. Задача сопоставления графов заключается в том, чтобы найти совпадение в графе таким образом, чтобы минимизировать или максимизировать какие-либо затраты. Задача коммивояжера состоит в том, чтобы найти кратчайший путь ко всем узлам графа), соответствующий затратам на связь параллелизма конвейера.
! [YBB Capital: Предварительный обзор потенциального трека - Рынок децентрализованных вычислительных мощностей (Часть I)] (https://img-cdn.gateio.im/webp-social/moments-7f230462a9-51146865fc-dd1a6f-cd5cc0.webp) Приведенный выше рисунок представляет собой схематическую схему процесса, поскольку фактический процесс реализации включает в себя несколько сложных расчетных формул. Для простоты понимания, ниже будет объяснен процесс на схеме простыми словами, а с подробным процессом реализации можно ознакомиться самостоятельно в документации на официальном сайте Together.
Предположим, что имеется набор устройств D с N устройствами, и связь между ними имеет неопределенную задержку (A-матрица) и полосу пропускания (B-матрица). На основе набора устройств D сначала мы генерируем сбалансированную сегментацию графика. Количество устройств в каждом разделении или группе устройств примерно одинаково, и все они обрабатывают одни и те же этапы конвейера. Это гарантирует, что при параллельном подключении данных группы устройств выполняют одинаковый объем работы. (Параллелизм данных — это когда несколько устройств выполняют одну и ту же задачу, в то время как этапы конвейерной обработки — это когда устройства выполняют разные шаги задачи в определенном порядке). Исходя из задержки и пропускной способности связи, «стоимость» передачи данных между группами устройств можно рассчитать с помощью формул. Каждая сбалансированная группа устройств объединяется для создания полносвязного грубого графа, где каждый узел представляет собой этап конвейера, а ребра представляют стоимость связи между двумя этапами. Чтобы минимизировать затраты на связь, используется алгоритм сопоставления, чтобы определить, какие группы устройств должны работать вместе.
Для дальнейшей оптимизации задачу также можно смоделировать как задачу коммивояжера с разомкнутым контуром (разомкнутый контур означает, что нет необходимости возвращаться к началу пути) для поиска оптимального пути передачи данных между всеми устройствами. Наконец, Together использует свой инновационный алгоритм планирования для поиска оптимальной стратегии распределения для заданной модели затрат, тем самым минимизируя затраты на связь и максимизируя пропускную способность обучения. Согласно фактическим измерениям, даже если сеть работает в 100 раз медленнее при такой оптимизации планирования, сквозная пропускная способность обучения будет всего в 1,7–2,3 раза медленнее.
Для оптимизации сжатия коммуникаций Together представляет алгоритм AQ-SGD (для подробного процесса расчета см. статью Тонкая настройка языковых моделей в медленных сетях с использованием сжатия активации с гарантиями), AQ-SGD Алгоритм представляет собой новую технологию активного сжатия, предназначенную для решения проблемы эффективности связи при параллельном обучении трубопроводов на низкоскоростных сетях. В отличие от предыдущих методов прямого сжатия значения активности, AQ-SGD фокусируется на сжатии вариации значения активности одной и той же обучающей выборки за разные периоды, и этот уникальный метод вводит интересную «самоисполняющуюся» динамику, и ожидается, что производительность алгоритма будет постепенно улучшаться по мере стабилизации обучения. После тщательного теоретического анализа алгоритм AQ-SGD доказывает, что он имеет хорошую скорость сходимости при определенных технических условиях и функцию квантования ограниченной ошибки. Алгоритм может быть реализован эффективно без добавления дополнительных сквозных накладных расходов во время выполнения, хотя он требует использования большего объема памяти и твердотельных накопителей для хранения значения активности. Благодаря обширной экспериментальной проверке наборов данных классификации последовательностей и языкового моделирования, AQ-SGD может сжимать значения активности до 2-4 бит без ущерба для производительности сходимости. Кроме того, AQ-SGD может быть интегрирован с современными алгоритмами градиентного сжатия для достижения «сквозного сжатия связи», то есть обмен данными между всеми машинами, включая модельные градиенты, прямые значения активности и обратные градиенты, сжимается с низкой точностью, тем самым значительно повышая эффективность связи при распределенном обучении. По сравнению со сквозной производительностью обучения централизованной вычислительной сети (например, 10 Гбит/с) без сжатия, в настоящее время она всего на 31% ниже. В сочетании с данными оптимизации планирования, несмотря на то, что все еще существует определенное отставание от централизованной вычислительной сети, есть относительно большая надежда наверстать упущенное в будущем.
Заключение
В условиях дивидендного периода, вызванного волной искусственного интеллекта, рынок вычислительных мощностей AGI, несомненно, является рынком с наибольшим потенциалом и наибольшим спросом среди многих рынков вычислительных мощностей. Тем не менее, сложность разработки, требования к аппаратному обеспечению и капиталу также являются самыми высокими. В сочетании с двумя вышеуказанными проектами еще предстоит пройти определенную дистанцию в реализации рынка вычислительных мощностей AGI, а реальная децентрализованная сеть намного сложнее идеальной ситуации, которой явно недостаточно, чтобы конкурировать с облачными гигантами. На момент написания этой статьи также было замечено, что некоторые проекты, которые не находятся в зачаточном состоянии (стадия PPT), начали исследовать некоторые новые точки входа, такие как сосредоточение внимания на менее сложном этапе вывода или обучении небольших моделей, которые являются более практическими попытками.
До сих пор неясно, как в конечном итоге будет выглядеть рынок вычислительных мощностей AGI, и, хотя существует множество проблем, важно децентрализовать и не требующие разрешений вычислительные мощности AGI в долгосрочной перспективе, и права на вывод и обучение не должны быть сосредоточены в руках нескольких централизованных гигантов. Потому что человечеству не нужна ни новая «религия», ни новый «папа», не говоря уже о том, чтобы платить дорогостоящие «членские взносы».
Список литературы
1.Генсин Лайтпейпер:
2.NeurIPS 2022: Преодоление узких мест в коммуникации для децентрализованного обучения:
3.Тонкая настройка языковых моделей в медленных сетях с использованием сжатия активации с гарантиями:
Вычислительный протокол машинного обучения и наше будущее:
5.Microsoft:Отчет о прибылях и убытках за 23 финансовый год за 2 квартал:
Соревнуйтесь за билеты ИИ: BAT и Byte Meituan соревнуются за графические процессоры:
IDC: Отчет об оценке глобального индекса вычислительной мощности за 2022-2023 гг.:
Оценка обучения большой модели Guosheng Securities:
Infowings: Какова связь между вычислительными мощностями и искусственным интеллектом? :
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
YBB Capital: Потенциальная перспектива развития рынка децентрализованных вычислительных мощностей (Часть I)
Автор оригинала: Zeke, YBB Capital
! [YBB Capital: Предварительный обзор потенциального трека - Рынок децентрализованных вычислительных мощностей (Часть I)] (https://img-cdn.gateio.im/webp-social/moments-7f230462a9-9162b2dfc1-dd1a6f-cd5cc0.webp)
Введение
С момента рождения GPT-3 генеративный ИИ открыл взрывной переломный момент в области искусственного интеллекта с его удивительной производительностью и широкими сценариями применения, и технологические гиганты начали вступать в колею ИИ группами. Однако для обучения и вывода больших языковых моделей (LLM) требуется большая вычислительная мощность, а при итеративном обновлении модели потребность в вычислительной мощности и стоимость растут экспоненциально. Если взять в качестве примера GPT-2 и GPT-3, то разница в количестве параметров между GPT-2 и GPT-3 составляет 1166 раз (150 миллионов параметров для GPT-2 и 175 миллиардов параметров для GPT-3), а стоимость одного обучения GPT-3 может достигать 12 миллионов долларов, что в 200 раз больше, чем у GPT-2, исходя из ценовой модели общедоступного облака GPU на тот момент. В процессе фактического использования каждый вопрос пользователя должен быть выведен и просчитан, и, согласно ситуации с 13 миллионами уникальных пользователей на начало этого года, соответствующий спрос на чипы составляет более 30 000 графических процессоров A 100. Это ошеломляющие 800 миллионов долларов первоначальных затрат на входные данные и примерно 700 000 долларов в день на вывод модели.
Недостаточная вычислительная мощность и высокие затраты стали проблемой для всей индустрии искусственного интеллекта, но те же проблемы, похоже, преследуют и блокчейн-индустрию. С одной стороны, приближается четвертый халвинг биткоина и проход ETF, и по мере роста цен в будущем спрос майнеров на вычислительное оборудование неизбежно значительно возрастет. С другой стороны, технология «доказательства с нулевым разглашением» (ZKP) переживает бум, и Виталик неоднократно подчеркивал, что влияние ZK на пространство блокчейна в следующем десятилетии будет столь же важным, как и сам блокчейн. Несмотря на то, что блокчейн-индустрия с нетерпением ожидает будущего этой технологии, ZK потребляет много вычислительной мощности и времени в процессе генерации доказательств, как и ИИ, из-за сложного вычислительного процесса.
В обозримом будущем дефицит вычислительных мощностей станет неизбежным, так будет ли рынок децентрализованных вычислительных мощностей хорошим бизнесом?
Определение рынка децентрализованных вычислений
Рынок децентрализованных вычислительных мощностей на самом деле в основном эквивалентен треку децентрализованных облачных вычислений, но по сравнению с децентрализованными облачными вычислениями, лично я думаю, что этот термин будет более подходящим для описания новых проектов, упомянутых ниже. Рынок децентрализованных вычислений должен принадлежать к подмножеству DePIN (децентрализованная сеть физической инфраструктуры), и его целью является создание открытого вычислительного рынка, где любой, у кого есть свободные вычислительные ресурсы, может предоставлять свои ресурсы с помощью стимулов в виде токенов, в основном обслуживая сообщество конечных пользователей и разработчиков. Если говорить об известных проектах, то к этому треку относятся такие известные проекты, как Render Network — сеть рендер-решений на базе децентрализованных графических процессоров и Akash Network — распределенный одноранговый маркетплейс для облачных вычислений.
Далее мы начнем с основных концепций, а затем обсудим три развивающихся рынка в рамках этого направления: рынок вычислительных мощностей AGI, рынок вычислительных мощностей Bitcoin и рынок вычислительных мощностей AGI на рынке аппаратного ускорения ZK, причем последние два будут обсуждаться в "Potential Track Preview: Decentralized Computing Power Market (Part II)".
Обзор хешрейта
Происхождение понятия вычислительной мощности можно проследить до изобретения компьютеров, первоначальный компьютер был механическим устройством для выполнения вычислительных задач, а вычислительная мощность относится к вычислительной мощности механического устройства. С развитием компьютерных технологий понятие вычислительной мощности также эволюционировало, и теперь под вычислительной мощностью обычно понимается способность компьютерного оборудования (CPU, GPU, FPGA и т. д.) и программного обеспечения (операционной системы, компилятора, приложения и т. д.) работать вместе.
Определения
Под вычислительной мощностью понимается объем данных, который может обработать компьютер или другое вычислительное устройство, или количество вычислительных задач, которые могут быть выполнены за определенный период времени. Хешрейт часто используется для описания производительности компьютера или другого вычислительного устройства, и он является важным показателем вычислительной мощности вычислительного устройства.
Метрики
Вычислительную мощность можно измерять различными способами, такими как скорость вычислений, потребление вычислительной энергии, точность вычислений и параллелизм. В компьютерной сфере обычно используются метрики вычислительной мощности, такие как FLOPS (операции с плавающей запятой в секунду), IPS (количество инструкций в секунду), TPS (транзакции в секунду) и т. д.
FLOPS (Floating-Point Operations Per Second) относится к способности компьютера обрабатывать операции с плавающей запятой (математические операции над числами с десятичными запятыми, принимая во внимание такие проблемы, как точность и ошибки округления), и он измеряет, сколько операций с плавающей запятой компьютер может выполнить в секунду. FLOPS — это мера высокопроизводительной вычислительной мощности компьютера, которая обычно используется для измерения вычислительной мощности суперкомпьютеров, высокопроизводительных вычислительных серверов и графических процессоров (GPU). Например, компьютерная система имеет FLOPS 1 TFLOPS (1 триллион операций с плавающей запятой в секунду), что означает, что она может выполнять 1 триллион операций с плавающей запятой в секунду.
IPS (количество инструкций в секунду) относится к скорости, с которой компьютер обрабатывает инструкции, и измеряет, сколько инструкций компьютер способен выполнить в секунду. IPS является мерой производительности компьютера с одной командой и часто используется для измерения производительности центрального процессора (ЦП) и т. д. Например, процессор с IPS 3 ГГц (который может выполнять 300 миллионов инструкций в секунду) означает, что он может выполнять 300 миллионов инструкций в секунду.
TPS (количество транзакций в секунду) относится к способности компьютера обрабатывать транзакции и измеряет, сколько транзакций компьютер может выполнить в секунду. Он часто используется для измерения производительности сервера базы данных. Например, сервер базы данных с TPS 1000 означает, что он может обрабатывать 1000 транзакций базы данных в секунду.
Кроме того, существуют некоторые индикаторы вычислительной мощности для конкретных сценариев приложений, такие как скорость вывода, скорость обработки изображений и точность распознавания речи.
Типы хеш-мощности
Вычислительная мощность графического процессора относится к вычислительной мощности графического процессора. В отличие от центрального процессора, графический процессор — это аппаратное обеспечение, специально разработанное для обработки графических данных, таких как изображения и видео, и имеет большое количество процессоров и эффективную параллельную вычислительную мощность для одновременного выполнения большого количества операций с плавающей запятой. Поскольку графические процессоры изначально использовались для обработки игровой графики, они, как правило, имеют более высокую тактовую частоту и большую пропускную способность памяти, чем центральные процессоры, для поддержки сложных графических операций.
Разница между CPU и GPU
Архитектура: Вычислительная архитектура центральных и графических процессоров отличается. Процессоры обычно имеют одно или несколько ядер, каждое из которых является процессором общего назначения, способным выполнять множество различных операций. Графические процессоры, с другой стороны, имеют большое количество потоковых процессоров и шейдеров, которые предназначены для выполнения операций, связанных с обработкой изображений.
Параллельные вычисления: графические процессоры обычно имеют более высокие возможности параллельных вычислений. Процессоры имеют ограниченное количество ядер и могут выполнять только одну инструкцию на ядро, но графические процессоры могут иметь тысячи потоковых процессоров, которые могут выполнять несколько инструкций и операций одновременно. В результате графические процессоры, как правило, лучше подходят для задач параллельных вычислений, таких как машинное обучение и глубокое обучение, которые требуют большого количества параллельных вычислений.
Программирование: графические процессоры более сложны в программировании, чем центральные процессоры, что требует использования специальных языков программирования, таких как CUDA или OpenCL, а также использования определенных методов программирования для использования преимуществ параллельных вычислений графических процессоров. В отличие от них, процессоры проще в программировании и могут использовать распространенные языки программирования и инструменты программирования.
Важность вычислительной мощности
В эпоху промышленной революции нефть была кровью всего мира, пронизывающей все отрасли промышленности. Вычислительная мощность находится в блокчейне, и в наступающую эру искусственного интеллекта вычислительные мощности станут «цифровой нефтью» мира. От сумасшедшей спешки крупных компаний за чипами искусственного интеллекта и триллионами акций Nvidia до недавней блокады высокопроизводительных чипов в Китае со стороны Соединенных Штатов, до размера вычислительной мощности, площади чипов и даже запланированного запрета на облако GPU — его важность очевидна, и вычислительная мощность станет товаром в следующую эпоху.
! [YBB Capital: Предварительный обзор потенциального трека - Рынок децентрализованных вычислительных мощностей (Часть I)] (https://img-cdn.gateio.im/webp-social/moments-7f230462a9-32b6a74c8b-dd1a6f-cd5cc0.webp)
Общие сведения об искусственном интеллекте
Искусственный интеллект (ИИ) — это новая техническая наука, которая изучает и разрабатывает теории, методы, технологии и прикладные системы для моделирования, расширения и расширения человеческого интеллекта. Она возникла в пятидесятых и шестидесятых годах 20-го века, и после более чем полувековой эволюции она пережила переплетение трех волн символизма, коннекционизма и акторов, и теперь, как новая общая технология, она приводит к большим изменениям в общественной жизни и во всех сферах жизни. Более конкретное определение генеративного ИИ — это общий искусственный интеллект (AGI), система ИИ с широким пониманием, которая может демонстрировать интеллект, аналогичный человеческому или превосходящий его, в различных задачах и областях. В основе AGI лежат три элемента: глубокое обучение (DL), большие данные и крупномасштабные вычислительные мощности.
Глубокое обучение
Глубокое обучение — это подобласть машинного обучения (ML), а алгоритмы глубокого обучения — это нейронные сети, смоделированные по образцу человеческого мозга. Например, человеческий мозг содержит миллионы взаимосвязанных нейронов, которые работают вместе, чтобы обучаться и обрабатывать информацию. Точно так же нейронные сети глубокого обучения (или искусственные нейронные сети) состоят из нескольких слоев искусственных нейронов, которые работают вместе внутри компьютера. Искусственные нейроны — это программные модули, называемые узлами, которые используют математические вычисления для обработки данных. Искусственные нейронные сети — это алгоритмы глубокого обучения, которые используют эти узлы для решения сложных задач.
! [YBB Capital: Предварительный обзор потенциального трека - Рынок децентрализованных вычислительных мощностей (Часть I)] (https://img-cdn.gateio.im/webp-social/moments-7f230462a9-975a5053f4-dd1a6f-cd5cc0.webp)
Нейронные сети можно разделить на входные, скрытые и выходные слои, а параметры связаны между разными слоями.
Входной слой: Входной слой является первым слоем нейронной сети и отвечает за получение внешних входных данных. Каждому нейрону входного слоя соответствует признак входных данных. Например, при обработке данных изображения каждый нейрон может соответствовать одному пиксельному значению изображения;
Скрытые слои: входной слой обрабатывает данные и передает их более дальним слоям нейронной сети. Эти скрытые слои обрабатывают информацию на разных уровнях, корректируя свое поведение по мере получения новой информации. Сети глубокого обучения имеют сотни скрытых слоев, которые можно использовать для анализа проблем с разных точек зрения. Например, если вам дали изображение неизвестного животного, которое необходимо классифицировать, вы можете сравнить его с уже знакомым вам животным. Например, по форме ушей, количеству ног и размеру зрачков можно определить, что это за животное. Скрытые слои в глубоких нейронных сетях работают по тому же принципу. Если алгоритм глубокого обучения пытается классифицировать изображение животного, каждый из его скрытых слоев обрабатывает различные черты животного и пытается точно классифицировать его;
Выходной слой: Выходной слой является последним слоем нейронной сети и отвечает за генерацию выходных данных сети. Каждый нейрон в выходном слое представляет возможный выходной класс или значение. Например, в задаче классификации каждый нейрон выходного слоя может соответствовать категории, в то время как в задаче регрессии выходной слой может иметь только один нейрон, значение которого представляет прогнозируемый результат;
Параметры: В нейронной сети связи между различными слоями представлены параметрами Веса и Смещения, которые оптимизируются во время обучения, чтобы сеть могла точно выявлять закономерности и делать прогнозы в данных. Увеличение параметров может увеличить модельные возможности нейронной сети, т.е. способность модели обучаться и представлять сложные закономерности в данных. Однако увеличение параметров увеличит спрос на вычислительные мощности.
Большие данные
Для эффективного обучения нейронным сетям часто требуется большой объем данных, разнообразных и качественных, а также из нескольких источников. Это основа для обучения и валидации моделей машинного обучения. Анализируя большие данные, модели машинного обучения могут изучать закономерности и взаимосвязи в данных, чтобы делать прогнозы или классификации.
Крупномасштабные вычислительные мощности
Многослойная сложная структура нейронных сетей, большое количество параметров, необходимость обработки больших данных, итерационные методы обучения (на этапе обучения модель нуждается в многократной итерации, а прямое и обратное распространение каждого слоя необходимо вычислять в процессе обучения, включая вычисление функции активации, расчет функции потерь, расчет градиента и обновление веса), необходимость высокоточных вычислений, возможность параллельных вычислений, технология оптимизации и регуляризации, а также процесс оценки и верификации модели Спрос на крупномасштабные вычислительные мощности увеличивается примерно в 10 раз в год. На данный момент последняя модель GPT-4 содержит 1,8 триллиона параметров, стоит более 60 миллионов долларов за одно обучение и требует 2,15 и 25 операций с плавающей запятой (21 500 триллионов вычислений с плавающей запятой). Спрос на вычислительные мощности для обучения следующей модели продолжает расти, и новые модели также увеличиваются.
Экономика вычислений на основе искусственного интеллекта
Будущий объем рынка
Согласно наиболее авторитетным оценкам, «Отчет об оценке глобального индекса вычислительной мощности за 2022-2023 годы», составленный совместно IDC (International Data Corporation) и Inspur Information и Институтом глобальных отраслевых исследований Университета Цинхуа, показывает, что мировой рынок вычислений на основе искусственного интеллекта вырастет с $19,50 млрд в 2022 году до $34,66 млрд в 2026 году, из которых рынок вычислений генеративного ИИ увеличится с 8,2 млрд в 2022 году $100 млн вырастет до $10,99 млрд к 2026 году. Генеративные вычисления на основе искусственного интеллекта вырастут с 4,2% до 31,7% от общего рынка вычислений на основе искусственного интеллекта.
! [YBB Capital: Предварительный обзор потенциального трека - Рынок децентрализованных вычислительных мощностей (Часть I)] (https://img-cdn.gateio.im/webp-social/moments-7f230462a9-28d31faae8-dd1a6f-cd5cc0.webp)
Вычислительная мощность, экономическая монополия
ГРАФИЧЕСКИЕ ПРОЦЕССОРЫ С ИСКУССТВЕННЫМ ИНТЕЛЛЕКТОМ МОНОПОЛИЗИРОВАНЫ NVIDA, ЧРЕЗВЫЧАЙНО ДОРОГИ (ПОСЛЕДНИЙ H-100 ПРОДАЕТСЯ ПО 40 000 ДОЛЛАРОВ ЗА ЧИП), И ГРАФИЧЕСКИЕ ПРОЦЕССОРЫ БЫЛИ РАСКУПЛЕНЫ ГИГАНТАМИ КРЕМНИЕВОЙ ДОЛИНЫ, КАК ТОЛЬКО ОНИ ПОСТУПИЛИ В ПРОДАЖУ, И НЕКОТОРЫЕ ИЗ ЭТИХ УСТРОЙСТВ ИСПОЛЬЗУЮТСЯ ДЛЯ ОБУЧЕНИЯ СВОИХ СОБСТВЕННЫХ НОВЫХ МОДЕЛЕЙ. Другая часть сдается в аренду разработчикам ИИ через облачные платформы, такие как Google, Amazon и платформы облачных вычислений Microsoft, которые имеют большое количество вычислительных ресурсов, таких как серверы, графические процессоры и TPU. Вычислительные мощности стали новым ресурсом, монополизированным гигантами, и большое количество разработчиков, связанных с искусственным интеллектом, не могут даже купить выделенный GPU без наценки, а для того, чтобы использовать новейшее оборудование, разработчикам приходится арендовать облачные серверы AWS или Microsoft. С финансовой точки зрения бизнес чрезвычайно прибыльный: валовая прибыль облачных сервисов AWS составляет 61 %, в то время как валовая прибыль Microsoft выше – 72 %.
! [YBB Capital: Предварительный обзор потенциального трека - Рынок децентрализованных вычислительных мощностей (Часть I)] (https://img-cdn.gateio.im/webp-social/moments-7f230462a9-d47cc2b1ec-dd1a6f-cd5cc0.webp)
Так должны ли мы смириться с этой централизованной властью и контролем и платить 72% от прибыли за вычислительные ресурсы? Будут ли гиганты, монополизировавшие Web2, иметь монополию на следующую эпоху?
Загадка децентрализованной вычислительной мощности AGI
Когда дело доходит до антимонопольного законодательства, децентрализация, как правило, является оптимальным решением, и из существующих проектов, можем ли мы использовать протокол для достижения крупномасштабной вычислительной мощности, необходимой для ИИ, с помощью проектов хранения в DePIN и простаивающих графических процессоров, таких как RDNR? Ответ — нет, путь к уничтожению драконов не так прост, ранние проекты не были специально разработаны для вычислительной мощности AGI, это неосуществимо, и вычислительные мощности должны столкнуться, по крайней мере, со следующими пятью проблемами в цепочке:
Проверка работы: Чтобы построить по-настоящему надежную вычислительную сеть и обеспечить финансовые стимулы для участников, сеть должна иметь способ проверки того, что вычислительная работа глубокого обучения действительно выполняется. В основе этой проблемы лежит зависимость от состояния моделей глубокого обучения; В модели глубокого обучения входные данные каждого слоя зависят от выходных данных предыдущего слоя. Это означает, что вы не можете просто проверить один слой в модели, не рассмотрев все слои до него. Вычисления для каждого слоя основаны на результатах всех слоев, которые ему предшествовали. Поэтому, чтобы проверить работу, выполненную в определенной точке (например, в определенном слое), вся работа должна быть выполнена от начала модели до этой конкретной точки;
Рынок: Рынок вычислительных мощностей ИИ, как развивающийся рынок, подвержен дилеммам спроса и предложения, таким как проблемы холодного запуска, и ликвидность спроса и предложения должна быть примерно согласована с самого начала, чтобы рынок мог успешно расти. Для того, чтобы захватить потенциальное предложение хэш-мощности, участникам должно быть предложено явное вознаграждение в обмен на их хэш-ресурсы. Маркетплейсу нужен механизм, позволяющий отслеживать проделанную вычислительную работу и своевременно выплачивать соответствующие комиссии провайдерам. На традиционных рынках посредники выполняют такие задачи, как управление и адаптация, при этом снижая операционные расходы за счет установления минимальных выплат. Однако такой подход более затратен при масштабировании рынка. Только небольшая часть предложения может быть эффективно захвачена экономически, что приводит к пороговому равновесному состоянию, когда рынок может захватывать и поддерживать только ограниченное предложение и не может расти дальше;
Проблема простоя: Проблема простоя является фундаментальной проблемой в теории вычислений, которая включает в себя суждение о том, будет ли данная вычислительная задача завершена за конечное время или никогда не остановится. Эта задача неразрешима, а это значит, что не существует универсального алгоритма, который мог бы предсказать, остановятся ли все вычислительные задачи за конечное время. Например, в Ethereum исполнение смарт-контрактов сталкивается с аналогичным временем простоя. т.е. невозможно заранее определить, сколько вычислительных ресурсов потребуется для исполнения смарт-контракта, или будет ли он выполнен в разумные сроки;
(В контексте глубокого обучения эта проблема будет более сложной, поскольку модели и фреймворки перейдут от статического построения графов к динамическому построению и выполнению.) )
Конфиденциальность: Проектирование и разработка осведомленности о конфиденциальности является обязательным для проектной команды. Несмотря на то, что большой объем исследований в области машинного обучения может быть выполнен на общедоступных наборах данных, для повышения производительности моделей и их адаптации к конкретным приложениям часто требуется тонкая настройка моделей на основе проприетарных пользовательских данных. Этот процесс тонкой настройки может включать в себя обработку персональных данных и, следовательно, должен учитывать требования Соглашения о правилах обмена конфиденциальной информацией;
Распараллеливание: Это ключевой фактор жизнеспособности текущих проектов, модели глубокого обучения часто обучаются параллельно на больших аппаратных кластерах с проприетарными архитектурами и очень низкой задержкой, в то время как графические процессоры в распределенных вычислительных сетях требуют частого обмена данными и ограничены самыми низкопроизводительными графическими процессорами. В случае ненадежных и ненадежных источников вычислительной мощности вопрос о том, как добиться гетерогенного распараллеливания, является проблемой, которую необходимо решить, и в настоящее время возможным методом является достижение распараллеливания с помощью моделей трансформаторов, таких как коммутационные трансформаторы, которые в настоящее время имеют характеристики высокой параллелизации.
Решение: Несмотря на то, что нынешняя попытка создания децентрализованного рынка вычислительных мощностей AGI все еще находится на ранних стадиях, существует два проекта, которые изначально решили проблему консенсусного дизайна децентрализованной сети и процесса реализации децентрализованной вычислительной сети в обучении модели и выводе. Ниже мы возьмем Gensyn и Together в качестве примера для анализа методов проектирования и проблем децентрализованного рынка вычислительных мощностей AGI.
Воссоединение
! [YBB Capital: Предварительный обзор потенциального трека - Рынок децентрализованных вычислительных мощностей (Часть I)] (https://img-cdn.gateio.im/webp-social/moments-7f230462a9-3edfcfbb39-dd1a6f-cd5cc0.webp)
Gensyn — это рынок вычислительных мощностей AGI, который все еще находится на стадии создания и предназначен для решения многочисленных проблем децентрализованных вычислений глубокого обучения, а также для снижения стоимости глубокого обучения сегодня. Gensyn — это, по сути, протокол Proof-of-Stake уровня 1, основанный на сети Polkadot, который напрямую вознаграждает решателей (Solvers) через смарт-контракты в обмен на их простаивающие устройства GPU для вычислений и выполняет задачи машинного обучения.
Итак, возвращаясь к предыдущему вопросу, суть создания по-настоящему надежной вычислительной сети заключается в проверке проделанной работы по машинному обучению. Это очень сложная задача, требующая нахождения баланса на стыке теории сложности, теории игр, криптографии и оптимизации.
Gensyn предлагает простое решение, в котором решатель отправляет результаты выполненной им задачи машинного обучения. Чтобы убедиться в точности этих результатов, другой независимый валидатор пытается повторить ту же работу. Этот метод можно назвать одиночной репликацией, так как повторно будет выполняться только один валидатор. Это означает, что существует только одно дополнительное усилие для проверки точности оригинальной работы. Однако, если лицо, проверяющее работу, не является заказчиком исходного задания, то проблема доверия остается. Потому что сами валидаторы могут быть нечестными, и их работу нужно проверять. Это приводит к потенциальной проблеме, заключающейся в том, что если человек, проверяющий работу, не является заказчиком оригинальной работы, то для проверки его работы необходим другой валидатор. Но этому новому валидатору также можно не доверять, поэтому для проверки их работы необходим другой валидатор, который может продолжаться вечно, образуя бесконечную цепочку репликации. Здесь нам нужно ввести три ключевых понятия и переплести их для построения четырехролевой системы участников для решения задачи бесконечной цепи.
Доказательство вероятностного обучения: используйте метаданные процесса оптимизации на основе градиента для создания сертификата о проделанной работе. Реплицируя определенные этапы, можно быстро проверить эти сертификаты, чтобы убедиться, что работа выполнена в соответствии с графиком.
Протокол точечных вычислений на основе графов: использует протокол Pinnacle на основе графов с множественной степенью детализации, а также согласованное выполнение перекрестных оценок. Это позволяет повторно запускать и сравнивать усилия по верификации для обеспечения согласованности и, в конечном итоге, подтверждать самим блокчейном.
Поощрительные игры в стиле Truebit: используйте стейкинг и слэшинг для создания поощрительных игр, которые гарантируют, что каждый финансово состоятельный участник будет действовать честно и выполнять поставленные перед ним задачи.
Система контрибьюторов состоит из коммиттеров, решателей, валидаторов и информаторов.
Отправители:
Отправитель является конечным пользователем системы, предоставляет задачи, которые будут рассчитаны, и оплачивает единицы выполненных работ;
Солверы (Solvers) :
Решатель является основным рабочим процессом системы, выполняющим обучение модели и генерирующим доказательства, которые проверяются валидаторами;
Показатели:
Верификатор является ключом к связыванию недетерминированного процесса обучения с детерминированными линейными вычислениями, воспроизведением части доказательства решателя и сравнением расстояния с ожидаемым порогом;
Осведомители:
Разоблачители — это последняя линия обороны, проверяющая работу валидаторов и делающая челленджи в надежде на выгодные бонусные выплаты.
Система работает
Протокол предназначен для работы в игровой системе, которая будет состоять из восьми фаз, охватывающих четыре основные роли участников, и будет использоваться для завершения полного процесса от отправки задачи до окончательной проверки.
Для того, чтобы отправить задачу, отправитель указывает детали задачи в машиночитаемом формате и отправляет ее в цепочку вместе с двоичным файлом модели (или машиночитаемой схемой) и общедоступным местоположением предварительно обработанных обучающих данных. Открытые данные можно хранить в простом объектном хранилище, таком как AWS S3, или в децентрализованном хранилище, таком как IPFS, Arweave или Subspace.
Профилирование: В процессе анализа устанавливается пороговое значение базового расстояния для обучения проверке доказательства. Валидатор будет периодически очищать задачу анализа и генерировать порог вариации для сравнения с доказательством обучения. Чтобы сгенерировать пороговые значения, валидаторы будут детерминированно запускать и повторно запускать часть обучения, используя различные случайные начальные значения, генерируя и проверяя свои собственные доказательства. Во время этого процесса валидатор устанавливает общий порог ожидаемого расстояния, который можно использовать в качестве недетерминированной попытки проверки решения.
Обучение: После анализа задача отправляется в публичный пул задач (аналогично Mempool Ethereum). Выберите решатель для выполнения задачи и удалите задачу из пула задач. Механизм расчета выполняет задачу на основе метаданных, предоставленных отправителем, а также предоставленных данных модели и обучения. При выполнении задачи обучения решатель также генерирует доказательство обучения, периодически проверяя и сохраняя метаданные (включая параметры) из процесса обучения, чтобы верификатор мог как можно точнее воспроизвести следующие шаги оптимизации.
Создание доказательства: механизм расчета периодически сохраняет весовые коэффициенты или обновления модели и соответствующий индекс с обучающим набором данных для идентификации выборок, используемых для создания обновлений весов. Частоту контрольных точек можно регулировать для обеспечения большей надежности или экономии места для хранения. Доказательство может быть "сложено", что означает, что доказательство может начинаться со случайного распределения весов, используемых для инициализации весов, или начинаться с предварительно обученных весов, сгенерированных с использованием собственных доказательств. Это позволяет протоколу создавать набор проверенных, предварительно обученных базовых моделей (т. е. базовых моделей), которые могут быть точно настроены для более конкретных задач.
Проверка доказательства: После того, как задача выполнена, решатель регистрирует задачу в цепочке и отображает свое доказательство обучения в общедоступном месте для доступа валидатора. Валидатор извлекает задачу проверки из общего пула задач и выполняет вычислительную работу для повторного запуска части доказательства и вычисления расстояния. Затем цепочка (вместе с пороговыми значениями, вычисленными на этапе анализа) использует полученное расстояние, чтобы определить, соответствует ли проверка доказательству.
Задача на основе графов: После проверки доказательства обучения осведомитель может скопировать работу верификатора, чтобы убедиться, что сама проверка выполнена правильно. Если осведомитель считает, что проверка была выполнена по ошибке (злонамеренной или незлонамеренной), он может оспорить кворум контракта, чтобы получить вознаграждение. Это вознаграждение может поступать от депозитов солверов и валидаторов (в случае истинно положительного) или из призового фонда лотерейного хранилища (в случае ложного срабатывания), а арбитраж осуществляется с использованием самой цепочки. Осведомители (в их случае валидаторы) будут проверять и впоследствии оспаривать работу только в том случае, если они ожидают получить соответствующую компенсацию. На практике это означает, что ожидается, что осведомители присоединятся к сети и покинут ее в зависимости от количества осведомителей, занимающихся другой деятельностью (т.е. с живыми депозитами и проблемами). Таким образом, ожидаемая стратегия по умолчанию для любого осведомителя заключается в том, чтобы присоединиться к сети, когда других осведомителей меньше, внести депозит, случайным образом выбрать активную задачу и начать процесс проверки. После того, как первое задание будет выполнено, они возьмут еще одно случайное активное задание и будут повторять до тех пор, пока количество разоблачителей не превысит установленный ими порог выплаты, а затем они покинут сеть (или, что более вероятно, перейдут к другой роли в сети — валидатору или решателю — в зависимости от их аппаратных возможностей) до тех пор, пока ситуация снова не изменится.
Арбитраж контракта: Когда валидатору бросают вызов осведомитель, он вступает в процесс с цепочкой, чтобы выяснить, где находится спорная операция или вход, и, наконец, цепочка выполняет последнюю базовую операцию и определяет, оправдан ли вызов. Для того, чтобы осведомитель оставался честным и заслуживающим доверия, а также преодолел дилемму валидаторов, здесь введены регулярные вынужденные ошибки и выплаты джекпотов.
Расчет: В процессе расчета участники получают оплату на основе завершения проверок вероятности и определенности. В зависимости от результатов предыдущих проверок и челленджей будут разные выплаты по разным сценариям. Если работа считается выполненной правильно и все проверки пройдены, поставщик решения и валидатор получают вознаграждение в зависимости от предпринятого действия.
Краткий обзор проекта
Gensyn разработал замечательную игровую систему на уровнях верификации и поощрения, позволяющую быстро выявлять ошибки, находя расхождения в сети, но в текущей системе все еще отсутствует много деталей. Например, как установить параметры, чтобы гарантировать, что поощрения и наказания разумны, но порог не слишком высок? Учитывалась ли в игре разница между экстремальным случаем и вычислительной мощностью решателя? В текущей версии white paper нет подробного описания гетерогенной параллельной работы, и кажется, что до реализации Gensyn еще далеко.
Together.ai
Together — это компания, которая фокусируется на открытом исходном коде больших моделей и стремится к децентрализованным вычислительным решениям на основе искусственного интеллекта, надеясь, что каждый может получить доступ к ИИ и использовать его в любом месте. Строго говоря, Together не является блокчейн-проектом, но проект изначально решил проблему задержки в децентрализованной вычислительной сети AGI. Поэтому в следующей статье анализируется только решение Together, но не оценивается проект.
Как обучать и выводить большие модели, если децентрализованная сеть в 100 раз медленнее, чем центр обработки данных? **
Давайте представим, как выглядело бы распределение GPU-устройств, участвующих в сети, если бы убрали децентрализацию. Эти устройства будут распределены по разным континентам, в разных городах, и их нужно будет подключать друг к другу, а задержка и пропускная способность соединения будут различаться. Как показано на рисунке ниже, распределенный сценарий моделируется с устройствами, распределенными по Северной Америке, Европе и Азии, с разной пропускной способностью и задержкой между устройствами. Так что же нужно сделать, чтобы соединить его последовательно?
! [YBB Capital: Предварительный обзор потенциального трека - Рынок децентрализованных вычислительных мощностей (Часть I)] (https://img-cdn.gateio.im/webp-social/moments-7f230462a9-5780e9e2df-dd1a6f-cd5cc0.webp)
Вычислительное моделирование с распределенным обучением: На следующем рисунке показано базовое обучение модели на нескольких устройствах, и существует три типа связи с точки зрения типов связи: прямая активация, обратный градиент и боковая связь.
! [YBB Capital: Предварительный обзор потенциального трека - Рынок децентрализованных вычислительных мощностей (Часть I)] (https://img-cdn.gateio.im/webp-social/moments-7f230462a9-3ce285b3bf-dd1a6f-cd5cc0.webp)
В сочетании с пропускной способностью и задержкой связи необходимо рассмотреть две формы параллелизма: параллелизм конвейера и параллелизм данных, соответствующие трем типам связи в случае нескольких устройств:
При конвейерном параллелизме все слои модели разбиваются на этапы, где каждое устройство обрабатывает фазу, представляющую собой непрерывную последовательность слоев, например, несколько трансформаторных блоков; При прямом прохождении активация передается на следующий этап, тогда как при обратном прохождении градиент активации передается на предыдущий этап.
При параллелизме данных устройство независимо вычисляет градиенты разных микропакетов, но обменивается данными для синхронизации этих градиентов.
Оптимизация планирования:
В децентрализованной среде процесс обучения часто ограничивается общением. Алгоритмы планирования обычно назначают задачи, требующие большого объема связи, устройствам с более высокой скоростью соединения, и, учитывая зависимости между задачами и неоднородность сети, сначала необходимо смоделировать стоимость конкретной стратегии планирования. Для того, чтобы учесть сложные коммуникационные затраты на обучение базовой модели, Together предлагает новую формулу и декомпозирует модель затрат на два уровня с помощью теории графов:
! [YBB Capital: Предварительный обзор потенциального трека - Рынок децентрализованных вычислительных мощностей (Часть I)] (https://img-cdn.gateio.im/webp-social/moments-7f230462a9-51146865fc-dd1a6f-cd5cc0.webp) Приведенный выше рисунок представляет собой схематическую схему процесса, поскольку фактический процесс реализации включает в себя несколько сложных расчетных формул. Для простоты понимания, ниже будет объяснен процесс на схеме простыми словами, а с подробным процессом реализации можно ознакомиться самостоятельно в документации на официальном сайте Together.
Предположим, что имеется набор устройств D с N устройствами, и связь между ними имеет неопределенную задержку (A-матрица) и полосу пропускания (B-матрица). На основе набора устройств D сначала мы генерируем сбалансированную сегментацию графика. Количество устройств в каждом разделении или группе устройств примерно одинаково, и все они обрабатывают одни и те же этапы конвейера. Это гарантирует, что при параллельном подключении данных группы устройств выполняют одинаковый объем работы. (Параллелизм данных — это когда несколько устройств выполняют одну и ту же задачу, в то время как этапы конвейерной обработки — это когда устройства выполняют разные шаги задачи в определенном порядке). Исходя из задержки и пропускной способности связи, «стоимость» передачи данных между группами устройств можно рассчитать с помощью формул. Каждая сбалансированная группа устройств объединяется для создания полносвязного грубого графа, где каждый узел представляет собой этап конвейера, а ребра представляют стоимость связи между двумя этапами. Чтобы минимизировать затраты на связь, используется алгоритм сопоставления, чтобы определить, какие группы устройств должны работать вместе.
Для дальнейшей оптимизации задачу также можно смоделировать как задачу коммивояжера с разомкнутым контуром (разомкнутый контур означает, что нет необходимости возвращаться к началу пути) для поиска оптимального пути передачи данных между всеми устройствами. Наконец, Together использует свой инновационный алгоритм планирования для поиска оптимальной стратегии распределения для заданной модели затрат, тем самым минимизируя затраты на связь и максимизируя пропускную способность обучения. Согласно фактическим измерениям, даже если сеть работает в 100 раз медленнее при такой оптимизации планирования, сквозная пропускная способность обучения будет всего в 1,7–2,3 раза медленнее.
Оптимизация сжатия данных:
! [YBB Capital: Предварительный обзор потенциального трека - Рынок децентрализованных вычислительных мощностей (Часть I)] (https://img-cdn.gateio.im/webp-social/moments-7f230462a9-91bd40d284-dd1a6f-cd5cc0.webp)
Для оптимизации сжатия коммуникаций Together представляет алгоритм AQ-SGD (для подробного процесса расчета см. статью Тонкая настройка языковых моделей в медленных сетях с использованием сжатия активации с гарантиями), AQ-SGD Алгоритм представляет собой новую технологию активного сжатия, предназначенную для решения проблемы эффективности связи при параллельном обучении трубопроводов на низкоскоростных сетях. В отличие от предыдущих методов прямого сжатия значения активности, AQ-SGD фокусируется на сжатии вариации значения активности одной и той же обучающей выборки за разные периоды, и этот уникальный метод вводит интересную «самоисполняющуюся» динамику, и ожидается, что производительность алгоритма будет постепенно улучшаться по мере стабилизации обучения. После тщательного теоретического анализа алгоритм AQ-SGD доказывает, что он имеет хорошую скорость сходимости при определенных технических условиях и функцию квантования ограниченной ошибки. Алгоритм может быть реализован эффективно без добавления дополнительных сквозных накладных расходов во время выполнения, хотя он требует использования большего объема памяти и твердотельных накопителей для хранения значения активности. Благодаря обширной экспериментальной проверке наборов данных классификации последовательностей и языкового моделирования, AQ-SGD может сжимать значения активности до 2-4 бит без ущерба для производительности сходимости. Кроме того, AQ-SGD может быть интегрирован с современными алгоритмами градиентного сжатия для достижения «сквозного сжатия связи», то есть обмен данными между всеми машинами, включая модельные градиенты, прямые значения активности и обратные градиенты, сжимается с низкой точностью, тем самым значительно повышая эффективность связи при распределенном обучении. По сравнению со сквозной производительностью обучения централизованной вычислительной сети (например, 10 Гбит/с) без сжатия, в настоящее время она всего на 31% ниже. В сочетании с данными оптимизации планирования, несмотря на то, что все еще существует определенное отставание от централизованной вычислительной сети, есть относительно большая надежда наверстать упущенное в будущем.
Заключение
В условиях дивидендного периода, вызванного волной искусственного интеллекта, рынок вычислительных мощностей AGI, несомненно, является рынком с наибольшим потенциалом и наибольшим спросом среди многих рынков вычислительных мощностей. Тем не менее, сложность разработки, требования к аппаратному обеспечению и капиталу также являются самыми высокими. В сочетании с двумя вышеуказанными проектами еще предстоит пройти определенную дистанцию в реализации рынка вычислительных мощностей AGI, а реальная децентрализованная сеть намного сложнее идеальной ситуации, которой явно недостаточно, чтобы конкурировать с облачными гигантами. На момент написания этой статьи также было замечено, что некоторые проекты, которые не находятся в зачаточном состоянии (стадия PPT), начали исследовать некоторые новые точки входа, такие как сосредоточение внимания на менее сложном этапе вывода или обучении небольших моделей, которые являются более практическими попытками.
До сих пор неясно, как в конечном итоге будет выглядеть рынок вычислительных мощностей AGI, и, хотя существует множество проблем, важно децентрализовать и не требующие разрешений вычислительные мощности AGI в долгосрочной перспективе, и права на вывод и обучение не должны быть сосредоточены в руках нескольких централизованных гигантов. Потому что человечеству не нужна ни новая «религия», ни новый «папа», не говоря уже о том, чтобы платить дорогостоящие «членские взносы».
Список литературы
1.Генсин Лайтпейпер:
2.NeurIPS 2022: Преодоление узких мест в коммуникации для децентрализованного обучения:
3.Тонкая настройка языковых моделей в медленных сетях с использованием сжатия активации с гарантиями:
5.Microsoft:Отчет о прибылях и убытках за 23 финансовый год за 2 квартал:
Соревнуйтесь за билеты ИИ: BAT и Byte Meituan соревнуются за графические процессоры:
IDC: Отчет об оценке глобального индекса вычислительной мощности за 2022-2023 гг.:
Оценка обучения большой модели Guosheng Securities:
Infowings: Какова связь между вычислительными мощностями и искусственным интеллектом? :