Китайские большие модели стоят дороже, чем английские. Действительно ли это определяется основополагающими принципами ИИ?

Question

Источник: Сила технологий будущего.Автор: Ли СиньшуайИспользование инструментов искусственного интеллекта, таких как ChatGPT, становится все более распространенным. При взаимодействии с ИИ мы знаем, что разница во входных словах подсказки будет влиять на выходные результаты. Тогда, если слова-подсказки с одинаковым значением выражены на разных языках, будет ли большая разница в результатах? Кроме того, ввод и вывод слов-подсказок напрямую связаны с объемом вычислений, лежащих в основе модели. Таким образом, существует ли естественная разница или «несправедливость» с точки зрения производительности ИИ и затрат между разными языками? Как возникла эта «несправедливость»?Подразумевается, что слово-подсказка на самом деле соответствует не тексту, а токену. После получения введенных пользователем слов-подсказок модель преобразует входные данные в список токенов для обработки и прогнозирования и в то же время преобразует предсказанные токены в слова, которые мы видим на выходе. То есть токен — это базовая единица языковых моделей для обработки и генерации текста или кода. Можно отметить, что каждый производитель будет указывать количество токенов, которое поддерживает его модель, а не количество поддерживаемых слов или китайских иероглифов.## Факторы, влияющие на расчет токенаПрежде всего, токен не соответствует английскому слову или китайскому иероглифу, и между токенами и словами не существует определенного отношения преобразования. Например, согласно инструменту расчета токенов, выпущенному OpenAI, слово гамбургер разлагается на ветчину, бур и гер, всего 3 токена. Кроме того, если одно и то же слово имеет разную структуру в двух предложениях, оно будет записано как разное количество токенов.То, как рассчитывается конкретный токен, во многом зависит от метода токенизации, используемого производителем. Токенизация — это процесс разделения входного и выходного текста на токены, которые могут быть обработаны языковой моделью. Этот процесс помогает модели обрабатывать разные языки, словари и форматы. В основе ChatGPT лежит метод токенизации, называемый кодированием пар байтов (BPE).В настоящее время количество токенов, на которые разлагается слово, связано с его произношением и структурой в предложении. И различия в вычислениях между разными языками кажутся большими.В качестве примера возьмем китайский «гамбургер», соответствующий слову «гамбургер».Эти три китайских иероглифа считаются за 8 жетонов, то есть разбиваются на 8 частей.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-272da11621-dd1a6f-6d2ef1) Источник: Скриншот официального сайта OpenAI.Возьмите еще один абзац, чтобы сравнить «несправедливость» расчетов токенов на китайском и английском языках.Ниже приводится предложение с официального сайта OpenAI: Вы можете использовать инструмент ниже, чтобы понять, как фрагмент текста будет токенизирован API, а также общее количество токенов в этом фрагменте текста. Всего в этом предложении 33. жетоны.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0ac72bb8c6-dd1a6f-6d2ef1) Источник: скриншот официального сайта OpenAI.Соответствующий китайский: Вы можете использовать инструмент ниже, чтобы понять, как API токенизирует фрагмент текста и общее количество токенов в фрагменте текста. Всего 76 токенов.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-91d7ad7105-dd1a6f-6d2ef1) Источник: скриншот официального сайта OpenAI.## Китайский и английский языки естественно «несправедливо» по отношению к ИИВидно, что количество китайских токенов с одинаковым значением более чем в два раза превышает количество английских. «Несправедливость» между китайским и английским языками в обучении и рассуждении может быть связана с тем, что одно слово в китайском языке обычно может выражать несколько значений, а состав языка относительно гибок. Китайский язык также имеет глубокие культурные коннотации и богатые контекстуальные значения, что Это очень важно. Это значительно увеличивает двусмысленность и сложность обработки языка; английский язык имеет относительно простую грамматическую структуру, что делает английский язык более легким для обработки и понимания, чем китайский, в некоторых задачах на естественном языке.Китайцам необходимо обрабатывать больше токенов, а модель потребляет больше памяти и вычислительных ресурсов и, конечно же, тем больше стоимость.В то же время, хотя ChatGPT может распознавать несколько языков, включая китайский, большая часть наборов данных, которые он использует для обучения, представляют собой английские тексты.При работе с неанглийскими языками он может столкнуться с проблемами языковой структуры и грамматики, что повлияет на выходной эффект. Недавняя статья под названием «Являются ли многоязычные языковые модели более эффективными на английском языке?» «(Думают ли многоязычные языковые модели лучше на английском языке?) В документе упоминается, что когда неанглийский язык переводится на английский, результат на выходе лучше, чем результат прямого использования неанглийского языка в качестве подсказки.Китайским пользователям кажется, что сначала перевод с китайского на английский, а затем взаимодействие с ИИ кажется более эффективным и экономически выгодным. В конце концов, используя API модели OpenAI GPT-4, с вас будет взиматься не менее 0,03 доллара США за каждый ввод 1000 токенов.Из-за сложности китайского языка модели ИИ могут столкнуться с проблемами при использовании китайских данных для точного обучения и вывода, а также усложнить применение и поддержку китайских моделей. В то же время компаниям, разрабатывающим крупномасштабные модели, возможно, придется нести большие затраты из-за необходимости в дополнительных ресурсах для изготовления крупномасштабных моделей на китайском языке.