Китайские большие модели стоят дороже, чем английские. Действительно ли это определяется основополагающими принципами ИИ?

Источник: Сила технологий будущего.

Автор: Ли Синьшуай

Использование инструментов искусственного интеллекта, таких как ChatGPT, становится все более распространенным. При взаимодействии с ИИ мы знаем, что разница во входных словах подсказки будет влиять на выходные результаты. Тогда, если слова-подсказки с одинаковым значением выражены на разных языках, будет ли большая разница в результатах? Кроме того, ввод и вывод слов-подсказок напрямую связаны с объемом вычислений, лежащих в основе модели. Таким образом, существует ли естественная разница или «несправедливость» с точки зрения производительности ИИ и затрат между разными языками? Как возникла эта «несправедливость»?

Подразумевается, что слово-подсказка на самом деле соответствует не тексту, а токену. После получения введенных пользователем слов-подсказок модель преобразует входные данные в список токенов для обработки и прогнозирования и в то же время преобразует предсказанные токены в слова, которые мы видим на выходе. То есть токен — это базовая единица языковых моделей для обработки и генерации текста или кода. Можно отметить, что каждый производитель будет указывать количество токенов, которое поддерживает его модель, а не количество поддерживаемых слов или китайских иероглифов.

Факторы, влияющие на расчет токена

Прежде всего, токен не соответствует английскому слову или китайскому иероглифу, и между токенами и словами не существует определенного отношения преобразования. Например, согласно инструменту расчета токенов, выпущенному OpenAI, слово гамбургер разлагается на ветчину, бур и гер, всего 3 токена. Кроме того, если одно и то же слово имеет разную структуру в двух предложениях, оно будет записано как разное количество токенов.

То, как рассчитывается конкретный токен, во многом зависит от метода токенизации, используемого производителем. Токенизация — это процесс разделения входного и выходного текста на токены, которые могут быть обработаны языковой моделью. Этот процесс помогает модели обрабатывать разные языки, словари и форматы. В основе ChatGPT лежит метод токенизации, называемый кодированием пар байтов (BPE).

В настоящее время количество токенов, на которые разлагается слово, связано с его произношением и структурой в предложении. И различия в вычислениях между разными языками кажутся большими.

В качестве примера возьмем китайский «гамбургер», соответствующий слову «гамбургер».Эти три китайских иероглифа считаются за 8 жетонов, то есть разбиваются на 8 частей.

Источник: Скриншот официального сайта OpenAI.

Возьмите еще один абзац, чтобы сравнить «несправедливость» расчетов токенов на китайском и английском языках.

Ниже приводится предложение с официального сайта OpenAI: Вы можете использовать инструмент ниже, чтобы понять, как фрагмент текста будет токенизирован API, а также общее количество токенов в этом фрагменте текста. Всего в этом предложении 33. жетоны.

Источник: скриншот официального сайта OpenAI.

Соответствующий китайский: Вы можете использовать инструмент ниже, чтобы понять, как API токенизирует фрагмент текста и общее количество токенов в фрагменте текста. Всего 76 токенов.

Источник: скриншот официального сайта OpenAI.

Китайский и английский языки естественно «несправедливо» по отношению к ИИ

Видно, что количество китайских токенов с одинаковым значением более чем в два раза превышает количество английских. «Несправедливость» между китайским и английским языками в обучении и рассуждении может быть связана с тем, что одно слово в китайском языке обычно может выражать несколько значений, а состав языка относительно гибок. Китайский язык также имеет глубокие культурные коннотации и богатые контекстуальные значения, что Это очень важно. Это значительно увеличивает двусмысленность и сложность обработки языка; английский язык имеет относительно простую грамматическую структуру, что делает английский язык более легким для обработки и понимания, чем китайский, в некоторых задачах на естественном языке.

Китайцам необходимо обрабатывать больше токенов, а модель потребляет больше памяти и вычислительных ресурсов и, конечно же, тем больше стоимость.

В то же время, хотя ChatGPT может распознавать несколько языков, включая китайский, большая часть наборов данных, которые он использует для обучения, представляют собой английские тексты.При работе с неанглийскими языками он может столкнуться с проблемами языковой структуры и грамматики, что повлияет на выходной эффект. Недавняя статья под названием «Являются ли многоязычные языковые модели более эффективными на английском языке?» «(Думают ли многоязычные языковые модели лучше на английском языке?) В документе упоминается, что когда неанглийский язык переводится на английский, результат на выходе лучше, чем результат прямого использования неанглийского языка в качестве подсказки.

Китайским пользователям кажется, что сначала перевод с китайского на английский, а затем взаимодействие с ИИ кажется более эффективным и экономически выгодным. В конце концов, используя API модели OpenAI GPT-4, с вас будет взиматься не менее 0,03 доллара США за каждый ввод 1000 токенов.

Из-за сложности китайского языка модели ИИ могут столкнуться с проблемами при использовании китайских данных для точного обучения и вывода, а также усложнить применение и поддержку китайских моделей. В то же время компаниям, разрабатывающим крупномасштабные модели, возможно, придется нести большие затраты из-за необходимости в дополнительных ресурсах для изготовления крупномасштабных моделей на китайском языке.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить