Использование инструментов искусственного интеллекта, таких как ChatGPT, становится все более распространенным. При взаимодействии с ИИ мы знаем, что разница во входных словах подсказки будет влиять на выходные результаты. Тогда, если слова-подсказки с одинаковым значением выражены на разных языках, будет ли большая разница в результатах? Кроме того, ввод и вывод слов-подсказок напрямую связаны с объемом вычислений, лежащих в основе модели. Таким образом, существует ли естественная разница или «несправедливость» с точки зрения производительности ИИ и затрат между разными языками? Как возникла эта «несправедливость»?
Подразумевается, что слово-подсказка на самом деле соответствует не тексту, а токену. После получения введенных пользователем слов-подсказок модель преобразует входные данные в список токенов для обработки и прогнозирования и в то же время преобразует предсказанные токены в слова, которые мы видим на выходе. То есть токен — это базовая единица языковых моделей для обработки и генерации текста или кода. Можно отметить, что каждый производитель будет указывать количество токенов, которое поддерживает его модель, а не количество поддерживаемых слов или китайских иероглифов.
Факторы, влияющие на расчет токена
Прежде всего, токен не соответствует английскому слову или китайскому иероглифу, и между токенами и словами не существует определенного отношения преобразования. Например, согласно инструменту расчета токенов, выпущенному OpenAI, слово гамбургер разлагается на ветчину, бур и гер, всего 3 токена. Кроме того, если одно и то же слово имеет разную структуру в двух предложениях, оно будет записано как разное количество токенов.
То, как рассчитывается конкретный токен, во многом зависит от метода токенизации, используемого производителем. Токенизация — это процесс разделения входного и выходного текста на токены, которые могут быть обработаны языковой моделью. Этот процесс помогает модели обрабатывать разные языки, словари и форматы. В основе ChatGPT лежит метод токенизации, называемый кодированием пар байтов (BPE).
В настоящее время количество токенов, на которые разлагается слово, связано с его произношением и структурой в предложении. И различия в вычислениях между разными языками кажутся большими.
В качестве примера возьмем китайский «гамбургер», соответствующий слову «гамбургер».Эти три китайских иероглифа считаются за 8 жетонов, то есть разбиваются на 8 частей.
Источник: Скриншот официального сайта OpenAI.
Возьмите еще один абзац, чтобы сравнить «несправедливость» расчетов токенов на китайском и английском языках.
Ниже приводится предложение с официального сайта OpenAI: Вы можете использовать инструмент ниже, чтобы понять, как фрагмент текста будет токенизирован API, а также общее количество токенов в этом фрагменте текста. Всего в этом предложении 33. жетоны.
Источник: скриншот официального сайта OpenAI.
Соответствующий китайский: Вы можете использовать инструмент ниже, чтобы понять, как API токенизирует фрагмент текста и общее количество токенов в фрагменте текста. Всего 76 токенов.
Источник: скриншот официального сайта OpenAI.
Китайский и английский языки естественно «несправедливо» по отношению к ИИ
Видно, что количество китайских токенов с одинаковым значением более чем в два раза превышает количество английских. «Несправедливость» между китайским и английским языками в обучении и рассуждении может быть связана с тем, что одно слово в китайском языке обычно может выражать несколько значений, а состав языка относительно гибок. Китайский язык также имеет глубокие культурные коннотации и богатые контекстуальные значения, что Это очень важно. Это значительно увеличивает двусмысленность и сложность обработки языка; английский язык имеет относительно простую грамматическую структуру, что делает английский язык более легким для обработки и понимания, чем китайский, в некоторых задачах на естественном языке.
Китайцам необходимо обрабатывать больше токенов, а модель потребляет больше памяти и вычислительных ресурсов и, конечно же, тем больше стоимость.
В то же время, хотя ChatGPT может распознавать несколько языков, включая китайский, большая часть наборов данных, которые он использует для обучения, представляют собой английские тексты.При работе с неанглийскими языками он может столкнуться с проблемами языковой структуры и грамматики, что повлияет на выходной эффект. Недавняя статья под названием «Являются ли многоязычные языковые модели более эффективными на английском языке?» «(Думают ли многоязычные языковые модели лучше на английском языке?) В документе упоминается, что когда неанглийский язык переводится на английский, результат на выходе лучше, чем результат прямого использования неанглийского языка в качестве подсказки.
Китайским пользователям кажется, что сначала перевод с китайского на английский, а затем взаимодействие с ИИ кажется более эффективным и экономически выгодным. В конце концов, используя API модели OpenAI GPT-4, с вас будет взиматься не менее 0,03 доллара США за каждый ввод 1000 токенов.
Из-за сложности китайского языка модели ИИ могут столкнуться с проблемами при использовании китайских данных для точного обучения и вывода, а также усложнить применение и поддержку китайских моделей. В то же время компаниям, разрабатывающим крупномасштабные модели, возможно, придется нести большие затраты из-за необходимости в дополнительных ресурсах для изготовления крупномасштабных моделей на китайском языке.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Китайские большие модели стоят дороже, чем английские. Действительно ли это определяется основополагающими принципами ИИ?
Источник: Сила технологий будущего.
Автор: Ли Синьшуай
Использование инструментов искусственного интеллекта, таких как ChatGPT, становится все более распространенным. При взаимодействии с ИИ мы знаем, что разница во входных словах подсказки будет влиять на выходные результаты. Тогда, если слова-подсказки с одинаковым значением выражены на разных языках, будет ли большая разница в результатах? Кроме того, ввод и вывод слов-подсказок напрямую связаны с объемом вычислений, лежащих в основе модели. Таким образом, существует ли естественная разница или «несправедливость» с точки зрения производительности ИИ и затрат между разными языками? Как возникла эта «несправедливость»?
Подразумевается, что слово-подсказка на самом деле соответствует не тексту, а токену. После получения введенных пользователем слов-подсказок модель преобразует входные данные в список токенов для обработки и прогнозирования и в то же время преобразует предсказанные токены в слова, которые мы видим на выходе. То есть токен — это базовая единица языковых моделей для обработки и генерации текста или кода. Можно отметить, что каждый производитель будет указывать количество токенов, которое поддерживает его модель, а не количество поддерживаемых слов или китайских иероглифов.
Факторы, влияющие на расчет токена
Прежде всего, токен не соответствует английскому слову или китайскому иероглифу, и между токенами и словами не существует определенного отношения преобразования. Например, согласно инструменту расчета токенов, выпущенному OpenAI, слово гамбургер разлагается на ветчину, бур и гер, всего 3 токена. Кроме того, если одно и то же слово имеет разную структуру в двух предложениях, оно будет записано как разное количество токенов.
То, как рассчитывается конкретный токен, во многом зависит от метода токенизации, используемого производителем. Токенизация — это процесс разделения входного и выходного текста на токены, которые могут быть обработаны языковой моделью. Этот процесс помогает модели обрабатывать разные языки, словари и форматы. В основе ChatGPT лежит метод токенизации, называемый кодированием пар байтов (BPE).
В настоящее время количество токенов, на которые разлагается слово, связано с его произношением и структурой в предложении. И различия в вычислениях между разными языками кажутся большими.
В качестве примера возьмем китайский «гамбургер», соответствующий слову «гамбургер».Эти три китайских иероглифа считаются за 8 жетонов, то есть разбиваются на 8 частей.
Возьмите еще один абзац, чтобы сравнить «несправедливость» расчетов токенов на китайском и английском языках.
Ниже приводится предложение с официального сайта OpenAI: Вы можете использовать инструмент ниже, чтобы понять, как фрагмент текста будет токенизирован API, а также общее количество токенов в этом фрагменте текста. Всего в этом предложении 33. жетоны.
Соответствующий китайский: Вы можете использовать инструмент ниже, чтобы понять, как API токенизирует фрагмент текста и общее количество токенов в фрагменте текста. Всего 76 токенов.
Китайский и английский языки естественно «несправедливо» по отношению к ИИ
Видно, что количество китайских токенов с одинаковым значением более чем в два раза превышает количество английских. «Несправедливость» между китайским и английским языками в обучении и рассуждении может быть связана с тем, что одно слово в китайском языке обычно может выражать несколько значений, а состав языка относительно гибок. Китайский язык также имеет глубокие культурные коннотации и богатые контекстуальные значения, что Это очень важно. Это значительно увеличивает двусмысленность и сложность обработки языка; английский язык имеет относительно простую грамматическую структуру, что делает английский язык более легким для обработки и понимания, чем китайский, в некоторых задачах на естественном языке.
Китайцам необходимо обрабатывать больше токенов, а модель потребляет больше памяти и вычислительных ресурсов и, конечно же, тем больше стоимость.
В то же время, хотя ChatGPT может распознавать несколько языков, включая китайский, большая часть наборов данных, которые он использует для обучения, представляют собой английские тексты.При работе с неанглийскими языками он может столкнуться с проблемами языковой структуры и грамматики, что повлияет на выходной эффект. Недавняя статья под названием «Являются ли многоязычные языковые модели более эффективными на английском языке?» «(Думают ли многоязычные языковые модели лучше на английском языке?) В документе упоминается, что когда неанглийский язык переводится на английский, результат на выходе лучше, чем результат прямого использования неанглийского языка в качестве подсказки.
Китайским пользователям кажется, что сначала перевод с китайского на английский, а затем взаимодействие с ИИ кажется более эффективным и экономически выгодным. В конце концов, используя API модели OpenAI GPT-4, с вас будет взиматься не менее 0,03 доллара США за каждый ввод 1000 токенов.
Из-за сложности китайского языка модели ИИ могут столкнуться с проблемами при использовании китайских данных для точного обучения и вывода, а также усложнить применение и поддержку китайских моделей. В то же время компаниям, разрабатывающим крупномасштабные модели, возможно, придется нести большие затраты из-за необходимости в дополнительных ресурсах для изготовления крупномасштабных моделей на китайском языке.