Використання інструментів ШІ, таких як ChatGPT, стає все більш поширеним. Взаємодіючи зі штучним інтелектом, ми знаємо, що відмінності у словах підказок для введення вплинуть на вихідні результати. Отже, якщо слова підказки з однаковим значенням виражені різними мовами, чи будуть результати суттєво різними? Крім того, введення та виведення слів підказок безпосередньо пов’язано з обчисленою сумою за моделлю. Отже, чи існують природні відмінності або «несправедливість» між різними мовами з точки зору виходу ШІ та витрат? Як виникає ця «несправедливість»?
Зрозуміло, що за підказкою насправді не текст, а лексема. Отримавши слова підказки, введені користувачем, модель перетворить вхідні дані в список токенів для обробки та прогнозування, і в той же час перетворить передбачені токени в слова, які ми бачимо на виході. Тобто токен є основною одиницею обробки мовної моделі та генерування тексту або коду. Можна помітити, що різні виробники декларуватимуть, скільки контекстів токенів підтримують їхні моделі, а не кількість підтримуваних слів чи китайських ієрогліфів.
Фактори, що впливають на розрахунок токенів
По-перше, лексема не відповідає англійському слову чи китайському ієрогліфу, і між лексемою та словом немає конкретного зв’язку перетворення. Наприклад, згідно з інструментом обчислення токенів, випущеним OpenAI, слово гамбургер розбивається на шинку, бур і гер із загальною кількістю 3 токенів. Крім того, якщо одне й те саме слово має різну структуру у двох реченнях, воно буде записано як різна кількість лексем.
Спосіб розрахунку конкретного токена в основному залежить від методу токенізації, який використовує виробник. Токенізація — це процес поділу вхідного та вихідного тексту на токени, які можуть бути оброблені мовною моделлю. Цей процес допомагає моделі обробляти різні мови, словники та формати. За ChatGPT стоїть метод токенізації під назвою «Кодування пари байтів» (BPE).
Зараз те, на скільки лексем розкладається слово, залежить від його вимови та структури в реченні. Відмінності в обчисленнях між мовами здаються більшими.
Візьмемо, наприклад, китайське «гамбургер», що відповідає «гамбургеру». Ці три китайські ієрогліфи вважаються 8 лексемами, тобто розбиваються на 8 частин.
Джерело: скріншот офіційного сайту OpenAI
Давайте візьмемо ще один абзац, щоб порівняти «несправедливість» розрахунків жетонів китайською та англійською мовами.
Нижче наведено речення з офіційного веб-сайту OpenAI: Ви можете скористатися наведеним нижче інструментом, щоб зрозуміти, як фрагмент тексту буде токенізовано API, а також загальну кількість маркерів у цьому фрагменті тексту. Усього в цьому фрагменті тексту 33 маркери. цей уривок.
Джерело: скріншот офіційного сайту OpenAI
Відповідна китайська мова: Ви можете використовувати такі інструменти, щоб зрозуміти, як API токенізує фрагмент тексту та загальну кількість маркерів у цьому фрагменті тексту. Всього 76 жетонів.
Джерело: скріншот офіційного сайту OpenAI
Китайська та англійська мови природно «несправедливі» в ШІ
Можна побачити, що кількість китайських лексем з таким самим значенням більш ніж удвічі перевищує кількість англійських. «Несправедливість» між китайською та англійською мовами в навчанні та міркуванні може бути пов’язана з тим, що одне слово в китайській мові може виражати кілька значень, а мовний склад є відносно гнучким. Китайська мова також має глибокі культурні конотації та багаті контекстуальні значення, що є надзвичайно це значно збільшує неоднозначність і ускладнює обробку мови; граматична структура англійської мови відносно проста, що робить англійську мову легшою для обробки та розуміння, ніж китайську в деяких завданнях природної мови.
Китайцям потрібно обробляти більше токенів, а модель споживає більше пам'яті та обчислювальних ресурсів, і, звичайно, більша вартість.
Водночас, незважаючи на те, що ChatGPT може розпізнавати кілька мов, включаючи китайську, набори даних, які він використовує для навчання, це переважно англійські тексти. Під час обробки неанглійських мов він може зіткнутися з проблемами в мовній структурі, граматиці тощо, таким чином впливаючи на вихідний ефект. Нещодавня стаття під назвою «Чи ефективніші багатомовні мовні моделі англійською?» У документі «Чи багатомовні мовні моделі думають краще англійською?» згадується, що коли неанглійські мови перекладаються англійською, вихідні результати кращі, ніж результати безпосереднього використання неанглійських мов як слів підказки.
Для китайських користувачів здається, що спочатку переклад китайської на англійську, а потім взаємодія з ШІ здається більш ефективним і економічно ефективнішим. Зрештою, використовуючи API моделі GPT-4 від OpenAI, з вас стягуватиметься щонайменше 0,03 доларів США за кожен вхід 1000 токенів.
Через складність китайської мови моделі штучного інтелекту можуть зіткнутися з проблемами під час використання китайських даних для точного навчання та аргументації, а також ускладнити застосування та підтримку китайських моделей. У той же час, для компаній, які розробляють великі моделі, виготовлення китайських великих моделей може нести більші витрати, оскільки вони потребують додаткових ресурсів.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Китайські великі моделі витрачають більше грошей, ніж англійські. Чи справді це залежить від основних принципів ШІ?
Джерело: Future Technology Power
Автор: Лі Сіньшуай
Використання інструментів ШІ, таких як ChatGPT, стає все більш поширеним. Взаємодіючи зі штучним інтелектом, ми знаємо, що відмінності у словах підказок для введення вплинуть на вихідні результати. Отже, якщо слова підказки з однаковим значенням виражені різними мовами, чи будуть результати суттєво різними? Крім того, введення та виведення слів підказок безпосередньо пов’язано з обчисленою сумою за моделлю. Отже, чи існують природні відмінності або «несправедливість» між різними мовами з точки зору виходу ШІ та витрат? Як виникає ця «несправедливість»?
Зрозуміло, що за підказкою насправді не текст, а лексема. Отримавши слова підказки, введені користувачем, модель перетворить вхідні дані в список токенів для обробки та прогнозування, і в той же час перетворить передбачені токени в слова, які ми бачимо на виході. Тобто токен є основною одиницею обробки мовної моделі та генерування тексту або коду. Можна помітити, що різні виробники декларуватимуть, скільки контекстів токенів підтримують їхні моделі, а не кількість підтримуваних слів чи китайських ієрогліфів.
Фактори, що впливають на розрахунок токенів
По-перше, лексема не відповідає англійському слову чи китайському ієрогліфу, і між лексемою та словом немає конкретного зв’язку перетворення. Наприклад, згідно з інструментом обчислення токенів, випущеним OpenAI, слово гамбургер розбивається на шинку, бур і гер із загальною кількістю 3 токенів. Крім того, якщо одне й те саме слово має різну структуру у двох реченнях, воно буде записано як різна кількість лексем.
Спосіб розрахунку конкретного токена в основному залежить від методу токенізації, який використовує виробник. Токенізація — це процес поділу вхідного та вихідного тексту на токени, які можуть бути оброблені мовною моделлю. Цей процес допомагає моделі обробляти різні мови, словники та формати. За ChatGPT стоїть метод токенізації під назвою «Кодування пари байтів» (BPE).
Зараз те, на скільки лексем розкладається слово, залежить від його вимови та структури в реченні. Відмінності в обчисленнях між мовами здаються більшими.
Візьмемо, наприклад, китайське «гамбургер», що відповідає «гамбургеру». Ці три китайські ієрогліфи вважаються 8 лексемами, тобто розбиваються на 8 частин.
Давайте візьмемо ще один абзац, щоб порівняти «несправедливість» розрахунків жетонів китайською та англійською мовами.
Нижче наведено речення з офіційного веб-сайту OpenAI: Ви можете скористатися наведеним нижче інструментом, щоб зрозуміти, як фрагмент тексту буде токенізовано API, а також загальну кількість маркерів у цьому фрагменті тексту. Усього в цьому фрагменті тексту 33 маркери. цей уривок.
Відповідна китайська мова: Ви можете використовувати такі інструменти, щоб зрозуміти, як API токенізує фрагмент тексту та загальну кількість маркерів у цьому фрагменті тексту. Всього 76 жетонів.
Китайська та англійська мови природно «несправедливі» в ШІ
Можна побачити, що кількість китайських лексем з таким самим значенням більш ніж удвічі перевищує кількість англійських. «Несправедливість» між китайською та англійською мовами в навчанні та міркуванні може бути пов’язана з тим, що одне слово в китайській мові може виражати кілька значень, а мовний склад є відносно гнучким. Китайська мова також має глибокі культурні конотації та багаті контекстуальні значення, що є надзвичайно це значно збільшує неоднозначність і ускладнює обробку мови; граматична структура англійської мови відносно проста, що робить англійську мову легшою для обробки та розуміння, ніж китайську в деяких завданнях природної мови.
Китайцям потрібно обробляти більше токенів, а модель споживає більше пам'яті та обчислювальних ресурсів, і, звичайно, більша вартість.
Водночас, незважаючи на те, що ChatGPT може розпізнавати кілька мов, включаючи китайську, набори даних, які він використовує для навчання, це переважно англійські тексти. Під час обробки неанглійських мов він може зіткнутися з проблемами в мовній структурі, граматиці тощо, таким чином впливаючи на вихідний ефект. Нещодавня стаття під назвою «Чи ефективніші багатомовні мовні моделі англійською?» У документі «Чи багатомовні мовні моделі думають краще англійською?» згадується, що коли неанглійські мови перекладаються англійською, вихідні результати кращі, ніж результати безпосереднього використання неанглійських мов як слів підказки.
Для китайських користувачів здається, що спочатку переклад китайської на англійську, а потім взаємодія з ШІ здається більш ефективним і економічно ефективнішим. Зрештою, використовуючи API моделі GPT-4 від OpenAI, з вас стягуватиметься щонайменше 0,03 доларів США за кожен вхід 1000 токенів.
Через складність китайської мови моделі штучного інтелекту можуть зіткнутися з проблемами під час використання китайських даних для точного навчання та аргументації, а також ускладнити застосування та підтримку китайських моделей. У той же час, для компаній, які розробляють великі моделі, виготовлення китайських великих моделей може нести більші витрати, оскільки вони потребують додаткових ресурсів.