Нещодавно користувач X (раніше Twitter) @Dylan Patel продемонстрував дослідження Оксфордського університету: Вивчаючи мову GPT-4 та більшості інших поширених LLM, дослідження виявило, що вартість висновків LLM (Large Language Model) дуже різна. великий.
Серед них введення та виведення англійською набагато дешевше, ніж інші мови.Вартість спрощеної китайської приблизно вдвічі вища за англійську, вартість іспанської мови в 1,5 рази більша за англійську, а вартість бірманської шанської мови в 15 разів більша за англійську. .
Принцип можна простежити до статті, опублікованої Оксфордським університетом на arXiv у травні цього року.
Лексичний — це процес перетворення тексту природної мови в послідовність лексем, який є першим кроком у мовній моделі обробки тексту. У розрахунку вартості обчислювальної потужності LLM чим більше токенів, тим вища вартість обчислювальної потужності.
Безсумнівно, у зв’язку з тенденцією комерціалізації генеративного штучного інтелекту вартість обчислювальної потужності також буде залежати від користувачів.Багато поточних послуг штучного інтелекту виставляються рахунки відповідно до кількості слів, які потрібно обробити.
Стаття показує, що після аналізу 17 методів лематизації дослідники виявили, що той самий текст перетворюється на різні мовні послідовності лем з величезною різницею в довжині.Навіть метод лематизації, який стверджує, що підтримує кілька мов, не може досягти Довжина цілком справедлива.
Наприклад, згідно з токенізатором GPT3 OpenAI, якщо ви токенізуєте «ваше кохання», для англійської мови потрібні лише два токени, а для спрощеної китайської — вісім. Незважаючи на те, що спрощений китайський текст містить лише 4 символи, а англійський текст має 14 символів.
Із зображень, наданих користувачем X @Dylan Patel, також можна інтуїтивно зрозуміти, що для LLM потрібно 17 токенів (токенів), щоб обробити речення англійською мовою, і 198 токенів (токенів) для LLM, щоб обробити речення бірманською мовою за допомогою те саме значення. Це означає, що бірманська буде в 11 разів дорожча за обробку, ніж англійська.
Є багато подібних ситуацій. Веб-сайт Олександра Петрова містить багато пов’язаних значків і даних. Зацікавлені друзі можуть натиснути «Вхід, щоб переглянути відмінності між мовами.
На офіційному веб-сайті OpenAI також є подібна сторінка, де пояснюється, як API лематизує фрагмент тексту та відображає загальну кількість токенів у тексті. На офіційному веб-сайті також згадується, що лема зазвичай відповідає приблизно 4 символам в англійському тексті, а 100 лем дорівнюють приблизно 75 словам.
Завдяки короткій лексичній послідовності англійської мови англійська є найбільшим переможцем у рентабельності попереднього навчання генеративного штучного інтелекту, залишаючи інших користувачів мови далеко позаду, опосередковано створюючи несправедливу ситуацію.
Серед іншого, ця різниця в довжині послідовності маркерів може призвести до несправедливої затримки обробки (деяким мовам потрібно більше часу для обробки того самого вмісту) і несправедливого моделювання залежностей довгої послідовності (деякі мови можуть обробляти лише коротший текст).
Простіше кажучи, користувачі певних мов повинні платити вищі витрати, страждати від більших затримок і отримувати нижчу продуктивність, тим самим зменшуючи їхній справедливий доступ до можливостей мовних технологій, що опосередковано призводить до того, що англомовні користувачі та штучний інтелект поділяють форми між вживання мови в решті світу.
З огляду лише на вихідну вартість, вартість спрощеної китайської мови вдвічі більша, ніж англійської. З поглибленим розвитком галузі штучного інтелекту спрощена китайська мова, яка завжди «за крок», явно не є дружньою. Враховуючи баланс факторів, таких як вартість, неангломовні країни також намагаються розробити власні моделі рідної мови.
Беручи приклад Китаю, як одного з перших вітчизняних гігантів, який дослідив штучний інтелект, 20 березня 2023 року Baidu офіційно запустив генеративний штучний інтелект Wenxin Yiyan.
Згодом одна за одною з’явилися партії чудових великомасштабних моделей, таких як великомасштабна модель Tongyi Qianwen від Alibaba та масштабна модель Pangu від Huawei.
Серед них велика модель NLP у великій моделі Pangu від Huawei — перша в галузі китайська велика модель зі 100 мільярдами параметрів, яка має 110 мільярдів щільних параметрів і навчається з 40 ТБ масивних даних.
Як свого часу на Генеральній Асамблеї ООН попередила заступник Генерального секретаря ООН Аміна Мохамед, якщо міжнародна спільнота не діятиме рішуче, цифровий розрив стане «новим обличчям нерівності».
Таким же чином, із швидким розвитком генеративного ШІ, розрив ШІ, ймовірно, стане новим витком «нових облич нерівності», які заслуговують на увагу.
На щастя, вітчизняні технологічні гіганти, які зазвичай «огидні», вже вжили заходів.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Нерівність у моделі штучного інтелекту: навчання китайській вдвічі дорожче англійської!
Джерело: Ifanr
Автор: Мо Чон'ю
Нещодавно користувач X (раніше Twitter) @Dylan Patel продемонстрував дослідження Оксфордського університету: Вивчаючи мову GPT-4 та більшості інших поширених LLM, дослідження виявило, що вартість висновків LLM (Large Language Model) дуже різна. великий.
Серед них введення та виведення англійською набагато дешевше, ніж інші мови.Вартість спрощеної китайської приблизно вдвічі вища за англійську, вартість іспанської мови в 1,5 рази більша за англійську, а вартість бірманської шанської мови в 15 разів більша за англійську. .
Принцип можна простежити до статті, опублікованої Оксфордським університетом на arXiv у травні цього року.
Безсумнівно, у зв’язку з тенденцією комерціалізації генеративного штучного інтелекту вартість обчислювальної потужності також буде залежати від користувачів.Багато поточних послуг штучного інтелекту виставляються рахунки відповідно до кількості слів, які потрібно обробити.
Стаття показує, що після аналізу 17 методів лематизації дослідники виявили, що той самий текст перетворюється на різні мовні послідовності лем з величезною різницею в довжині.Навіть метод лематизації, який стверджує, що підтримує кілька мов, не може досягти Довжина цілком справедлива.
Наприклад, згідно з токенізатором GPT3 OpenAI, якщо ви токенізуєте «ваше кохання», для англійської мови потрібні лише два токени, а для спрощеної китайської — вісім. Незважаючи на те, що спрощений китайський текст містить лише 4 символи, а англійський текст має 14 символів.
Є багато подібних ситуацій. Веб-сайт Олександра Петрова містить багато пов’язаних значків і даних. Зацікавлені друзі можуть натиснути «Вхід, щоб переглянути відмінності між мовами.
На офіційному веб-сайті OpenAI також є подібна сторінка, де пояснюється, як API лематизує фрагмент тексту та відображає загальну кількість токенів у тексті. На офіційному веб-сайті також згадується, що лема зазвичай відповідає приблизно 4 символам в англійському тексті, а 100 лем дорівнюють приблизно 75 словам.
Серед іншого, ця різниця в довжині послідовності маркерів може призвести до несправедливої затримки обробки (деяким мовам потрібно більше часу для обробки того самого вмісту) і несправедливого моделювання залежностей довгої послідовності (деякі мови можуть обробляти лише коротший текст).
Простіше кажучи, користувачі певних мов повинні платити вищі витрати, страждати від більших затримок і отримувати нижчу продуктивність, тим самим зменшуючи їхній справедливий доступ до можливостей мовних технологій, що опосередковано призводить до того, що англомовні користувачі та штучний інтелект поділяють форми між вживання мови в решті світу.
З огляду лише на вихідну вартість, вартість спрощеної китайської мови вдвічі більша, ніж англійської. З поглибленим розвитком галузі штучного інтелекту спрощена китайська мова, яка завжди «за крок», явно не є дружньою. Враховуючи баланс факторів, таких як вартість, неангломовні країни також намагаються розробити власні моделі рідної мови.
Згодом одна за одною з’явилися партії чудових великомасштабних моделей, таких як великомасштабна модель Tongyi Qianwen від Alibaba та масштабна модель Pangu від Huawei.
Серед них велика модель NLP у великій моделі Pangu від Huawei — перша в галузі китайська велика модель зі 100 мільярдами параметрів, яка має 110 мільярдів щільних параметрів і навчається з 40 ТБ масивних даних.
Як свого часу на Генеральній Асамблеї ООН попередила заступник Генерального секретаря ООН Аміна Мохамед, якщо міжнародна спільнота не діятиме рішуче, цифровий розрив стане «новим обличчям нерівності».
Таким же чином, із швидким розвитком генеративного ШІ, розрив ШІ, ймовірно, стане новим витком «нових облич нерівності», які заслуговують на увагу.
На щастя, вітчизняні технологічні гіганти, які зазвичай «огидні», вже вжили заходів.