Минуло більше півроку, а рейтинг ChatGPT майже в самому кінці.

2023-09-08 06:02:49

Джерело: TMTpost Media

Автор: Sanyan Technology

Вчора автор випадково змахнув картинку.

Відповідно до зображення, GPT-4 від OpenAI посіла останнє місце серед 11 великих моделей (перша має номер 0). Деякі користувачі мережі додали слова «GPT4: як я можу поскаржитися на свої скарги?»

Це не може не викликати у людей цікавості.На початку цього року, після того як ChatGPT став популярним, інші компанії почали пропонувати концепцію великих моделей.

Минуло всього більше півроку, а GPT вже «на дні»?

Тому автор хотів подивитися, яким є рейтинг GPT.

Тестовий час інший, тестова команда інша, GPT-4 займає одинадцяте місце

Судячи з інформації, наведеної на зображенні в попередній статті, цей рейтинг належить до C-списку.

C-List, повна назва C-Global Large Model Comprehensive Examination Test List, — це пакет комплексного оцінювання екзаменаційної моделі китайської мови, створений спільно Університетом Цінхуа, Шанхайським університетом Цзяо Тонг і Единбурзьким університетом.

Повідомляється, що пакет охоплює чотири основні напрями: гуманітарні, соціальні науки, наука та інженерія та інші спеціальності, включаючи 52 предмети, що охоплюють численні галузі знань, такі як числення та лінійна алгебра. Загалом існує 13 948 запитань на знання китайської мови та міркування, і складність розділена на чотири рівні: середня школа, бакалаврат, магістратура та професійно-технічний.

Тож автор перевірив останній С-список.

Останній рейтинг у списку C відповідає рейтингу, показаному на попередньому зображенні. Серед 11 найкращих великих моделей GPT-4 займає останнє місце.

Відповідно до C-списку, ці результати представляють нульовий (нульове навчання) або кілька спроб (нечисленне навчання) тести, але кілька спроб не обов’язково є кращими за нульовий.

C- сказав, що під час його тестів було виявлено, що багато моделей після точного налаштування інструкцій були кращими під час нульового знімка. Багато з перевірених моделей мають результати як з нульовим, так і з кількома кадрами, і рейтинг показує налаштування з кращим загальним середнім балом.

C-список також вказує, що назви великих моделей із «*» вказують на те, що результати моделі були перевірені командою C, тоді як інші результати були отримані за допомогою подання користувачів.

Крім того, автор також помітив, що час подання результатів тестування для цих великих моделей сильно відрізняється.

Час подання результатів тесту для GPT-4 – 15 травня, тоді як Yuntianshu, який займає перше місце, надсилає результати 31 серпня; Galaxy, який займає друге місце, подає 23 серпня; і YaYi, який займає третє місце, подає свої результати 31 серпня. на 4 вересня.

І серед 16 найкращих великих моделей лише GPT-4 із «*» до назви була протестована командою C.

Тому автор ще раз перевірив повний C-список.

Останній C-список містить загалом 66 великих модельних рейтингів.

Серед них лише 11 із «*» у назві, які тестуються С-командою, а час подачі на тестування – 15 травня.

Для цих великих моделей, протестованих командою C, GPT-4 OpenAI посів 11 місце, ChatGPT посів 36 місце, ChatGLM-6B Цинхуа Чжипу AI посів 60 місце, а MOSS Fudan посів 6 місце.

Незважаючи на те, що ці рейтинги показують швидкий темп розвитку вітчизняних великомасштабних моделей, автор вважає, що все-таки випробування проводилися не однією командою одночасно, а цього недостатньо для повного доказу того, хто сильніший, а хто слабший. серед цих масштабних моделей.

Це схоже на клас студентів, кожен з яких має різний час тестування та відповідає на різні роботи. Як ми можемо покладатися на оцінку кожного студента для порівняння?

Що каже великий розробник моделі? Декілька людей сказали, що вони перевершили ChatGPT з точки зору китайської та інших можливостей

Останнім часом у великому модельному колі досить пожвавлено.

Масштабні моделі продуктів 8 компаній, включаючи Baidu та Byte, пройшли реєстрацію «Тимчасових заходів щодо управління службами генеративного штучного інтелекту» та можуть бути офіційно запущені для надання послуг громадськості. А інші компанії одна за одною випускають власні масштабні моделі.

Отже, як розробники цих великих моделей представляють свою продукцію?

7 липня на форумі Всесвітньої конференції зі штучного інтелекту 2023 року «Можливості та ризики для розвитку загальної індустрії штучного інтелекту в епоху великої моделі» Цю Сіпен, професор Школи комп’ютерних наук і технологій Університету Фудань і керівник системи MOSS, сказав, що широкомасштабна розмовна модель Fudan MOSS після випуску в лютому цього року постійно вдосконалювалася: «Останній MOSS зміг перевершити ChatGPT у китайських можливостях».

Наприкінці липня NetEase Youdao запустила велику модель перекладу. Генеральний директор NetEase Youdao Чжоу Фенг публічно заявив, що під час внутрішніх тестів у напрямку китайсько-англійського перекладу вона перевершила можливості перекладу ChatGPT і перевершила рівень Google Translate. **

Наприкінці серпня на літньому саміті форуму Yabuli 2023 Лю Цінфен, засновник і голова iFLYTEK, сказав у своїй промові: «**Можливості генерації та завершення коду великої моделі Xunfei Xunhuo перевершили ChatGPT та інші. Ця можливість наздоганяє **Логіка, алгоритм, система методів і підготовка даних поточної можливості коду готові, і все, що потрібно, це час і обчислювальна потужність».

У недавньому прес-релізі SenseTime зазначено, що в серпні цього року нова модель internlm-123b завершила навчання, а кількість параметрів зросла до 123 мільярдів. **У 51 загальновідомому наборі оцінок із загальною кількістю 300 000 запитань загальні результати тестування посіли друге місце у світі, перевершивши такі моделі, як gpt-3.5-turbo та нещодавно випущений llama2-70b від Meta Company. **

За даними Shangtang, **internlm-123 посів перше місце в 12 основних оцінках. Серед них показник agi у комплексному тесті набору оцінювання становить 57,8, перевершуючи gpt-4 і посідаючи перше місце; оціночний бал **knowledge commonsenseqa становить 88,5, що займає перше місце; internlm-123b бали в п’яти оцінках розуміння прочитаного Усі очолив список.

Крім того, він посів перше місце в п'ятірці оцінок аргументації.

Раніше цього місяця Zuoyebang офіційно випустила модель Galaxy власної розробки.

Zuoyebang сказав, що модель Galaxy досягла результатів у двох авторитетних тестах оцінки моделі великої мови C- та CMMLU. Дані показують, що Zuoyebang Galaxy Big Model посідає перше місце в категорії C- із середнім балом 73,7 бала; водночас вона займає місце в списку CMMLU Five-shot і Zero-shot оцінки із середніми оцінками 74,03 бала та 73,85 бала відповідно. По-перше, вона стала першою великою освітньою моделлю, яка посіла перше місце за середнім балом у двох авторитетних списках, згаданих вище.

Вчора Baichuan Intelligent анонсувала офіційний відкритий вихідний код, точно налаштований Baichuan 2-7B, Baichuan 2-13B, Baichuan 2-13B-Chat та їх 4-розрядну квантовану версію.

Ван Сяочуань, засновник і генеральний директор Baichuan Intelligent, сказав, що налагоджена модель чату в китайському полі, у середовищі запитань і відповідей або в середовищі підсумків, її фактична продуктивність перевершила модель закритого коду, таку як ChatGPT- 3.5. **

Сьогодні на Всесвітній цифровій екологічній конференції Tencent у 2023 році компанія Tencent офіційно випустила велику модель Hunyuan. Цзян Цзе, віце-президент Tencent Group, сказав, що можливості китайської мови великої моделі **Tencent Hunyuan перевищили GPT-3.5. **

Окрім самих розробників, деякі ЗМІ та команди також оцінили велику модель.

На початку серпня команда Шень Яна, професора та наукового керівника Школи журналістики та комунікацій Університету Цінхуа, опублікувала «Комплексний звіт про оцінку продуктивності великих мовних моделей». У звіті показано, що **загальна оцінка Baidu Wenxinyiyan за 20 показниками в трьох основних вимірах є лідером у країні та є кращою, ніж ChatGPT. Серед них розуміння китайської семантики займає високе місце, а деякі здібності китайської мови кращі, ніж GPT-4. **

У середині серпня деякі ЗМІ повідомили, що 11 серпня велика модель Xiaomi MiLM-6B з’явилася в списках оцінки великих моделей C- і CMMLU. На даний момент MiLM-6B посідає 10-е місце в списку C-total, 1-е місце за тим же рівнем параметрів і 1-е місце в китайській великій моделі CMMLU.

12 серпня Університет Тяньцзіня випустив «Звіт про оцінку великої моделі». Звіт показує, що **GPT-4 і Baidu Wenxinyiyan значно випереджають інші моделі з точки зору комплексної продуктивності, а оцінки обох не сильно відрізняються, на тому самому рівні. Wenxin Yiyan перевершив ChatGPT у більшості китайських завдань і поступово скоротив розрив із GPT-4. **

Наприкінці серпня деякі ЗМІ повідомили, що власно розроблена велика мовна модель Kuaishou «KwaiYii» почала внутрішнє тестування. В останньому китайському рейтингу CMMLU версія 13B KwaiYii-13B від Ruyi посіла перше місце як у п’ятикратній, так і в нульовій. Вона сильна в гуманітарних науках і темах, пов’язаних із Китаєм, із середнім балом понад 61 бал.

З наведеного вище видно, що хоча ці великі моделі претендують на перше місце в певному рейтингу або перевершують ChatGPT у певних аспектах, більшість із них добре працюють у деяких конкретних сферах.

Крім того, є деякі комплексні бали, які перевищують GPT-3,5 або GPT-4, але тест GPT ще в травні. Хто може гарантувати, що GPT не покращився за останні три місяці?

Ситуація OpenAI

Згідно зі звітом UBS Group у лютому, лише через два місяці після запуску ChatGPT кількість активних користувачів щомісяця перевищила 100 мільйонів наприкінці січня 2023 року, що зробило його найшвидше зростаючим споживчим додатком в історії.

Але розвиток ChatGPT йде не так гладко.

У липні цього року багато користувачів GPT-4 скаржилися, що порівняно з попередніми можливостями міркування продуктивність GPT-4 знизилася.

Деякі користувачі вказували на проблеми в Twitter і на онлайн-форумі розробників OpenAI, зосереджуючись на слабшій логіці, більшій кількості неправильних відповідей, неможливості відслідковувати надану інформацію, труднощах із виконанням інструкцій, забуваючи поставити дужки в базовому програмному коді, запам’ятовуючи лише більшість останні поради тощо.

У серпні в іншому звіті говорилося, що OpenAi може опинитися в потенційній фінансовій кризі та може збанкрутувати до кінця 2024 року.

Згідно зі звітом, OpenAI коштує близько 700 000 доларів на день лише для запуску свого сервісу штучного інтелекту ChatGPT. Зараз компанія намагається стати прибутковою за допомогою GPT-3.5 і GPT-4, але ще не отримала достатнього доходу, щоб стати беззбитковою.

Однак OpenAI також може мати новий поворотний момент.

Нещодавно OpenAI оголосив, що проведе свою першу конференцію для розробників у листопаді.

Хоча OpenAI заявила, що не випускатиме GPT-5, OpenAI заявила, що сотні розробників з усього світу приєднаються до команди OpenAI, щоб переглянути «нові інструменти» та обмінятися ідеями.

Це може означати, що ChatGPT досяг нового прогресу.

Як повідомляє The Paper, 30 серпня особа, знайома з цим питанням, повідомила, що очікується, що OpenAI отримає понад 1 мільярд доларів доходу в наступні 12 місяців за рахунок продажу програмного забезпечення ШІ та обчислювальної потужності для його роботи.

Сьогодні в іншому повідомленні ЗМІ говориться, що пізніше цього місяця Morgan Stanley запустить генеративний чат-бот зі штучним інтелектом, розроблений спільно з OpenAI.

Люди, які мають справу з банкірами Morgan Stanley, або багаті, або дорогі. Якщо цей генеративний чат-бот штучного інтелекту може змінити ситуацію на клієнтах Morgan Stan, це може стати величезним благом для OpenAI.

Настання ери штучного інтелекту неможливо зупинити. Що стосується того, хто в підсумку кращий, ви не можете покладатися тільки на себе, ви повинні дозволити користувачам забити. Ми також віримо, що вітчизняні великомасштабні моделі точно й зможуть наздогнати ChatGPT за специфічними можливостями та комплексними можливостями.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Поділіться

Прокоментувати

0/400

Немає коментарів

Тема
1/3
1Altcoin Season Coming?
24k Популярність
2Stablecoin Regulation Crackdown
9k Популярність
3Gate June Transparency Report
22k Популярність
4ETH Breaks Through $3,800
28k Популярність
5Institutions Buying Bitcoin
17k Популярність

Закріпити

карта сайту