Згідно зі звітом TechWeb 19 вересня, вітчизняна авторитетна система оцінки Flag_ (Libra) оголосила результати оцінки останніх великих моделей у вересневому списку. На основі останнього набору даних суб’єктивної оцінки CLCC v2.0 Вересневий список Flag_ (Libra) фокусується на оцінці 7 моделей діалогу з відкритим кодом, які нещодавно стали популярними. Судячи із загальних результатів, Baichuan2-13 b-chat, Qwen-7 b-chat і Baichuan2-7 b-chat є одними з найкращих із показниками точності понад 65%. У списку базових моделей результати об’єктивної оцінки Baichuan 2, Qwen, InternLM і Aquila перевершили моделі Llama і Llama2 того самого рівня параметрів. У списку моделей SFT Baichuan 2-13 B-chat, YuLan-Chat-2-13 B і AquilaChat-7 B займають першу трійку. В обох списках об’єктивної оцінки Baichuan 2 показав чудову продуктивність, а тест базової моделі перевершив Llama 2 як у китайській, так і в англійській мовах. Повідомляється, що Flag_ (Libra) — це велика система оцінки моделей і відкрита платформа, запущена Пекінським дослідницьким інститутом штучного інтелекту Чжиюань. Вона спрямована на встановлення наукових, справедливих і відкритих критеріїв оцінки, методів і наборів інструментів, щоб допомогти дослідникам у комплексній оцінці основних моделей і Виконання навчальних алгоритмів. Позначка_ Велика система оцінювання мовної моделі наразі включає 6 основних завдань оцінювання, майже 30 наборів даних оцінювання та понад 100 000 оціночних питань.