Menurut laporan TechWeb pada 19 September, sistem evaluasi otoritatif domestik Flag_ (Libra) mengumumkan hasil evaluasi model besar terbaru dalam daftar bulan September. Berdasarkan kumpulan data evaluasi subjektif CLCC v2.0 terbaru, Flag_ (Libra) daftar September berfokus pada evaluasi 7 model dialog sumber terbuka yang menjadi populer baru-baru ini. Dilihat dari hasil keseluruhan, Baichuan2-13 b-chat, Qwen-7 b-chat, dan Baichuan2-7 b-chat termasuk yang terbaik, dengan tingkat akurasi melebihi 65%. Pada daftar model dasar, hasil evaluasi obyektif Baichuan 2, Qwen, InternLM, dan Aquila semuanya melampaui model Llama dan Llama2 pada level parameter yang sama. Dalam daftar model SFT, Baichuan 2-13 B-chat, YuLan-Chat-2-13 B, dan AquilaChat-7 B berada di peringkat tiga teratas. Dalam kedua daftar evaluasi objektif, Baichuan 2 menunjukkan kinerja yang sangat baik, dan pengujian model dasar melampaui Llama 2 di bidang bahasa Mandarin dan Inggris. Dilaporkan bahwa Flag_ (Libra) adalah sistem evaluasi model besar dan platform terbuka yang diluncurkan oleh Institut Penelitian Kecerdasan Buatan Zhiyuan Beijing. Hal ini bertujuan untuk menetapkan tolok ukur, metode, dan perangkat evaluasi yang ilmiah, adil dan terbuka untuk membantu peneliti dalam mengevaluasi model dasar dan secara komprehensif Kinerja algoritma pelatihan. Flag_ Sistem evaluasi model bahasa besar saat ini mencakup 6 tugas evaluasi utama, hampir 30 kumpulan data evaluasi, dan lebih dari 100.000 pertanyaan evaluasi.