Selon le rapport de TechWeb du 19 septembre, le système d'évaluation national faisant autorité Flag_ (Libra) a annoncé les résultats de l'évaluation des derniers grands modèles de la liste de septembre. Basée sur le dernier ensemble de données d'évaluation subjective CLCC v2.0, la liste Flag_ (Libra) de septembre se concentre sur l'évaluation de 7 modèles de dialogue open source qui sont devenus populaires récemment. À en juger par les résultats globaux, Baichuan2-13 b-chat, Qwen-7 b-chat et Baichuan2-7 b-chat sont parmi les meilleurs, avec des taux de précision supérieurs à 65 %. Dans la liste des modèles de base, les résultats objectifs de l'évaluation de Baichuan 2, Qwen, InternLM et Aquila ont tous dépassé les modèles Llama et Llama2 du même niveau de paramètres. Dans la liste des modèles SFT, Baichuan 2-13 B-chat, YuLan-Chat-2-13 B et AquilaChat-7 B se classent parmi les trois premiers. Dans les deux listes d'évaluation objective, Baichuan 2 a montré d'excellentes performances et le test du modèle de base a surpassé Llama 2 dans les domaines chinois et anglais. Il est rapporté que Flag_ (Libra) est un grand système d'évaluation de modèles et une plate-forme ouverte lancée par l'Institut de recherche sur l'intelligence artificielle Zhiyuan de Pékin. Il vise à établir des références, des méthodes et des outils d'évaluation scientifiques, équitables et ouverts pour aider les chercheurs à évaluer de manière globale les modèles de base et Performance des algorithmes de formation. Flag_ Le grand système d'évaluation de modèles de langage comprend actuellement 6 tâches d'évaluation majeures, près de 30 ensembles de données d'évaluation et plus de 100 000 questions d'évaluation.