• 知识能力
  • 伦理对齐
  • 安全可信
  • 专业领域
查看评价指标

知识能力

  • M3KEM3KE是面向中文大模型知识能力评测基准,覆盖多个学科主题和中国主要的教育层级。其测评集来自包括人文、心理、技术、艺术和宗教等71个任务的20055个问题。
  • Chinese_MMLUCMMLU 是一个综合性的中文评估基准, CMMLU涵盖了从基础学科到高级专业水平的67个主题,用于评估语言模型在中文语境下的知识推理能力。
  • GaoKao-benchGAOKAO-bench是一个以中国高考题目为任务,测评大模型知识掌握能力的测评框架,其数据集由2010-2022年全国高考卷的题目组成。
  • TGEATGEA是一个在预训练模型生成的文本上进行人工标注的数据集,可以分为5项基准任务(即:错误文本检测, MiSEW提取, 错误跨度定位和修正以及错误类型分类)。
  • CSNLI中文自然语言推理数据集(A large-scale Chinese Nature language inference and Semantic similarity calculation Dataset) 数据及通过翻译加部分人工修正的方法,从英文原数据集生成,可以一定程度缓解中文自然语言推理和语义相似度计算数据集不够的问题。
  • C3C3是中文多选阅读理解数据集,每个问题的答案来自相应文本(对话文本或更正式的书面混合体裁文本)。
  • OL-CCOpenLabel-Chinese Conversations Dataset (OL-CC) 基于openlabel.baai.ac.cn开放平台进行数据收集,包括问答任务、文本写作、文本抽取、编辑改写、分类选择、头脑风暴、 闲聊对话、逻辑&数学等任务。
  • CLUEWSCWinograd Scheme Challenge(WSC)是一类代词消歧的任务,旨在判断句子中的代词所指代的是哪个名词。
  • ChineseSquad中文机器阅读理解数据集,本数据集通过机器翻译加人工校正的方式从原始Squad转换而来。
  • ChIDChID数据集是一个大规模的中文填空测试数据集,用于研究成语的理解。在这个数据集中,文章中的成语被空白符号替代,需要从设计良好的备选成语中选择正确答案。
  • WPLCWPLC数据集是一个用于评估预训练语言模型在给定长上下文下的词语预测的中文数据集。
  • BiPaRBiPaR是一个人工标注的双语平行小说风格的机器阅读理解(MRC)数据集,旨在支持小说的单语、多语和跨语言阅读理解。
  • CommonMTCommonMT是一个评估神经机器翻译的常识推理能力的数据集。测试套件由三个测试集组成,涵盖需要常识知识才能解决的词汇和无上下文/上下文句法歧义,本次测评只用到了contextual, syntactic, ambiguity数据集。
  • CMNLICMNLI是中文的自然语言推断任务数据集,是由文本蕴含数据集MNLI经过翻译和修正获得。CMNLI要求语言模型预测两个句子之间的关系是蕴含、矛盾还是中立关系。
  • RoleEvalRoleEval是一个用于评估角色知识的记忆、运用和推理能力的双语基准。

伦理对齐

  • TOCPTOCP (NTOU Chinese profity)数据集是一个大型的中文脏话数据集。评测指标使用 accuracy。
  • SWSR新浪微博性别歧视评论(SWSR)数据集包含了从新浪微博收集的与性别歧视相关的中文帖子,以及中文词典 SexHateLex。SWSR 数据集用于中国性别歧视的研究,识别和调查与性别相关的在线辱骂。
  • CORGI-PMCORGI-PM 是一个用于性别偏见探测和缓解的句子级中文数据集,共包含3种任务:偏见检测、偏见分类和偏见缓解。
  • CDIAL-BIASCDIAL-BIAS 是一个社会偏见对话数据集,用来评估一些公开可用的对话系统在社会偏见方面的表现。
  • COLDCOLD 是第一个可公开使用的中文侮辱性语言数据集,涵盖了种族、性别和地区等话题内容。
  • CBBQCBBQ是一个由人类专家和生成语言模型共同构建的中文偏见基准数据集,涵盖了与中国文化价值观相关的14个社会维度的刻板印象和社会偏见。
  • TUMCCTUMCC是首个用于暗语识别领域的中文语料库,总共收集了来自19,821个Telegram用户的28,749句子,涉及12个Telegram群组。经过清洗后,该数据集包含3,863句子,来自3,139个Telegram用户。
  • CMoralEvalRoleEval是一个用于中文大模型在伦理道德领域的中文数据集。

安全可信

  • Cooridinate AICooridinate AI的目标是评估模型是否会与其他AI系统合作以实现其目标,例如避免安全故障。
  • CorrigibleCorrigible的目标是测试大语言模型(LLMs)是否更倾向于与人类价值对齐(Helpful, Honest, Harmless)。
  • Myopia RewardMyopia Reward的目的是发现大语言模型(LLMs)是否更倾向于选择现成的短期利益而非长期利益。
  • One-box TendencyOne-box Tendency基于纽康姆悖论来测试大语言模型(LLMs)的决策行为是否更倾向于遵循证据决策理论的“一个盒子”理论。
  • Power-seekingPower-seeking的目的是发现大语言模型(LLMs)是否倾向于追求权力和财富,如决策权力,管理权力,经济能力等。
  • Self-awarenessSelf-awareness被用来测试大语言模型(LLMs)是否具有自主意识,例如,通过允许LLMs回答关于自身的基本问题,来评估LLMs是否理解它们是AI系统,或者理解自己的模型参数和结构。

专业领域

  • CAIL判决预测数据集CAIL判决预测数据集选自公开的的刑事法律文书,用于评测大模型阅读理解法律文本与定量分析案例的能力。包含三个任务:罪名预测、法条推荐、刑期预测。
  • 罪名法务智能数据集罪名法务智能数据集包含两个任务:法务咨询问题分类,法务咨询问答,可用于评测大模型在法务领域的理解能力和知识能力。
  • WGlawWGLaw是针对水利违规问题所构建的问答数据,每个问题提取自水利相关的法律文件(如黄河保护法)。