来源:PaperWeekly 本文约2300字,建议阅读9分钟 本文介绍了最新发布的中文自然语言评估指数—智源指数。
作为深度学习研究的重要组成部分,评测 benchmark 扮演着评估模型性能、指导研究方向的重要角色。在自然语言处理中,针对英文任务的评测 benchmark 有 GLUE,SuperGLUE,针对中文任务的有 CLUE,这些都为自然语言处理的迅速发展奠定了基础,但随着预训练模型,尤其是大模型的不断涌现,这些评测benchmark的指引作用越来越小,在很多榜单上模型的性能已超越所谓的“人类水平”,但模型的语言理解与应用能力相比人类的认知水平仍有较大差距。那么,如何来准确标定这种差距,并在未来的发展中继续发挥评测 benchmark 的指导作用,成为了一个亟需解决的核心问题。
词句级语言理解能力:中文分词、词性标注、古诗匹配、命名实体识别、实体关系抽取; 篇章级语言理解能力:幽默检测、故事完形填空、阅读理解; 信息获取及问答能力:反向词典、开放域问答、文档检索; 语言生成能力:摘要生成、数据到文本生成; 对话交互能力:知识驱动的对话生成; 多语言能力:机器翻译、跨语言摘要; 数学推理能力:数值计算。
任务级别性能评估:对指定任务下的数据集模型结果做归一化平均; 能力指标性能评估:对指定能力,不同任务下的模型结果进行平均; 全局指标性能评估:对所有能力下的模型结果进行平均。
参考资料
[1] CUGE: A Chinese Language Understanding and Generation Evaluation Benchmark. https://arxiv.org/pdf/2112.13610.pdf
[2] 智源指数: http://cuge.baai.ac.cn/#/
[3] GLUE: https://gluebenchmark.com/
[4] SuperGLUE: https://super.gluebenchmark.com/
[5] CLUE: https://chineseglue.github.io/index.html
[6] AI and the Everything in the Whole Wide World Benchmark
编辑:王菁
校对:林亦霖