广州GDYF电脑回收公司:蚂蚁集团公布DevOps领域大模型评测基准DevOps-Eval
时间:2023-11-10 10:54 来源:
![]() 广州二手旧电脑回收网 11月2日 报道:蚂蚁集团协同北京大学发表了面向 DevOps 领域的大语言模型评测基准 ——DevOps-Eval。 该评测基准囊括了计划、编码、构建、测验、发表、部署、运维和监控等8个种类的选择题,共计4850道题目。 此外,还针对 AIOps 任务做了细分,并填补了日志解析、时序极度尝试、时序分类和根因分析等任务。 刻下,DevOps-Eval已发表了第一期的评测榜单,评测了 OpsGpt、Qwen、Baichuan 和 Internlm 等开源大语言模型。DevOps-Eval 的评测方式包罗 Zero-shot 和 Few-shot,评测结果发现各模型得分相差不大。 将来,DevOps-Eval 将持续优化,丰盛评测数据集,重点关注 AIOps 领域,并增添更多的评测模型。 GitHub 地址: https://github.com/codefuse-ai/codefuse-devops-eval HuggingFace 地址: https://huggingface.co/datasets/codefuse-admin/devopseval-exam (投诉) (责任编辑:admin) |