0次浏览 发布时间:2025-06-18 08:31:00
6月18日,红杉中国正式开源其AI基准测试工具xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch。红杉中国表示,未来将基于大模型和AI Agent的发展情况不断动态更新评测集,并且采用“黑白盒”机制,既保证xbench的发展可以服务更多的大模型和Agent开发者,同时尽力避免静态评测集经常出现的过拟合问题,确保xbench的长期有效。
巴基斯坦官员:全球治理倡议为完善全球治理提供中国方案
截至7月末境内股票市场共有上市公司5427家
国家不会忘记|雪峰山上的传奇瑶族“嗅枪队”
执多彩画笔 绘质量童梦—— 第九届“质量安全”全国少年儿童绘画活动福建主场宣传活动侧记
参加今年纪念活动的外方嘉宾有三方面特点:级别高、代表性强、参与面广