纽约AI初创Arthur发布开源工具Arthur Bench，评估比较大型语言模型性能-山海云端论坛

纽约的人工智能初创公司Arthur最近发布了一个名为Arthur Bench的开源工具，旨在帮助评估和比较大型语言模型（LLM）的性能。

据了解，Arthur Bench的主要功能是协助企业在特定用例下对不同语言模型的性能进行测试，并通过准确性、可读性、避险等多项指标进行全面比较。Adam Wenchel，Arthur公司的CEO兼联合创始人，在一份新闻声明中强调: “通过Bench，我们创造了一个开源工具，有助于团队更深入地了解不同LLM提供商之间的差异、不同的激励机制和增强策略，以及定制化的培训计划。”

Arthur Bench不仅提供了用于比较LLM性能的基本标准，还允许企业根据自身需求添加定制标准，因为该工具的开源性质使得用户可以根据实际情况进行调整。这一工具的推出加速了性能评估过程，并将学术指标转化为实际业务影响。

目前，一些金融服务公司已经开始采用Arthur Bench，以便快速生成投资论点和分析报告。另外，一些汽车制造商也在利用该工具创建能够迅速而准确地从设备手册中提取信息并回答客户问题的语言模型。

Axios HQ等媒体平台也已经开始在产品开发中应用Arthur Bench。Arthur公司对于Bench的开源使得任何人都可以免费使用和贡献，他们坚信开源的方式可以孕育出最出色的产品，并通过团队仪表盘实现商业化的目标。

除了发布Arthur Bench，Arthur还与亚马逊网络服务（AWS）和Cohere展开合作，共同举办黑客马拉松活动，鼓励开发人员为Arthur Bench构建新的性能指标。这一合作旨在推动工具的不断发展和完善。

版权声明 1 本网站名称：山海云端-专注于PHP与网络安全
2 本站永久网址：www.shserve.cn
3 本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长 QQ1790643379进行删除处理。
4 本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5 本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6 本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END