纽约AI初创Arthur发布开源工具Arthur Bench,评估比较大型语言模型性能

纽约的人工智能初创公司Arthur最近发布了一个名为Arthur Bench的开源工具,旨在帮助评估和比较大型语言模型(LLM)的性能。

d2b5ca33bd100754

据了解,Arthur Bench的主要功能是协助企业在特定用例下对不同语言模型的性能进行测试,并通过准确性、可读性、避险等多项指标进行全面比较。Adam Wenchel,Arthur公司的CEO兼联合创始人,在一份新闻声明中强调: “通过Bench,我们创造了一个开源工具,有助于团队更深入地了解不同LLM提供商之间的差异、不同的激励机制和增强策略,以及定制化的培训计划。”

Arthur Bench不仅提供了用于比较LLM性能的基本标准,还允许企业根据自身需求添加定制标准,因为该工具的开源性质使得用户可以根据实际情况进行调整。这一工具的推出加速了性能评估过程,并将学术指标转化为实际业务影响。

目前,一些金融服务公司已经开始采用Arthur Bench,以便快速生成投资论点和分析报告。另外,一些汽车制造商也在利用该工具创建能够迅速而准确地从设备手册中提取信息并回答客户问题的语言模型。

Axios HQ等媒体平台也已经开始在产品开发中应用Arthur Bench。Arthur公司对于Bench的开源使得任何人都可以免费使用和贡献,他们坚信开源的方式可以孕育出最出色的产品,并通过团队仪表盘实现商业化的目标。

除了发布Arthur Bench,Arthur还与亚马逊网络服务(AWS)和Cohere展开合作,共同举办黑客马拉松活动,鼓励开发人员为Arthur Bench构建新的性能指标。这一合作旨在推动工具的不断发展和完善。

© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容