Ai快讯 财联社9月26日消息,当地时间周四(9月25日),人工智能(AI)研究公司OpenAI发布了一项名为GDPval的新基准测试,旨在比较其AI模型与各行业专业人士的工作表现,评估OpenAI的系统距离在经济价值工作上超越人类有多近,而经济价值工作是OpenAI开发通用人工智能(AGI)的关键环节。
OpenAI周四宣称,其GPT - 5模型以及竞争对手Anthropic公司的Claude Opus 4.1“已经接近行业专家的工作质量”。不过,这并不意味着OpenAI的模型会立刻取代人类工作。尽管一些CEO预测AI在几年内就会取代人类,但OpenAI承认GDPval目前只涵盖人们实际工作中有限的一部分任务,这只是该公司衡量AI向这一里程碑迈进的最新方式之一。
GDPval基于美国GDP贡献最大的九个行业,包括医疗、金融、制造业和政府等领域,测试覆盖了44种职业,从软件工程师到护士再到记者。在首个版本GDPval - v0中,OpenAI邀请资深专业人士对比AI生成的报告与其他专业人士的成果,并挑选出更优者。例如,要求投行人员为“最后一公里配送行业”制作竞争格局分析,并与AI生成的报告进行对比,随后OpenAI将AI模型在全部44个职业中对抗人类报告的“胜率”进行平均计算。
结果显示,GPT - 5 - high(高算力版本GPT - 5)在40.6%的情况下被评为优于或与行业专家持平,而Anthropic的Claude Opus 4.1模型则在49%的任务中被评为不输于行业专家,表现超过了OpenAI的模型。OpenAI解释称,Claude得分更高部分原因是其倾向于生成更美观的图表,而非纯粹性能更优。
需要说明的是,大多数职业的工作远不止提交研究报告,而这却是GDPval - v0所测试的全部内容。OpenAI承认这一点,并计划在未来开发更全面的测试,涵盖更多行业和交互式工作流程。
尽管如此,OpenAI仍认为GDPval的进展具有重要意义。OpenAI首席经济学家Aaron Chatterji在接受采访时表示,GDPval的测试结果表明,这些岗位上的人们可以利用AI模型节省时间,从而专注于更有意义的工作。OpenAI评估负责人Tejal Patwardhan表示对GDPval的进步速度感到鼓舞,指出约15个月前发布的GPT - 4o模型得分仅为13.7%(胜出或持平人类),而GPT - 5的成绩几乎提高了三倍,她预计这一趋势还会继续。
(AI撰文,仅供参考)
来源:瑞财经
重要提示:本文仅代表作者个人观点,并不代表乐居财经立场。 本文著作权,归乐居财经所有。未经允许,任何单位或个人不得在任何公开传播平台上使用本文内容;经允许进行转载或引用时,请注明来源。联系请发邮件至ljcj@leju.com,或点击【联系客服】