Ai快讯 近日,OpenAI在十周年之际发布了GPT-5.2系列模型,官方数据显示其在GDPval等专业基准测试中超越人类专家,是迄今为止在“专业知识工作方面”表现最好的模型。据OpenAI官方披露,GPT-5.2在多领域实现技术突破:GDPval测试中覆盖44个职业的任务表现70.9%优于顶尖专家,SWE-bench Pro编程测试获55.6%的SOTA成绩,还将幻觉率较GPT-5.1降低38%。 SimpleBench常识推理测试显示,GPT-5.2得分低于Anthropic发布的Claude Sonnet 3.7,甚至在“garlic有几个r”的基础问题上反复出错——有用户三次测试仅一次答对,而谷歌的Gemini 3.0等竞品均稳定通关。该测试旨在评估大模型在处理普通人认为简单,但对机器而言充满挑战的逻辑推理任务的能力。前AWS总经理Bindu Reddy直言,“不值得从GPT-5.1升级”。(界面)
(AI撰文,仅供参考)
重要提示: 以上内容由AI根据公开数据自动生成,仅供参考、交流、学习,不构成投资建议。如不希望您的内容在本站出现,可发邮件至ljcj@leju.com或点击【联系客服】要求撤下。未经允许,任何单位或个人不得在任何平台公开传播使用本文内容。