要回答科学问题,23个AI模型中的哪个更好?
日期:2025-07-13 10:08 浏览:
该报道说,基准测试平台最近推出,Chatgpt研发团队开发的人工智能(AI)O3模型已经是在许多领域回答科学问题的最佳AI工具。根据大自然的说法,美国人工智能研究所(AI2)在美国开发的Sciarena平台对基于23种大语言模型的科学问题的答案进行了排名。 102个研究人员投票决定了答案的质量。经过超过13,000票之后,美国O3开发的OpenAI模型此前曾在自然科学,医学健康,工程以及人文科学和社会科学领域的问题上排名。中国Deptseek-R1公司的深层模型是自然科学问题的第二个,在工程学中排名第四。 Google的Gemini-1.5-P Modelro在自然科学问题中排名第三,在工程和医疗保健中排名第五。 AI2研究人员Arman Cohan说用户对O3模型的偏好可能来自以下事实:该模型在提及文献时通常会提供许多细节,并且可以仔细地做出响应。但是他指出,目前尚不清楚为什么不同模型的性能不同。诸如不同训练数据和模型优化目标之类的因素可以在一定程度上解释这种差异。 Sciarena是最新的开发平台,用于评估AI模型在特定活动中的性能,也是使用众包反馈的科学活动表现的第一批排名之一。澳大利亚国立大学的拉胡尔·肖姆(Rahul Shome)说:“ Sciarena鼓励人们仔细研究已经协助大型语言模型的文学活动。”为了排名23个大型语言模型,Sciarena平台要求研究人员提出科学问题。此后回答了两个随机选择的模型,这些答案将得到语义学者文学的支持,另一种AI的研究开发研究。这是确定哪种模型具有更好解决方案的用户,两个模型具有可比的解决方案,或者两个模型的性能较差。排名。该公司表示,它通常会更新排名。澳大利亚悉尼大学的乔纳森·库默菲尔德(Jonathan Kummerfeld)表示,这将帮助研究人员了解其领域的最新文献,并“发现他们可能没有错过的研究”。他补充说,该平台还有可能推动AI模型的变化,因为该等级提供了一种透明的衡量开发方式。但是,该平台可能存在一个潜在的问题,尤其是用户交互的希望。作为回应,科汉说,该平台是免费的,包括最先进的模型,这是对用户的激励。“阅读大型语言模型生成的抽象论文并不能代替阅读论文本身,”因为这可能是相反的论文,这些术语可以是错误地解释,或者可能无法准确答复。 (Wang Fang)