一个人工智能数小时内提出4000个新颖研究想法!!
爱因斯坦曾经说过,提出问题比解决问题更重要。Idea或研究想法是科学研究的灵魂,这应该是科学研究圈的共识。当然研究思路也有高低,并不是越多越好,好的思路才是真正的灵魂。这种能力往往多见于科研团队中的领导者中。不过有最新研究发现,这种能力可能会被AI代替。这种研究给我的感觉是“擒贼先亲王。”每小时4000个的意思是不到1秒提出一个新想法。这也太厉害疗。我曾经有一种看法是,人工智能代替人类科学研究是一种趋势,但最后代替的应该是研究思路。现在看来,我这种看法仍然过于保守。研究思路可能更容易被超越。这就好像曾经我们天真地认为,人工智能下围棋很难超越人类一样。
研究人员开发了一个人工智能工具,在数小时内提出了4000个新颖的研究想法。
根据本月发表在arXiv上的一篇预印本文章,一个由人工智能(AI)驱动的想法生成器提出的独特研究想法比50位独立工作的科学家还多。https://arxiv.org/abs/2409.04109
科学网—能独立科学研究的AI来了! - 孙学军的博文 (sciencenet.cn)
这些人类和AI生成的想法都由评审员进行了评估,而这些评审员并不知道每个想法是由谁或什么创造的。尽管AI的建议在可行性上得分略低,但评审员认为AI生成的概念比人类撰写的更令人兴奋。
但是,科学家们指出这项尚未经过同行评审的研究有其局限性。它专注于一个研究领域,并要求人类参与者即兴提出想法,这可能阻碍了他们提出最佳概念的能力。
科学中的AI
人们正在积极探索如何使用大型语言模型(LLMs)来自动化研究任务,包括撰写论文、生成代码和搜索文献。但很难评估这些AI工具是否能像人类一样产生新的研究视角。这是因为评估想法是高度主观的,需要收集具有专业知识的研究人员仔细评估,研究合著者Chenglei Si说。“对我们来说,最好的方法是进行直接比较,”加州斯坦福大学的计算机科学家Si说。
这个项目为期一年,是评估大型语言模型(如ChatGPT背后的技术)能否产生创新研究想法的最大努力之一,耶路撒冷艾伦人工智能研究所的计算机科学家Tom Hope说。“还需要做更多这样的工作,”他说。
团队招募了100多名自然语言处理领域的研究人员——这是计算机科学的一个分支,专注于AI与人类之间的通信。49名参与者被要求在十天内基于七个主题之一发展和撰写想法。作为激励,研究人员为每个想法支付给参与者300美元,并为五个评分最高的想法提供1000美元奖金。
与此同时,研究人员使用Claude 3.5,一个由旧金山Anthropic开发的LLM,构建了一个想法生成器。研究人员提示他们的AI工具使用Semantic Scholar——一个AI驱动的文献搜索引擎——找到与七个研究主题相关的论文。在这些论文的基础上,研究人员然后提示他们的AI代理生成关于每个研究主题的4000个想法,并指导它对最具原创性的想法进行排名。
人工评审
接下来,研究人员将人类和AI生成的想法随机分配给79位评审员,他们对每个想法的新颖性、激动人心的程度、可行性和预期效果进行了评分。为了确保评审员不知道想法的创造者,研究人员使用了另一个LLM编辑两种类型的文本,以统一写作风格和语气,而不影响想法本身。
平均而言,评审员认为AI生成的想法比人类参与者撰写的更具原创性和更令人兴奋。然而,当团队仔细查看4000个LLM产生的想法时,他们发现只有大约200个真正独特的,这表明随着AI不断产出想法,它的原创性降低了。
当Si调查参与者时,大多数人承认他们提交的想法与他们过去产生的想法相比只是平均水平。
结果表明,LLM可能能够产生比现有文献中稍微更原创的想法,加拿大温哥华不列颠哥伦比亚大学的机器学研究者Cong Lu说。但它们是否能超越最具突破性的人类想法还是一个未知数。
另一个局限性是,该研究比较了经LLM编辑的书面想法,这改变了提交的语言和长度,西雅图华盛顿大学的计算社会学家Jevin West说。这种变化可能微妙地影响了评审员对新颖性的看法,他说。West补充说,让研究人员与一个可以在几小时内生成数千个想法的LLM竞争可能不是一个完全公平的比较。“你必须拿苹果跟苹果比,”他说。
Si及其同事计划将AI生成的想法与领先的会议论文进行比较,以更好地理解LLM与人类创造力的对比。“我们试图推动社区更深入地思考未来的样子,当AI能在研究过程中扮演更积极的角色时,”他说。
转载本文请联系原作者获取授权,同时请注明本文来自孙学军科学网博客。
链接地址:https://wap.sciencenet.cn/blog-41174-1452220.html?mobile=1
收藏