5月9日消息,阿里巴巴开源了 ZeroSeARch 大模型,官方称其无需搜索即可激励搜索能力。
附阿里对该模型的介绍大意如下:
我们提出了一种名为 ZeroSearch 的强化学习框架,通过不依赖真实搜索引擎来提升大型语言模型的搜索能力。
在监督式微调的基础上,我们将 LLM 转化为一个能够生成相关或噪声文档的检索模块,响应查询。
为了更好地激发模型的推理能力,我们引入了课程化展开机制,通过让模型面对越来越复杂的检索任务,逐步培养其思考能力。
我们在多个领域内外的数据集上进行了大量实验,结果显示,ZeroSearch 在没有任何 API 费用的情况下,优于基于真实搜索引擎的模型。
此外,它能够很好地在不同规模的基础型和指令微调型 LLM 上泛化,并支持多种强化学习算法。
官方披露的信息显示,在7大问答数据集评测中,其性能与谷歌搜索相当甚至实现超越,且成本降低87.93%。
通过 SerpAPI 使用谷歌搜索训练64,000个查询的费用大约为586.70美元,而使用14B 参数的模拟 LLM 在四个 A100GPU 上训练仅需70.80美元。
目前,ZeroSearch 已在 Qwen-2.5、LLaMA-3.2等多个主流模型家族中完成验证。研究团队已将全部代码、数据集及预训练模型开源至 GitHub 和 Hugging Face。
开源地址:https://github.com/Alibaba-nlp/ZeroSearch