Command Palette
Search for a command to run...
30 分钟整合 550 篇文献,生物学多智能体 Robin 跑通自主科研闭环,挖掘 dAMD 候选疗法

随着生物检测、扰动实验与计算建模技术不断成熟,生命科学研究的精度与规模正在迅速提升。然而,与高速增长的数据生产能力相比,科研体系在知识整合与科学推理层面的智能化能力却明显滞后。海量有效信息分散在论文、数据库与实验结果之中,依赖人工梳理不仅效率低,也难以跨领域关联已有结论,导致许多已经被验证的发现无法及时转化为新的研究思路或临床方案。
这种「知识碎片化」问题,在「老药新用」领域尤为典型。无论是达拉非尼后来被发现具有耳保护作用,还是氯胺酮拓展出新的治疗价值,都经历了数年乃至数十年的转化滞后,反映出当前科研流程在知识发现与整合上的瓶颈。
近年来,大语言模型(LLM)凭借海量语料训练所形成的检索、归纳与逻辑推理能力,开始在生命科学研究中展现潜力。结合微调、检索增强生成(RAG)以及多智能体协作等技术后,这类模型已经能够在文献分析、药物预测、科学假设生成等单项任务中达到甚至超过人工水平。然而,现有 AI 工具大多仍停留在科研流程的局部环节,难以真正贯通「假设生成—实验设计—数据分析—结果迭代」的完整链条,因此尚不能实现真正意义上的闭环智能科研。
针对这一问题,来自美国旧金山 FutureHouse 、英国牛津大学以及美国福特汉姆大学的联合团队提出了 Robin 生物学多智能体系统。这是首个同时融合科学假设生成与实验数据分析能力、并实现连续闭环工作流的生物医学智能系统。
Robin 通过文献检索智能体与数据分析智能体的协同配合,能够半自主完成疾病机制解析、候选药物筛选、实验复盘以及假设迭代。研究团队以干性年龄相关性黄斑变性(dAMD)这一治疗手段匮乏、临床需求迫切的疾病为应用场景,验证了 Robin 在智能化药物筛选中的能力,为人工智能驱动的新药研发与老药新用提供了新的实践范式。
相关研究成果以「A multi-agent system for automating scientific discovery」为题,已发表于 Nature 。
研究亮点:
* Robin 系统首次将文献假设生成与生物实验数据分析整合为连续闭环工作流
* Robin 可适配多学科科研发现,在治疗药物研发领域仅需输入目标疾病名称,系统即可自动筛选疾病关键病理机制、匹配体外实验模型、提出候选药物、完成实验数据分析并迭代更新候选分子
* 以 dAMD 为研究范例,Robin 首次提出 ROCK 抑制剂通过增强 RPE 吞噬功能治疗干性黄斑变性的全新策略

查看论文:
https://www.nature.com/articles/s41586-026-10652-y
数据集:覆盖公开文献、生信基准与实验数据
该研究构建了由公开文献数据、通用生物信息学基准数据以及自主实验数据组成的三层数据体系,覆盖文献文本、生物信息学分析任务、细胞检测与转录组测序等多种类型,基本囊括了 AI 药物研发流程中的核心数据场景。
首先,研究人员整合了 551 篇与 dAMD 相关的中英文科研文献,作为系统进行科学假设生成的知识基础。其中包括 151 篇疾病机制研究,以及 400 篇关于视网膜色素上皮细胞吞噬功能及其疾病关联的研究论文。这部分文献不仅用于疾病机制梳理,也为体外实验模型筛选与老药新用候选药物生成提供理论依据,是 Robin 开展知识挖掘的核心来源。
其次,研究人员采用通用生物信息学基准数据集 BixBench,对系统的数据分析能力进行量化评测。研究从中筛选出 170 道与药物研发相关的测试题,涵盖转录组分析、基因组学、功能富集分析、序列分析以及统计检验等多种任务类型。所有试题均配套标准化数据包、标准答案与干扰项,可用于系统评估智能体在真实生信场景中的适配能力与稳定性。
此外,研究人员还构建了自主实验数据集,为模型迭代与实验验证提供真实支撑。数据包括 ARPE-19 细胞与人原代视网膜色素上皮干细胞的流式细胞术检测结果、多组药物处理后的 RNA-seq 转录组数据,以及细胞毒性、免疫细胞化学染色、 VEGF 酶联免疫吸附实验等结果。其中,人源细胞样本来自纽约视力修复眼库,均为 60 岁以上、无眼部疾病供体来源的视网膜色素上皮干细胞,从而保证了实验数据的真实性与临床参考价值。
Robin:面向生物医学科学发现的多智能体系统
Robin 基于 Aviary 框架并运行于 Jupyter Notebook 环境中,与传统仅执行单一任务的科研 AI 工具不同,其首次实现了「科学假设生成—实验分析—结果反馈—假设迭代」的连续闭环工作流,可半自主完成疾病机制研究、候选药物筛选以及实验数据解析等完整科研流程。

系统采用「三智能体」核心架构,由两个文献智能体与一个数据分析智能体协同组成。
其中,两个文献智能体 Crow 与 Falcon 主要负责文献知识挖掘与科学假设生成,均基于 OpenAI o4-mini 模型运行。 Crow 负责疾病相关文献检索、病理机制梳理、实验模型筛选以及候选药物初步挖掘,能够系统整合碎片化研究并提炼关键科学结论;Falcon 则承担深度验证与优化任务,对 Crow 提出的候选方案进一步分析其药理机制、理论依据与潜在局限,并校正文献中的虚假引用,从而降低大模型「幻觉」问题。
第三个核心模块 Finch 则是专门面向生物实验数据的分析智能体。与传统依赖固定分析脚本的工具不同,Finch 采用生成式推理方式,可根据实验数据特征实时生成并执行 Python 或 R 代码,自适应完成流式细胞术分析、 RNA-seq 差异表达分析以及基因功能富集等任务。这意味着系统不再局限于预定义分析流程,而能够像研究人员一样动态调整分析策略。
为了降低大模型在数据分析中的随机性,Robin 进一步设计了「多轨迹分析+共识整合」机制。系统可同时启动 8 条独立的 Finch 分析轨迹,每条轨迹独立完成代码生成、数据分析与结果输出,最终再通过元分析方式整合多轨迹结论,从而减少单轮分析波动与参数差异带来的偏差,提升结果稳定性。
在评估机制上,Robin 还引入了双层大模型评审体系。系统以 Anthropic 的 Claude 3.7 Sonnet 作为核心评审模型,并结合 Google Gemini 2.5 Pro 对齐领域专家偏好,通过两两比较与锦标赛排序方式,对候选机制、实验模型和药物方案进行层级评估。当待评估方案较少时采用全量配对,数量较大时则进行随机抽样对比,并利用布拉德利—特里—卢斯模型完成权重排序,在保证评估精度的同时控制计算成本。
此外,为确保分析过程的可复现性,所有 Finch 任务均运行于独立 Docker 容器环境中,并预装完整的生物信息学工具链。研究团队还通过多轮 Prompt 工程优化与工作流简化,将复杂的原始流程压缩为稳定、易用的 Jupyter 工作流,使系统在科研场景中的可操作性进一步提升。
Robin 发现利帕舒地尔提升吞噬能力 1.89 倍
该研究以 dAMD 为核心应用场景,围绕 Robin 的假设生成能力、数据分析能力、架构有效性以及真实药物研发效率设计了多组验证实验。
核心实验聚焦于候选药物筛选与作用机制验证。 Robin 首先通过文献分析梳理出 10 项 dAMD 关键致病机制,并将「增强视网膜色素上皮细胞吞噬功能」确定为核心治疗方向。在首轮筛选中,系统提出 30 种候选药物,研究人员从中选取艾塞那肽、芬戈莫德、 Y-27632 等药物开展实验,并以已知有效药物 MFGE8 作为阳性对照。

随后,Robin 进一步自主提出转录组测序实验方案,并由 Finch 完成数据分析。结果发现,Y-27632 能够通过调控肌动蛋白骨架、自噬通路以及脂质转运关键基因 ABCA1,实现视网膜色素上皮细胞的转录组重编程,揭示了此前未被明确认识的作用机制。
为了进一步提升药物筛选的临床相关性,研究随后开展第二轮药物迭代实验。 Robin 新增 10 种候选药物,并发现已上市青光眼药物利帕舒地尔的效果优于 Y-27632,可将细胞吞噬能力提升约 1.89 倍。研究团队随后采用更接近真实生理环境的人原代视网膜色素上皮干细胞进行复筛,结果再次验证了利帕舒地尔与 Y-27632 的剂量依赖性效果,同时显示利帕舒地尔不存在明显细胞毒性,具备较高的临床转化潜力。

值得注意的是,Robin 还额外发现昼夜节律调控药物 KL001 同样具备增强吞噬功能的潜力,为 dAMD 治疗提供了全新的研究方向。后续转录组验证进一步证实,利帕舒地尔能够稳定上调 ABCA1 表达,从而明确了其核心作用通路。

在与通用 AI 科研系统的竞品对比中,研究团队采用相同指令调用 OpenAI Deep Research Agent,其生成的 17 种候选药物均未表现出吞噬增强活性,也未识别出 ROCK 抑制这一核心机制,进一步凸显了 Robin 在生物医学细分场景中的适配优势。
此外,在 BixBench 基准测试中,Finch 智能体整体准确率达到 22.8±1.7%,显著高于纯大语言模型的 1.6±1.2% 。其中,生物统计任务准确率达到 47.9±1.5%,基础流式细胞术分析准确率达到 100%,RNA-seq 分析准确率达到 86% 。结果表明,专门设计的科研智能体框架能够显著提升通用大模型在生物数据分析中的实际能力,但复杂、多步骤生信任务仍存在进一步优化空间。
在效率与成本方面,Robin 同样展现出明显优势。研究统计显示,系统单次完整科研工作流平均成本仅约 10.76 美元;同时,Robin 能够在 30 分钟内完成 551 篇文献的整合分析,而相同工作量的人工处理通常需要超过 800 小时。整体来看,系统单轮完整科研流程耗时不足 2 小时,相比传统人工科研流程,效率提升约 200 倍。
写在最后
Robin 的意义并不局限于发现了几个潜在候选药物。更重要的是,它首次展示了人工智能在生命科学中从「辅助工具」向「半自主科研系统」演进的可能性。当然,这类系统距离真正意义上的「自主科学家」仍有距离。复杂实验设计、跨尺度生物机制理解以及结果可解释性等问题,依然高度依赖领域专家参与。但 Robin 的出现至少说明,AI 已经不再只是帮助科研人员「提高效率」的工具,而正在逐步具备参与科学发现本身的能力。








