当前位置：首页>深圳>农科院深圳基因组所发表基因组育种AI智能体BOLE

农科院深圳基因组所发表基因组育种AI智能体BOLE

2026-06-19 08:13:15

近日，中国农业科学院深圳农业基因组研究所李奎等研究团队在bioRxiv上发表题为“BOLE: a knowledge-enhanced multi-agent AI framework for autonomous genomic breeding analysis”的论文。这篇论文介绍了 BOLE（伯乐），一个面向基因组育种智能分析的知识增强型多智能体AI框架，能够将用户高级分析意图自动转化为可验证的执行工作流，实现了全基因组关联分析、遗传力估计、种质评价与基因组选择等核心育种任务的端到端自主分析，显著降低了基因组育种的技术门槛并提升了分析的可复现性。

背景与意义

研究背景

数据爆炸但应用困难：高通量基因型和表型数据的快速积累推动了基因组育种的发展，全基因组关联分析（GWAS）、基因组选择（GS）等方法已成为现代育种的核心技术。
实际应用瓶颈：尽管统计方法和软件工具日趋成熟，但实际操作中需要协调使用异质性的命令行工具、统计环境和自定义脚本，对数据格式、参数设置和软件依赖有严格要求。
专家依赖问题：育种研究者不仅需要数量遗传学领域知识，还需具备高级计算技能来手动设计、调整和维护复杂分析流程，这限制了技术的可及性和可扩展性。

现有解决方案的局限

现有的工作流管理平台（如Nextflow、Galaxy）大多依赖预定义的静态流程或需要手动配置分析步骤。
用户仍需自行选择合适方法、解决数据兼容性问题、调整实验设计，难以实现真正的自动化。

BOLE的创新价值

引入多智能体系统（MAS）范式，实现分布式推理、任务分解和自主决策。
将工作流构建从"手动工程任务"转变为"推理问题"，弥合方法学创新与实用化应用之间的鸿沟。

研究方法

2.1 系统架构与多智能体框架

BOLE采用基于Web的多智能体架构，包含四个核心智能体：

智能体	功能
交互智能体	解析用户自然语言输入，转化为结构化分析意图
规划智能体	将意图分解为原子分析任务，确定可行执行路径
流程组装智能体	自动解决数据格式不匹配问题，插入必要的中间转换步骤
代码生成智能体	动态合成R/Python/Bash脚本，处理自定义分析和可视化需求

技术栈：

后端使用FastAPI框架，前端采用React+Vite构建，提供终端式执行监控界面和自然语言交互环境。

2.2 大语言模型的集成

使用DeepSeek和Qwen系列开源大模型作为推理组件
关键约束设计：LLM不作为分析逻辑的自主执行器，而是在结构化知识库的约束下运行
所有决策必须符合输入-输出契约、软件依赖和领域特定规则，确保可重现性
模型无关性：支持替换不同LLM后端而不改变工作流逻辑或分析结果

2.3 育种知识库的形式化

构建了结构化的JSON格式知识库，每个分析模块包含：

脚本元数据：ID、任务类别（GWAS/GS/QC等）、描述
输入规范：数据类型（基因型/表型）、格式（PLINK/VCF/CSV）、必需字段
输出规范：结果类型、格式、下游兼容性标签
参数配置：必需/可选参数及默认值
执行约束：软件依赖、运行环境

这种形式化将传统生物信息学脚本转化为可互操作的计算构建块，支持自主组装复杂分析流程。

2.4 核心分析模块实现

集成了行业标准生物信息学工具：

GWAS：PLINK（线性回归）、GCTA（混合模型线性关联MLMA），自动生成曼哈顿图和显著位点识别
基因组选择：BayesA/B/C、BRR、BL、GBLUP等多种统计模型，通过K折交叉验证评估预测准确性
遗传力估计：基于线性混合模型，支持仅表型数据（REML）和基因型数据（基因组关系矩阵）两种模式
种质评价：使用ADMIXTURE进行无监督聚类，自动通过交叉验证误差分析选择最优祖先群体

研究结果

3.1 从用户意图到可执行工作流的自主转换

BOLE接受抽象任务描述，通过多智能体协调自主构建完整工作流
规划智能体将请求分解为原子目标，查询知识库识别兼容模块
动态推断中间处理步骤（如基因型质控、格式协调、数据验证）
无需预定义静态流程，展示了对异质工具的推理能力和对不同数据条件的适应性

3.2 跨核心功能模块的端到端分析

从原始基因型和表型数据出发，BOLE自主执行了：

遗传力估计：基于基因组关系矩阵计算遗传贡献（图4A）
种质评价：生成ADMIXTURE群体结构分析结果（图4B）
基因组选择：协调多种预测模型，输出标准化交叉验证下的预测准确性指标（图4C）
GWAS分析：生成曼哈顿图，识别与目标性状相关的位点（图4D）

所有分析在单一自主工作流中完成，模块间无需人工干预或重新配置。

3.3 自主工作流的一致性与可重现性

重复运行相同分析意图和数据集，系统始终生成相同的工作流结构
基于知识库的确定性推理确保相同输入产生相同工作流
执行产物（中间文件、最终结果）被保存并可追溯（图5）
产物感知执行模型支持每个分析步骤的透明检查，促进可重现研究实践

3.4 动态跨任务工作流组合

设计了多阶段育种分析场景验证灵活性：

第一阶段：用户请求目标性状的GWAS分析，BOLE自主构建并执行完整关联分析流程
第二阶段：用户基于GWAS结果请求GS分析，BOLE推理识别可用的中间产物，验证数据兼容性，组装包含上游GWAS输出的可执行GS工作流

结果表明BOLE支持基于用户意图和中间结果的动态跨任务推理，超越了孤立的特定任务工作流，能够适应真实育种场景中常见的探索性和迭代性分析需求。

讨论

主要贡献

从固定流程到意图驱动编排：传统系统要求用户预先设计分析序列，BOLE基于用户意图和知识库约束动态合成工作流，同时保持可重现性。
LLM的约束性使用：LLM作为受约束的推理组件而非无约束的分析逻辑生成器，所有输出必须符合确定性规范，确保系统级确定性而非自由形式的语言生成。
非固定跨任务工作流支持：能够基于中间输出自主推理并组装兼容的下游工作流，无需预定义的复合流程，支持真实育种中的探索性分析。
产物感知执行与可追溯性：每个分析步骤的中间文件、参数、日志和动态生成脚本均被保存，支持方法学透明度和结果审计。

局限性

不替代专家知识：BOLE旨在降低技术应用门槛，而非取代育种或统计遗传学专业知识，也不提出新的分析模型。
知识库依赖性：系统性能和分析广度受限于知识库的完整性和质量，扩展到新领域需要精心策划兼容脚本和元数据。
需持续验证：当前实现已在核心基因组育种任务中证明稳健性，但大规模部署和更广泛的社区采用需要持续验证和扩展。

未来展望

BOLE代表了向智能、自主基因组育种分析迈进的一步，为智能生物信息学系统的未来发展提供了基础，为更可及、更可重现的基因组育种提供了可扩展的路径。

可用性

在线服务：http://114.80.39.6:8089/
开源协议：CC-BY-NC-ND 4.0国际许可
预印本发布：bioRxiv，2026年2月6日，DOI: 10.64898/2026.02.04.703673

AI育种如火如荼，初级工程师将被淘汰，真正懂业务懂需求的高级工程师反而显得更为重要了，我们专做有价值的生信和数据分析工作。AI不能解决的，我们帮您完成。

同时欢迎加入生信AI育种交流群，一群已满，请添加小编微信拉你加入二群，请备注“姓名-单位”，方便交流~~~

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

农科院深圳基因组所发表基因组育种AI智能体BOLE

背景与意义

研究背景

现有解决方案的局限

BOLE的创新价值

研究方法

2.1 系统架构与多智能体框架

2.2 大语言模型的集成

2.3 育种知识库的形式化

2.4 核心分析模块实现

研究结果

3.1 从用户意图到可执行工作流的自主转换

3.2 跨核心功能模块的端到端分析

3.3 自主工作流的一致性与可重现性

3.4 动态跨任务工作流组合

讨论

主要贡献

局限性

未来展望

可用性

最新文章

热门文章

随机文章

农科院深圳基因组所发表基因组育种AI智能体BOLE

背景与意义

研究背景

现有解决方案的局限

BOLE的创新价值

研究方法

2.1 系统架构与多智能体框架

2.2 大语言模型的集成

2.3 育种知识库的形式化

2.4 核心分析模块实现

研究结果

3.1 从用户意图到可执行工作流的自主转换

3.2 跨核心功能模块的端到端分析

3.3 自主工作流的一致性与可重现性

3.4 动态跨任务工作流组合

讨论

主要贡献

局限性

未来展望

可用性

2026-03-10深圳特种蜡暨炸药蜡、微晶蜡、橡胶防护蜡大会

深圳管道疏通:4008-083-258,专业下水道疏通24小时服务!马桶堵塞、地漏返水快速解决!

最新文章

热门文章

随机文章