基于自主生物制造数据的生物制造高产菌株改造示范场景
推荐单位:中国科学院
参与单位:中国科学院微生物研究所、中国科学院天津工业生物技术研究所、国家微生物科学数据中心、世界微生物数据中心、合成生物制造元件智能创制北京市重点实验室
一、场景概述
为破解生物制造领域生物资源数据分散、格式不统一、高质量科学数据供给不足,以及人工智能应用缺乏标准化数据支撑等问题,我国开展生物制造科学数据共享服务平台建设。该场景以“标准引领、数据整合、智能驱动、产业转化”为主线,构建覆盖生物资源供给、生物元件预测与生成、工业酶设计、菌种改造全链条的数据服务体系,推动生物制造从传统实验驱动向智能数据驱动转型,为合成生物制造产业发展提供高质量数据要素支撑。
生物制造资源共享平台
二、总体思路
(一)归集整合多源异构生物数据。整合国家菌种资源库、省级微生物保藏机构、国际公共数据库等多源数据,形成涵盖菌种、基因组、酶、代谢途径、文献、专利等在内的生物制造基础数据资源池。
(二)构建高质量、标准化的数据集。开展数据质量控制、格式标准化与元数据补充,建成78个可直接用于人工智能训练的高质量数据集,覆盖工业菌种基因组、功能启动子、终止子、调控因子及多类工业酶等关键要素。
(三)建设“平台+数据+模型”一体化支撑体系。打造生物制造科研基础平台,实现数据一站式检索与共享,同时研发基于蛋白大语言模型的AI工具,支持生物元件的智能挖掘与定向设计。
三、创新举措
一是牵头制定国际ISO标准,规范合成生物元件的描述框架,提升我国在国际生物制造领域的话语权。二是构建生物制造新型科研信息化基础平台,整合实物、数据及科研仪器资源,为产业发展筑牢数据根基。三是研发蛋白大语言模型驱动的人工智能发现范式。突破传统序列比对局限,实现新型全局调控因子与功能元件的高效挖掘,形成可迁移、通用化的智能设计新路径。
四、主要成效
在社会效益方面,GR-Discriminator等AI模型的研发与应用实现了智能化技术创新范式突破,生物制造基础数据资源平台正式运行,产业基础支撑能力全面夯实,同时,通过ISO标准制定提升了我国国际话语权与规则制定权。在经济效益方面,基于大数据挖掘和人工智能设计,首创了普瑞巴林手性中间体R-单酰胺一步酶法合成技术,已转化落地国内多家企业,该工艺避免了有毒有机溶剂的使用,合成成本比传统化学拆分工艺下降50%,预计产值超亿元,为我国生物制造产业的可持续发展注入了强劲动力。