第13版:要闻
3    4   
PDF 版
· 机器化学家诞生记
4参见第****处理标记:[Article]时, 字段 [URLOtherPageNo] 在数据源中没有找到! ****版--****处理标记:[Article]时, 字段 [URLOtherPageName] 在数据源中没有找到! ****
     鲁中晨报
返回主页 | 版面导航 | 标题导航
上一期 下一期 本版上一期 本版下一期 日历
鲁中晨报 主办      ;
第13版:要闻
3    4   
PDF 版
3上一篇:****处理标记:[Article]时,数据源为空。 ****  
4下一篇:****处理标记:[Article]时,数据源为空。 ****  
4参见第****处理标记:[Article]时, 字段 [URLOtherPageNo] 在数据源中没有找到! ****版--****处理标记:[Article]时, 字段 [URLOtherPageName] 在数据源中没有找到! ****  
2022/10/20
朗读

机器化学家诞生记

物理

  中科大科研团队历时8年打造“最强化学大脑”
机器化学家诞生记
  在中国科学技术大学的机器化学家实验室,可以看见颇具科技感的一幕——一个体型“敦实”但动作灵活的机器人,在操作台之间穿梭,伸出机械手臂配制试剂。实验室另一边,年轻科研人员正输入指令,对机器人进行“隔空”控制。大部分情况下,这台机器人会自主思考实验的步骤和方案,像个不知疲惫的“小化学家”。
  这是中国科学技术大学化学物理系教授江俊团队的“作品”,该团队开发了全球首个集阅读文献、自主设计实验、覆盖材料开发全流程的机器化学家平台,从数以亿计的可能组合中找到最优解来加快材料研发。“实验数据经处理后,输入到平台独有的计算大脑中,产生理实交融的人工智能模型,帮助科研人员优化实验方案。”江俊说。

  打造中国人自己的材料数据库

  随着化学研究的对象日益复杂化、高维化,传统研究范式成本高、周期跨度长的问题日益突出。近年来,科技界逐渐意识到数据对于学术研究和产业创新发展的重要意义,而大数据科学与人工智能技术结合的手段,也在先进材料研发中崭露头角。
  团队核心成员肖恒宇是1995年生人,他本科就读于中国科学技术大学少年班学院,出于兴趣自学了人工智能。一次,他编写的一个智能程序出现问题,于是向时任班主任的江俊请教。江俊一针见血地指出,“算法没有问题,但算法依赖的实验数据过于片面”。
  江俊发现,一段时间以来,我国科研团队会将科研数据写进英文论文,在国外期刊上发表,但等到要引用数据时,还得额外花钱去买。
  “做中国人自己的材料数据库”,成了江俊的梦想。在他的影响下,肖恒宇等人一起踏上实现这个梦想的道路。
  肖恒宇的同学霍姚远、冯超,学的是数学和化学,喜欢研究数据。2014年开始,三人收集数据、挖掘文献、寻找架构,江俊提供原理指导和研究资源。2016年,他们搭建了第一代材料数据检索平台,但使用反馈不太理想,有老师抱怨“数据不准确”。
  肖恒宇等人意识到,数据不仅要多,还要优质。他们的数据库缺了最重要的一环——知识图谱,这导致数据质量良莠不齐,无法进行高效检索。
  建立知识图谱并非易事,同学们要用专业知识区分数据的关联性,为图像打上识别标签,让电脑知道每个数据背后的物理意义。
  团队成员、博士生张百成记得,最初全靠几位同学自己“打标签”,没日没夜地标注了几个星期,大家读文献读得头昏脑涨,却只完成了任务量的1%,几近绝望。
  为此,江俊找到中国科大校团委,开展有奖读文献比赛,联合更多有专业背景的大学生参与。由此,他们产生了第一批高质量的标记数据。
  “众人拾柴火焰高,大数据时代,要融合众智、整合资源。”张百成说,利用这批数据训练智能算法,他们实现了第一代化学命名实体识别程序,后续的标注任务,可以先让计算机自动识别,再进行人工检验,极大提升了效率。
  最终,他们打磨出我国第一代材料科学知识图谱。2021年,团队用图谱赋予机器人“小来”科学思维,团队的自然语言处理技术也随之“鸟枪换炮”,机器自动阅读和识别的准确度提高到90%。

  将数据变为实际生产力
  2016年,肖恒宇参加互联网+创新创业大赛,获安徽省冠军、全国银奖。投资机构为他和团队提供第一笔创业资金。成立公司后,团队3次迭代知识图谱,建立了含9000万个化合物、1100万条化学反应路径的大规模材料数据库。团队还借此帮助一些科研单位解决技术难题。
  譬如,某航天企业发现组合发动机中的金属配件材料需要改进,尝试多种方案都未能实现。肖恒宇等人用数据平台模拟出燃烧流场、大涡流场,并找到记忆金属设计配方,这为该企业节省成本4300多万元。
  肖恒宇团队还迎来了意外之喜——他们在为该企业解决问题的过程中,收集了10万种合金演化结构数据和金属原子间相互作用能数据,这些反过来丰富和完善了他们已有的数据库平台体系。
  “以往做研究时,有人习惯将数值往自己想要的方向去调整,但是研究需要数据多样性,要记录偏见、有误差的数据。”江俊坚信,数据是科研和产业的共同语言,数据库平台就是连接科研与产业的桥梁,要产生更多高标准的数据反哺科研,将数据变为实际生产力。
  目前,该团队又建立了材料基因创新研究平台,建成亚洲最大的材料数据库平台——机数大材库。
  江俊介绍,机器化学家平台具有更强的化学智能和广泛的新材料开发能力,涵盖光催化与电催化材料、发光分子、光学薄膜材料等领域,适用范围将随平台升级和拓展继续扩大。
  该研究成果论文已在最新一期《国家科学评论》学术期刊发表。国际审稿人评价说,该成果的“机器人系统、工作站和智能化学大脑都是最先进的”“将对化学科学产生巨大影响”。业内专家认为,机器化学家的研究工作脱离了传统试错研究范式的限制,展现出“最强化学大脑”指导的智能新范式的巨大优势,引领化学研究朝着知识理解数字化、操作指令化、创制模板化的未来趋势前进。

  从不摆烂,从不应付交差

  每周开组会时,江俊只需要提出希望机器人解决的问题,学生们就会自己讨论实施方案。设备没有底层驱动程序,学生们就会攻关智能化升级。再后来开会时,江俊只能坐在一旁听着,甚至插不上话。
  让他欣慰的是,几位有交叉学科背景的年轻在读博士,已经成长为团队“顶梁柱”:肖恒宇设计软件框架;张百成编写程序,让机器人读论文、提出科学假设、形成实验报告和方案;赵路远主攻电化学测试,负责烘干仪器、光谱仪等硬件的驱动程序开发。
  25岁的赵路远学电子科学技术出身。在她看来,克服科研难题主要靠毅力。她和师弟曹嘉祺一起编写某驱动程序时,由于信息掌握不充足,无法准确理解调用接口,“我们反复联系仪器厂商和代理商,没有回应。我们决定自力更生。”
  3周时间,两人就像两个机器人,除了吃饭睡觉外,重复做了3000次发送信号、等待反馈、记录响应等尝试,一点一点逆向试出了底层控制逻辑,成功实现了对机器人的远程控制。
  “此时,仪器代理商主动找到我们,想要购买我们的驱动程序,我们觉得特别自豪。”赵路远说。
  2021年,团队信心满满地开始机器人的首次试运行,不料,化学设备单独运行正常,但参与系统联调时却无法使用。大家排查到半夜仍然没有头绪。
  这时,肖恒宇突然意识到化学设备和机械臂均使用了红外探测设备,可能会互相干扰。于是,他将机械臂换一个朝向,轻松解决了问题。
  “往后的开发调试中,不同领域的仪器设备,不同系统的代码协议间,都出现了类似的‘磨合’难题,而我们通过交叉学科思维,将它们逐一击破。”肖恒宇说。
  “一个方案受挫,大家不会摆烂,不会应付交差,而是反复测试,看看究竟哪个环节出了问题。”肖恒宇说,科研伙伴身上有着相似特质——对流程和技术的执着。完成任务时,团队成员总会想的比自己更多一点,不仅拿出方案,还会想好替代方案和若干发散选项。
  在他看来,从开发测试,到改进迭代,再到升级,一个实验分支由一人全部负责,每个人都成长为“全能人才”。肖恒宇说,全身心投入科研时,所有知识都有用武之地。他一直自学3D动画。课题组拍摄科普片时,他还包办了分镜头和脚本撰写。
  肖恒宇曾在宁夏回族自治区海原县一中支教。他利用闲置的传感器等仪器,搭建了两个小型实验室,带学生学化学、物理、信息,激发孩子们的科学兴趣。他一直有个梦想,希望带动更多年轻人合作研发更高水平、更具科研智慧的实验平台,让中国的智能化学闪耀世界。
  ■ 相关链接
  1400年实验时间
被缩短至5周

  传统的化学研究范式主要是依赖于“穷举”“试错”的手段。面对庞大的化学空间,相关化学创制中的配方和工艺的搜索常止步于局部最优,无法进行全局探索。中科大研制的机器化学家,以开发潜力巨大的高熵化合物催化剂为例,我们便能领略机器化学家的“过人本领”。
  “高熵材料具有高混乱、高无序、高复杂度的特点,能够提高能源电池的稳定性,对新能源产业也很重要。”中科大物理化学专业博士生赵路远举例。不过,正由于其多种元素的高度无序混合带来的高稳定性,给催化剂开发过程中,人工试验找出最优配比的工作带来了极大挑战,想要获得最优配方,需要遍历测试十分庞大的化学配比组合。“我们从29种非贵金属元素选出5种来做高熵组合,可能的组合就有11万8千多种。如果用‘穷举’法,靠我一个人,穷极一生也基本不可能找到最优组合。”
  发挥数据驱动和智能优化的优势,机器化学家用“智慧大脑”汲取前人的化学智慧,在快速智能阅读16000篇论文后,自主遴选出5种非贵金属元素。
  “虽然选出了5种元素,但要找到他们的最佳配比,还有超过50万种可能的组合。就算我们全组人员一起做实验,最少也要1400年才能做完。”赵路远说。
  而机器人化学家可以用数据智能,实现全局搜索。针对高熵催化剂,它自动完成合成、表征到测试的研制全流程工作,生产了高质量的实测数据。指导“贝叶斯优化程序”从这55万种可能的金属配比中,找出最优的高熵催化剂,将“炒菜式”遍历搜索所需的1400年,缩短为5周。
  据《中国青年报》《合肥晚报》


发表评论   上一页 下一页


3上一篇   下一篇4   2022/10/20
相关文章: