东大团队原创理论获“中国智能科学技术最高奖”一等奖
让AI“读懂”复杂世界!东大团队原创理论获“中国智能科学技术最高奖”一等奖
长期以来,如何让机器理解复杂语义,是人工智能领域的一块“硬骨头”。日前,东南大学计算机科学与工程学院、软件学院、人工智能学院耿新教授团队,凭借在“标记分布学习理论与方法”上的原创性突破,荣获2025年度吴文俊人工智能科学技术奖自然科学奖一等奖。这个被誉为“中国智能科技最高奖”的荣誉,背后是团队近二十年的深耕。
从“有什么”到“有多少”
“机器学习,就是利用算法从数据中自动归纳规律,并利用这些规律对未知数据进行预测或决策。”谈及获奖项目,耿新举例解释,传统监督学习在面对一个复杂对象时,往往只能给出简单的“是或否”的判断。“比如说,一幅图像里有猫、狗、大树等多个元素,传统的标注会告诉我们‘有猫、有狗、有树’。但它不会告诉我们,不同元素在这一画面里占了多少比重,‘显著程度’分别有多高,这可能导致机器在面对真实世界的复杂场景时,理解出现偏差。”
面对这一痛点,耿新教授团队在2016年正式提出了一种全新的学习范式——标记分布学习。这一范式不仅仅是给图像打上标签,而是要为每一个标签赋予“描述度”。这相当于让AI完成了一次认知升维:从判断图像里“有什么”,进阶到理解每个元素“有多少”,从而对复杂对象进行更细腻、更精确的刻画。
理论“无人区”里的坚守
标记分布学习理论与方法的雏形最早可追溯到2007年,团队经过近十年的积累与打磨,2016年作为完整范式被提出。但真正的攻坚,才刚刚开始。
“提出范式还不够,想要让它立得住,还得建立基础理论、开发相应算法、推进应用落地……从理论到应用都得走通。”耿新回忆,最难的就是构建基础理论这一块。“比如一个核心点叫‘标记增强机制’。现实中,大家为了节省标注成本,往往只标一个简单的逻辑标记,并没有给出描述度信息。我们要做的,就是通过数据分析,把这些缺失的描述度给恢复出来。”
为了保证恢复出来的效果是可靠的,团队需要构建完整的理论框架。“光是这个难点,我们就打磨了三年多。”耿新感慨地说,针对另一个核心点“标记分布泛化理论”,团队同样打磨近三年时间。
从中国原创走向国际标准
标记分布学习因其在处理复杂、模糊语义上的独特优势,不仅成为了学术界的“宠儿”,更被应用在了诸多高精尖领域。目前,标记分布学习已形成机器学习领域的一个新兴研究方向,吸引了大量国际同行跟研,包括哈佛、斯坦福、耶鲁、牛津、剑桥等世界顶尖科研单位。
自2018年起,美国宇航局(NASA)在“好奇号”火星车的矿物分析任务中,就采用了标记分布学习作为核心算法。“火星矿物的化学成分非常复杂,以前的统计方法很难预测超过三种元素的化学成分。”团队成员、东南大学计算机学院副教授徐宁介绍,该算法通过分析矿物晶体的X射线衍射数据,能精准预测多种化学元素及其丰度,帮助科学家还原火星地质历史。此外,标记分布学习还被应用于集成电路领域,支撑构建了芯片设计大模型,已服务于诸多头部企业,助力芯片设计自主化。
“我们发现在大模型研究中还有很多问题需要用标记分布学习去解决。”徐宁透露,团队目前正在将这一技术应用于大模型的“安全对齐”研究。
“大模型生成的内容,有时候可能不安全,或者跟人类的价值观有冲突。”徐宁表示,如何让大模型与人类的价值观对齐,使其更符合人类预期,这些核心问题恰好是标记分布学习未来可以发挥作用的方向。
来源:交汇点新闻
江苏苏讯网版权及免责声明:凡本网注明“来源:XXX(非江苏苏讯网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,本网按规定给予一定的稿费或要求直接删除,请致电025-86163400 ,联系邮箱:724922822@qq.com。
