大模型“胡说乱编”怎么解决？中国科学院专家：高质量科学数据是关键

每经记者：周逸斐每经编辑：魏官红

4月21日，国新办举行“新征程上的奋斗者”中外记者见面会。

习近平总书记强调，加快实现高水平科技自立自强是推动高质量发展的必由之路。在强国建设、民族复兴的新征程上，科技战线千千万万的工作者扎根科技一线、瞄准产业前沿，为国家科技事业的发展贡献了他们的智慧和力量，彰显了新时代新征程科技工作者的动人风采。

在本次记者见面会上，5位科技领域的代表围绕“弘扬科学家精神，聚力科技自立自强”与中外记者见面交流。

图片来源：每经记者周逸斐现场拍摄

科学数据是稳定器，能降低AI大模型“胡说乱编”

近年来人工智能大模型飞速发展，数据重要性日益凸显，如何看待科学数据在人工智能发展中的作用？未来又面临哪些机遇和挑战？

对此，中国科学院计算机网络信息中心副主任周园春介绍，相比海量的互联网数据，科学数据具有严谨的系统化观测和科学的实验，具有高可信、可溯源以及物理逻辑自洽的特点。

基于上述特点，科学数据对人工智能发展具有双重角色。一是“稳定器”，科学数据能够为大模型提供符合自然规律的原则性知识，这样的知识能够降低大模型“胡说乱编”，也是支撑构建一个可信、安全、符合自然规律的AI基石。

二是“加速器”。科学数据是驱动科研范式变革的重要引擎，从蛋白质结构预测、新材料创新，这些带有标注的高质量科学数据能够支持大模型对未来进行预测，缩短研发周期，加速研发效率。

周园春进一步指出，从科学数据的挑战和机遇来说，当前科学数据赋能人工智能发展进入非常关键的机遇期。“既给我们带来一些挑战，也有一些机遇要抓住。第一个挑战是，高质量科学数据是人工智能发展的核心和基石，但是高质量科学数据获取难。因为这样的科学数据源于高水平的大科学装置，包括长期的野外观测和调查等实现获取，获取完之后还要经过科研人员投入大量精力加工处理。反过来，大模型技术的发展其实为高质量科学数据的获取和加工提供了新技术和方法，这也实现了科学数据和人工智能的双向奔赴。”

第二个是大模型可解释性面临挑战。大家都希望知其然，更知其所以然。科学数据产生过程中普遍缺乏唯一标识或者编码。我们每个人都有身份证，数据如果没有“数字身份证”，进入到大模型训练带来的可溯源、可关联会带来比较大的挑战。

“因为没有这样的数字身份，数据的追踪链条，包括版权追溯、权属确定、溯源机制难以实现，使得大模型预训练时难以追踪数据来源。”周园春说。

他表示，科学数据赋能人工智能发展带来的机遇是，如果我们在数据源头产生时就赋码，在这个过程中对加工处理的数据产品也赋码，并建立前后的连接关系，就能够形成数据赋能大模型的路径。通过这样的路径构建起可追溯的链条，就能基于链条追踪人工智能在推理过程中的推理步骤，能够提高大模型或者人工智能结果的透明性和可解释性。

未来要建设低碳社会，氢能会发挥重要作用

如今氢能技术正在快速发展，逐步走进产业与生活。未来氢能可能有哪些应用前景？

清华大学车辆与运载学院副教授徐梁飞表示，首先，氢能从第一性原理来讲，是非常清洁的能源载体。我国未来要建设低碳甚至零碳社会，氢能会在未来发挥重要的作用。

其次，氢能在未来会走入居民生活的方方面面、各行各业。徐梁飞以交通领域举例说，当前新能源汽车行业发展很快，氢能燃料电池汽车本身也是新能源汽车中的一种，和现在锂电池的车相比，是非常有益的补充，适用于长途、重载，尤其是寒冷地带环境，它可以实现清洁、高效、无污染。另外，它也适用于机车、船舶、飞机等，未来都可以看到氢能技术的影子。

他表示，在工业领域，尤其是以钢铁和化工为代表的行业是碳排放大户，氢气也是非常重要的原料，包括以氢为代表的泛氢燃料，在工业领域的广泛使用可以大幅降低碳排放。

“在能源领域，未来我们国家会大力发展以风光水为主的新能源。”徐梁飞认为，新能源非常好，但是波动比较大，所以就需要储能技术。氢能本身就是长时间储能，不是几分钟或者几小时，是更长时间，氢能是长时储能非常好的载体。另一方面，燃料电池技术未来可以做发电或者供热装置，给车辆、建筑、园区、数据中心供能。

大模型“胡说乱编”怎么解决？中国科学院专家：高质量科学数据是关键

Published by

风君子

最新文章

标签

书签