新华日报:要AI“干好”,先让它“吃好”
2026-04-25 08:07:00
来源:新华日报
【字号:  】【打印

□ 陈立民

4月24日在南京举办的“数智未来”高质量数据集开发者创新大赛成果发布会上,中国工程院院士、清华大学教授郑纬民讲到,“目前关于机器学习有句流传很广的说法‘垃圾进,垃圾出’,如果没有高质量数据,模型只能‘说得流利’,但会‘胡说八道’。”这一观点很有针对性。

自AI大模型出现以来,“胡说八道”的例子层出不穷。比如,有人让大模型续写《红楼梦》,竟得出“贾宝玉倒拔垂杨柳”的奇景;一名高考生的哥哥在查询高校信息时,AI不仅生成错误信息,还底气十足地表示内容有误将赔偿10万元,结果被当事人告上法庭,成为国内首例因“AI幻觉”引发的侵权案。日常生活中,我们也常有这样的感受,依赖AI生成的报告,其中很多数据、案例都是凭空捏造,让人哭笑不得。

怎么才能让AI少犯错误、多干实事?答案在于先要让它“吃得好”。如果说算力是人工智能的“灶火”,算法是“厨艺”,那么数据就是“食材”。和人一样,AI同样需要大量的数据作为“粮食”,来进行模型训练和深度学习。同样的模型框架,有人跑出来是“学霸”,有人跑出来却是“学渣”,秘密往往不在算法本身,而在于模型每天“吃”进去的,是精心甄选的“高端食材”,还是毫无营养的“垃圾食品”。高质量数据集,就是经过处理,可直接用于AI模型训练、能有效提升模型性能的数据集合,储存着AI所需的高价值、高密度、标准化的“粮食”。

当前,国内大模型发展突飞猛进,在有些方面甚至“领跑”全球,但存在一个不容忽视的短板就是训练数据集比国外公司要小得多,简而言之,“吃不饱”。正是在这种背景下,今年政府工作报告首次提出“建设高质量数据集”;“十五五”规划纲要也提出“加快建设人工智能语料库”。一些举措正在加速落地,国务院国资委发布首批30余项央企人工智能行业高质量数据集,江苏也发布了首批16个重点领域的高质量数据集建设清单,锚定工业制造、医疗健康等富集领域发力。一条从国家战略到地方实践的数据“新基建”脉络,渐渐清晰。

让AI在通用语料上“吃得饱”,还得让它融入产业场景“吃得好”。今年3月在南京举办的高质量数据集开发者创新大赛,提供了一组值得关注的数字:南钢团队围绕钢板表面缺陷检测构建的高质量数据集,让检测速度提升95%,效率较人工提升10倍以上;省肿瘤医院团队基于临床疼痛数据构建的数据集,直接服务于精准麻醉和新药研发。这些基于真实场景的数字告诉我们:高质量发展智能经济,最重要的可能不是算力和算法,而是数据集有多深、多真、多准。

当然,短板与挑战同样不容回避。当前我国大模型数据集的产出仍然面临数据汇聚产量低、供给质量低、利用效率低等挑战,企业在数字化转型中沉淀的海量数据,仍有相当比例处于“沉睡”状态,标准化治理与价值挖掘尚在起步阶段。正因如此,不少地方正在加速构建“政产学研用”协同的数据产业生态。像南京玄武区打造的江苏国际数据港,落地了全省唯一的高质量数据集产业基地、江苏数据交易所等重要平台,汇聚各类数字经济企业超千家,构建起集群式发展的“数据雨林”。

让AI“吃得好”,智能经济才能“长得壮”。高质量数据集建设没有捷径,既依赖政策层面的顶层设计和基础设施配套,也考验企业在真实场景中的数据沉淀与治理能力,更离不开标注、清洗、脱敏等环节的标准化和规模化。让人工智能跑得既快又稳,就得有耐心、有定力,把这些“饭”一碗一碗地做好、喂好。

作者:  编辑:喻婷