新华日报：要AI“干好”，先让它“吃好”

□ 陈立民

4月24日在南京举办的“数智未来”高质量数据集开发者创新大赛成果发布会上，中国工程院院士、清华大学教授郑纬民讲到，“目前关于机器学习有句流传很广的说法‘垃圾进，垃圾出’，如果没有高质量数据，模型只能‘说得流利’，但会‘胡说八道’。”这一观点很有针对性。

自AI大模型出现以来，“胡说八道”的例子层出不穷。比如，有人让大模型续写《红楼梦》，竟得出“贾宝玉倒拔垂杨柳”的奇景；一名高考生的哥哥在查询高校信息时，AI不仅生成错误信息，还底气十足地表示内容有误将赔偿10万元，结果被当事人告上法庭，成为国内首例因“AI幻觉”引发的侵权案。日常生活中，我们也常有这样的感受，依赖AI生成的报告，其中很多数据、案例都是凭空捏造，让人哭笑不得。

怎么才能让AI少犯错误、多干实事？答案在于先要让它“吃得好”。如果说算力是人工智能的“灶火”，算法是“厨艺”，那么数据就是“食材”。和人一样，AI同样需要大量的数据作为“粮食”，来进行模型训练和深度学习。同样的模型框架，有人跑出来是“学霸”，有人跑出来却是“学渣”，秘密往往不在算法本身，而在于模型每天“吃”进去的，是精心甄选的“高端食材”，还是毫无营养的“垃圾食品”。高质量数据集，就是经过处理，可直接用于AI模型训练、能有效提升模型性能的数据集合，储存着AI所需的高价值、高密度、标准化的“粮食”。

当前，国内大模型发展突飞猛进，在有些方面甚至“领跑”全球，但存在一个不容忽视的短板就是训练数据集比国外公司要小得多，简而言之，“吃不饱”。正是在这种背景下，今年政府工作报告首次提出“建设高质量数据集”；“十五五”规划纲要也提出“加快建设人工智能语料库”。一些举措正在加速落地，国务院国资委发布首批30余项央企人工智能行业高质量数据集，江苏也发布了首批16个重点领域的高质量数据集建设清单，锚定工业制造、医疗健康等富集领域发力。一条从国家战略到地方实践的数据“新基建”脉络，渐渐清晰。

让AI在通用语料上“吃得饱”，还得让它融入产业场景“吃得好”。今年3月在南京举办的高质量数据集开发者创新大赛，提供了一组值得关注的数字：南钢团队围绕钢板表面缺陷检测构建的高质量数据集，让检测速度提升95%，效率较人工提升10倍以上；省肿瘤医院团队基于临床疼痛数据构建的数据集，直接服务于精准麻醉和新药研发。这些基于真实场景的数字告诉我们：高质量发展智能经济，最重要的可能不是算力和算法，而是数据集有多深、多真、多准。

当然，短板与挑战同样不容回避。当前我国大模型数据集的产出仍然面临数据汇聚产量低、供给质量低、利用效率低等挑战，企业在数字化转型中沉淀的海量数据，仍有相当比例处于“沉睡”状态，标准化治理与价值挖掘尚在起步阶段。正因如此，不少地方正在加速构建“政产学研用”协同的数据产业生态。像南京玄武区打造的江苏国际数据港，落地了全省唯一的高质量数据集产业基地、江苏数据交易所等重要平台，汇聚各类数字经济企业超千家，构建起集群式发展的“数据雨林”。

让AI“吃得好”，智能经济才能“长得壮”。高质量数据集建设没有捷径，既依赖政策层面的顶层设计和基础设施配套，也考验企业在真实场景中的数据沉淀与治理能力，更离不开标注、清洗、脱敏等环节的标准化和规模化。让人工智能跑得既快又稳，就得有耐心、有定力，把这些“饭”一碗一碗地做好、喂好。

热点新闻

推荐新闻

more精彩视频