在过去两年,所有人都在追大模型。创业公司见面都会必问的“你用哪家模型”,投资人开口就是“你们的模型多大”。但就在前几天,国家数据局一纸文件下来,文件里有一句话,值得每个关心AI未来的人认真读三遍:“未来几年,最值钱的可能不是模型,而是数据集。”
什么意思?难道OpenAI、Google、国内大厂这一波“模型军备竞赛”方向错了?
一、为什么模型不再是最大的瓶颈
先问你一个问题:现在的AI模型,还稀缺吗?
答案是:不稀缺了。
2025年,全球开源大模型格局发生了根本性变化。
DeepSeek、Qwen、Kimi三家中国模型被业内称为开源“御三家”,其性能已经可以比肩甚至超越部分闭源模型。
硅谷顶级风投Social Capital甚至公开把自己的核心工作流从OpenAI迁移到了Kimi,理由是“性能强得多,而且便宜太多了”。
这意味着什么?模型正在从“奢侈品”变成“日用品”。就像一个发动机,以前谁有发动机谁牛。现在发动机到处都能买到、甚至能自己攒一个,那比拼的就不是发动机本身了——而是加什么燃料、能跑多远。
这个“燃料”,就是高质量数据集。
国家数据局在6月8日发布的《关于推进行业高质量数据集建设行动的实施方案》里说得更直白:行业高质量数据集是推动“人工智能+”赋能千行百业、实现产业落地的基础性、关键性资源。没有它,再强大的模型也发挥不出价值。
这话不是随便说说的。
数据显示,截至2026年3月底,全国已建成高质量数据集超过11.6万个,总体量超过960PB,相当于中国国家图书馆数字资源总量的336倍左右。数量看起来不小,但缺口更大。
很多AI公司私下都在抱怨:不是做不出模型,而是找不到能用的好数据。
二、为什么数据集反而成了最稀缺的东西
好模型易得,好数据难求。这话一点不夸张。为什么?
第一,网上能爬的数据,质量都不行。
你可能不知道,大量公开网页数据充满噪声、重复、错误,甚至是有毒内容。
清华大学一位教授的研究指出,当前很多数据集存在“量大质低”的问题——完整性、一致性等基础维度勉强过关,但缺乏深度知识内涵和专业价值。换句话说,垃圾进、垃圾出。
模型训练需要的不是“多”,而是“对”。
第二,高质量数据越来越难合法获取。
随着版权法、隐私保护法、数据安全法越来越严格,你不能随便爬别人的数据,个人数据也不能乱用。
2025年全国首例数据知识产权许可收益权质押融资项目落地,意味着数据已经开始受到类似知识产权的保护。
这当然是好事,但也意味着:好数据的获取成本正在急剧上升。
第三,垂直领域的数据才是真正的护城河。
医疗、法律、金融、工业制造——这些行业几十年来沉淀的专业数据,价值远超公开数据。而且往往是:外人根本拿不到。
国家数据局此次明确聚焦科学研究、工业制造、金融服务、医疗卫生、低空经济、具身智能等十几个重点领域,正是看准了:真正值钱的数据,藏在行业深处。
三、国家数据局到底说了什么
这次的文件,不是喊口号,是动真格的。根据《实施方案》,国家数据局部署了六大专项行动:强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放。
六个方向,覆盖了从数据采集到商业化变现的全链条。其中最有冲击力的,是“价值释放行动”里的这几条:鼓励数据集质押融资、作价入股、资产证券化、数据信托、数据保险。
翻译成大白话就是:你的数据集,以后可以像房子一样拿去抵押贷款,可以像股票一样证券化,可以当作股份入股公司,甚至可以放进信托里让别人帮你管。
这意味着什么?数据不再是“资源”,而是一种正式、可定价、可交易的资产。谁手里握着优质数据集,谁就相当于坐拥一片油田。
更值得关注的是,文件还首次提出了“词元交易”模式——构建以词元(Token)为基础,可量化、可定价的数据价值体系。
简单说,以后数据可能像水电一样,按“用量”来计价和交易。
这套体系一旦跑通,数据市场的规模和想象力,将远超今天的任何交易所。
四、这个判断对谁影响最大
政策落地从来不是只影响“圈内人”。这次的变化,至少会深刻影响三类人群。
对AI创业公司来说,游戏规则变了。
不再只拼模型参数,而是拼你有没有独家、合法、高质量的数据。小公司如果掌握某个细分行业的数据,反而比大模型公司有优势。
对传统行业和企业来说,你日常经营产生的业务数据、客户数据、生产数据,未来可能比你的主营业务还值钱。
青岛已经做了尝试:全市完成161例数据资产登记,实现数据资产质押融资2.2亿元、作价入股5500万元。这还只是开始。
对普通人来说,这意味着什么?
未来你的浏览记录、消费习惯、健康数据,可能有明确的“数据收益权”。当然,前提是隐私保护和确权制度跟上。
这条路还长,但方向已经清晰。