共1 条记录, 每页显示 10 条, 页签: [1]

标题：“好模型易得，好数据难求”？国家数据局发文：未来最值钱的可能不是模型，而是它

1楼

5201314 发表于：2026/6/11 14:46:00

在过去两年，所有人都在追大模型。创业公司见面都会必问的“你用哪家模型”，投资人开口就是“你们的模型多大”。但就在前几天，国家数据局一纸文件下来，文件里有一句话，值得每个关心AI未来的人认真读三遍：“未来几年，最值钱的可能不是模型，而是数据集。”

什么意思？难道OpenAI、Google、国内大厂这一波“模型军备竞赛”方向错了？

一、为什么模型不再是最大的瓶颈

先问你一个问题：现在的AI模型，还稀缺吗？

答案是：不稀缺了。

2025年，全球开源大模型格局发生了根本性变化。

DeepSeek、Qwen、Kimi三家中国模型被业内称为开源“御三家”，其性能已经可以比肩甚至超越部分闭源模型。

硅谷顶级风投Social Capital甚至公开把自己的核心工作流从OpenAI迁移到了Kimi，理由是“性能强得多，而且便宜太多了”。

这意味着什么？模型正在从“奢侈品”变成“日用品”。就像一个发动机，以前谁有发动机谁牛。现在发动机到处都能买到、甚至能自己攒一个，那比拼的就不是发动机本身了——而是加什么燃料、能跑多远。

这个“燃料”，就是高质量数据集。

国家数据局在6月8日发布的《关于推进行业高质量数据集建设行动的实施方案》里说得更直白：行业高质量数据集是推动“人工智能+”赋能千行百业、实现产业落地的基础性、关键性资源。没有它，再强大的模型也发挥不出价值。

这话不是随便说说的。

数据显示，截至2026年3月底，全国已建成高质量数据集超过11.6万个，总体量超过960PB，相当于中国国家图书馆数字资源总量的336倍左右。数量看起来不小，但缺口更大。

很多AI公司私下都在抱怨：不是做不出模型，而是找不到能用的好数据。

二、为什么数据集反而成了最稀缺的东西

好模型易得，好数据难求。这话一点不夸张。为什么？

第一，网上能爬的数据，质量都不行。

你可能不知道，大量公开网页数据充满噪声、重复、错误，甚至是有毒内容。

清华大学一位教授的研究指出，当前很多数据集存在“量大质低”的问题——完整性、一致性等基础维度勉强过关，但缺乏深度知识内涵和专业价值。换句话说，垃圾进、垃圾出。

模型训练需要的不是“多”，而是“对”。

第二，高质量数据越来越难合法获取。

随着版权法、隐私保护法、数据安全法越来越严格，你不能随便爬别人的数据，个人数据也不能乱用。

2025年全国首例数据知识产权许可收益权质押融资项目落地，意味着数据已经开始受到类似知识产权的保护。

这当然是好事，但也意味着：好数据的获取成本正在急剧上升。

第三，垂直领域的数据才是真正的护城河。

医疗、法律、金融、工业制造——这些行业几十年来沉淀的专业数据，价值远超公开数据。而且往往是：外人根本拿不到。

国家数据局此次明确聚焦科学研究、工业制造、金融服务、医疗卫生、低空经济、具身智能等十几个重点领域，正是看准了：真正值钱的数据，藏在行业深处。

三、国家数据局到底说了什么

这次的文件，不是喊口号，是动真格的。根据《实施方案》，国家数据局部署了六大专项行动：强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放。

六个方向，覆盖了从数据采集到商业化变现的全链条。其中最有冲击力的，是“价值释放行动”里的这几条：鼓励数据集质押融资、作价入股、资产证券化、数据信托、数据保险。

翻译成大白话就是：你的数据集，以后可以像房子一样拿去抵押贷款，可以像股票一样证券化，可以当作股份入股公司，甚至可以放进信托里让别人帮你管。

这意味着什么？数据不再是“资源”，而是一种正式、可定价、可交易的资产。谁手里握着优质数据集，谁就相当于坐拥一片油田。

更值得关注的是，文件还首次提出了“词元交易”模式——构建以词元（Token）为基础，可量化、可定价的数据价值体系。

简单说，以后数据可能像水电一样，按“用量”来计价和交易。

这套体系一旦跑通，数据市场的规模和想象力，将远超今天的任何交易所。

四、这个判断对谁影响最大

政策落地从来不是只影响“圈内人”。这次的变化，至少会深刻影响三类人群。

对AI创业公司来说，游戏规则变了。

不再只拼模型参数，而是拼你有没有独家、合法、高质量的数据。小公司如果掌握某个细分行业的数据，反而比大模型公司有优势。

对传统行业和企业来说，你日常经营产生的业务数据、客户数据、生产数据，未来可能比你的主营业务还值钱。

青岛已经做了尝试：全市完成161例数据资产登记，实现数据资产质押融资2.2亿元、作价入股5500万元。这还只是开始。

对普通人来说，这意味着什么？

未来你的浏览记录、消费习惯、健康数据，可能有明确的“数据收益权”。当然，前提是隐私保护和确权制度跟上。

这条路还长，但方向已经清晰。

共1 条记录, 每页显示 10 条, 页签: [1]