Rss & SiteMap

炒邮网论坛 http://bbs.cjiyou.net/

炒邮网论坛是收藏者使用量最多覆盖面最广的免费中文论坛,也是国内知名的技术讨论站点,希望我们辛苦的努力可以为您带来很多方便
共1 条记录, 每页显示 10 条, 页签: [1]
[浏览完整版]

标题:未来属于 Filecoin,ChatGPT 等将数据集存放在 Filecoin 上!

1楼
5201314 发表于:2023/6/22 14:04:00
大有IPFS研究院  大有 IPFS研究院  2023-06-22 02:30
收录于合集
#Fil
10 个
#分布式存储
48 个
#FVM
24 个
#ipfs
409 个
#web3
407 个
SeedAI 是一家非营利性、无党派的倡导组织,旨在帮助为全国社区开发人工智能 (AI) 资源。他和他的团队正在努力将公共和私人合作伙伴聚集在一起,以开发模型 AI 计划、推动政策和促进投资,特别关注服务欠缺的社区。

图片

构建有用且包容的 AI 工具的最大考虑因素之一是它们所基于的数据集。如今,许多人工智能模型都建立在由政府、企业和学术机构收集的大型机器学习数据集之上。随着这些数据集的增长和演变,人工智能输出也会发生变化。

随着 AI 行业的发展,Austin 一直在思考如何为子孙后代保留数据集。我们与他讨论了他的工作以及他如何考虑将 AI 数据集存储在去中心化网络上。

让我们为规模做准备——机器学习应用程序需要多少数据才能成功?

人工智能依赖于大型数据集才能取得成功。虽然存在例外情况并且正在努力减少人工智能的数据需求,但一般来说——输入这些系统的数据越可靠,输出就越可靠和稳健。

用于训练机器学习模型的数据集在数据类型和训练成本方面差异很大,这取决于您正在构建的系统类型及其适用范围。两个公开可用的示例是ImageNet,它包含 1400 万张图像和 150GB,可用于创建通用图像识别系统,而The Pile是一组 825Gb 的语言示例,可用于创建通用自然语言处理系统。当今最复杂的人工智能系统之一是OpenAI 的 GPT3,它在 45 Tb 私有数据集上进行了训练——训练成本为 1200 万美元。

除此之外,还有广泛的应用程序可以在 10s 或 100s Mb 的数据上进行训练,以完成更狭窄的任务,例如检测特定类型的视觉数据(对象、异常)。较小的数据集也用于微调像 GPT3 这样的系统,利用 GPT3 的通用语言功能并为特定任务(例如营销、讲故事等)添加专业化。

谁拥有这些数据集,它们通常如何存储在当今的网络上?

数据集由政府、学术机构、私人组织和个人管理和拥有。

地方、州和联邦政府收集了大量数据,但这些数据集通常不是机器可读的格式,或者可能包含选民的个人数据。因此, 很难将这些数据发布给公众或研究团体。也就是说,近年来联邦政府取得了实质性进展。

学术机构通常会编译或生成数据集,其中许多成为公共资源,例如Berkeley DeepDrive数据。当然,私营部门从他们的业务运营中收集数据并编译其他数据集,其中大部分都是私有的,尽管他们确实经常向公众或他们认为对社区有益的研究人员发布精选数据集。

Kaggle、GitHub 和 Google 数据库搜索是搜索数据集的良好起点。其他大型云存储提供商 (CSP)、学术机构和政府机构(例如 NASA)也为 AI 培训提供数据集。

在存储方面,数据集通常托管在 AWS 或 Azure 等 CSP 上。 但令人兴奋的是,随着一些公共数据集(如NYC Open Data)被加载到 Filecoin 网络上,看到更多的冗余和访问分布。

深入了解这一点。从您在 SEED AI 的职位来看,您正在努力在美国扩展 AI 资源,为什么存档这些大型数据集很重要?

数据集直接通知 AI 系统,因此数据集的进化将导致 AI 模型的进化。新方法也被应用于现有的数据集,但革命性的新技术建立在大量且通常是专有的数据集之上。这些大模型针对更专业的任务在其他数据集上进行了调整,随着模型的进一步调整,这些模型在未来很可能会得到更广泛的使用,而无需记录数据集/数据集。

随着 AI 变得更易于为普通人使用并且开源工具变得更广泛可用,出现的系统依赖项的数量将会增加。我想象这个场景,但对于 AI 来说:

图片

维护这些数据集的记录很重要的另一个原因是遵守州和地方人工智能审计要求。这些要求在许多地方都在争论,并且已经在一些地方成为法律,例如纽约市去年12 月通过了关于雇主如何在招聘、面试和雇用过程中使用人工智能的法律。

这些新法律通常要求对数据集和算法进行偏见和不同影响的审计。这在很大程度上被认为是启动前的活动,但人工智能专家越来越多地指出,审计必须定期进行,即使不是连续的,因为潜在的危害或不同的影响会随着数据和技术环境的变化而变化。出于这个原因,负责任的政府和私营部门的 AI 用户在逻辑上会越来越需要保留和保存这些数据集。

AI 社区如何采用去中心化技术和去中心化存储网络(如 Filecoin)来保存这些数据集,为什么?

图片

Filecoin Slingshot程序是一个很好的例子,说明 Web3 社区如何团结起来支持大型数据集的保存和访问。我们越能鼓励维护和(负责任地)公开 AI 数据集,就越好——尤其是现在模型和数据集的数量正在加速增长。

Slingshot 被设置为存储客户和开发人员的社区竞赛,以向 Filecoin 网络添加真实、有价值和可用的数据。当然,在 Slingshot 中竞争的团体都在支持这个嵌入 Filecoin 社区的总体理念,即“在 Filecoin 网络上保存人类最重要的数据集”。

此类项目有助于使世界上任何人都可以访问和探索重要的数据集——用于研究、教育和发现。我希望更多的 AI 研究人员将来会转向像 Slingshot 这样的项目来帮助他们的机器学习工作。

免责声明: 本文仅供参考,不构成投资建议。投资者在做出决定前应仔细研究。我们不对您的投资决定负责。 

大有IPFS研究院
多幸运我们相聚在 Web 3
共享行业资讯 | 社群项目交流 | 共建投研公会
No Financial Advice,Do Your Own Research.
进入社区 · 请加微信

图片

往期好文:
玩了这么久的Filecoin,你知道Filecoin Marketplace吗?

2023-06-20
图片
速看!0 成本提升 10 倍 Filecoin 算力的办法!

2023-06-20
图片
回顾IPFS时间线,你是从什么时候进场的?

2023-06-18
图片
END


我们相信,下一代互联网已经到来!
如果你想了解关于区块链和Web3.0的科普知识,欢迎关注大有官方号


大有 IPFS研究院
专注 Filcoin & IPFS & FIL分布式存储,最前沿的Web3.0追逐者,深度研究并解读IPFS生态信息,为广大IPFS爱好者提供最有价值的研究结果和行业资讯。
154篇原创内容
公众号
图片
图片
点个在看你最好看
收录于合集 #Fil
 10个
上一篇
Filecoin的大爆发: 为什么它是你不能错过的下一个大事件?
下一篇
关于 Filecoin 的九“阳”真经(收藏版)
阅读 211
分享
收藏
2
在看
发消息
复制
搜一搜
转发
收藏
划线

共1 条记录, 每页显示 10 条, 页签: [1]

Copyright ©2002 - 2010 炒邮网论坛
Powered By Dvbbs Version 8.0.0sp1
Processed in 0.09766 s, 2 queries.