[ad_1]
Colossal Clean Crawled Corpus (C4) 是主要科技公司使用的人工智能数据集,包含来自各种加密相关网站的数据。
C4 数据集来自加密站点
华盛顿邮报和艾伦人工智能研究所最近分析了 C4 数据集,根据从每个来源获取的“标记”或文本片段的数量对网站进行排名。
美国证券交易委员会——其中部分包含有关加密货币监管的内容——是该数据集的最大来源之一。 其网站 (sec.gov) 排名第 39,占 C4 代币的 3600 万,即 0.02%。
Bitcointalk.org 是中本聪创建的区块链讨论区,排名第 780 位。 它占 C4 代币的 610 万,即 0.004%。
Cointelegraph 和 Coinmarketcap.com 等加密货币新闻和聚合网站也派代表出席。 八个这样的网站总共占 C4 代币的至少 0.008%,尽管其他网站可能会增加真实总数。
与特定加密货币和交易所相关的网站也出现在数据集中,但只占微不足道的代币数量。
两个与加密货币相邻的站点也排名很高。 IPFS (ipfs.io) 排名第 16,而 Steemit (steemit.com) 排名第 594。 第一个站点是区块链公司 Protocol Labs 的分布式网络,而第二个站点直接使用区块链。 但是,这些站点不一定包含与加密货币相关的内容。
主流网站位居榜首
据《华盛顿邮报》报道,C4 数据集用于来自主要科技公司的 AI 语言模型,包括谷歌的 T5 和 Facebook 的 LLaMA。
尽管上述网站是 C4 最重要的加密相关网站之一,但它们的排名不及主流网站和新闻来源,这些网站和新闻来源通常涵盖加密货币主题,并且可能是所有加密相关数据的主要来源。
C4 还因包含仇恨言论和盗版数据而受到批评。 尽管该数据集的名称表明它已被“清理”,但其汇编程序仅使用 400 个单词的列表来审查特定内容,这意味着有争议的内容仍然完好无损。
加密网站的存在以及有争议的数据的存在,可能会影响人工智能聊天机器人生成的内容中的偏见程度。

[ad_2]
Source link