网站首页

产品中心

新闻中心

关于必威

公司概况 核心优势

联系我们

官方微信 官方微博
主页 > 新闻中心

必威“2028年互联网上所有高质量文本数据将被使用完毕”

发布时间:2024-08-01 16:22浏览次数: 来源于:网络

  必威·研究公司Epoch AI预测,到2028年互联网上所有高质量的文本数据都将被使用完毕,机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”。

  ·研究人员指出,用人工智能(AI)生成的数据集训练未来几代机器学习模型可能会导致“模型崩溃”(model collapse)。

  近日,《经济学人》杂志发布题为《AI 公司很快将耗尽大部分互联网数据》(AI firms will soon exhaust most of the internet’s data)的文章,指出随着互联网高质量数据的枯竭,AI领域面临“数据墙”。对于AI大模型公司来说,现在的挑战是找到新的数据源或可持续的替代品必威。

  该篇文章援引研究公司Epoch AI的预测,到2028年互联网上所有高质量的文本数据都将被使用完毕必威,机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”。这种现象在业内被称为“数据墙”。如何应对“数据墙”是当下AI公司面临的重大问题之一,可能也是最有可能减缓其训练进展的问题。文章指出,随着互联网上的预训练数据枯竭,后期训练变得更加重要。标签公司如Scale AI和Surge AI每年通过收集后期训练数据赚取数亿美元。

  事实上,业界早有关于“数据枯竭”的声音。澎湃科技注意到,2023年7月初,加州大学伯克利分校计算机科学教授、《人工智能——现代方法》作者斯图尔特·罗素(Stuart Russell)曾发出警告,ChatGPT等人工智能驱动的机器人可能很快就会“耗尽宇宙中的文本”,通过收集大量文本来训练机器人的技术“开始遇到困难”。

  但业内也有不同的声音。2024年5月,在接受彭博社科技记者艾米丽·张(Emily Chang)的采访时,著名计算机科学家、斯坦福大学人工智能实验室联合主任、斯坦福大学教授李飞飞曾明确表示,她并不赞同“我们的人工智能模型正在耗尽用于训练的数据”这一较为悲观的看法。李飞飞认为,这一观点过于狭隘。仅从语言模型的角度来看,当下仍有大量的差异化数据等待挖掘,以构建更为定制化的模型。

  当下,为了应对训练数据有限的问题,解决方案之一便是使用合成数据,这些数据是机器创建的必威,因此是无限的。但合成数据也有合成数据的风险,国际学术期刊《自然》于7月24日发表一篇计算机科学论文指出,用人工智能(AI)生成的数据集训练未来几代机器学习模型可能会污染它们的输出,这个概念称为“模型崩溃”(model collapse)。由于模型是在被污染的数据上训练出来,最终会误解现实。

  研究团队在研究中表明,在大语言模型学习任务中,底层分布的尾部很重要,大规模使用大语言模型在互联网上发布内容,将污染用于训练其后继者的数据收集工作,今后人类与大语言模型交互的真实数据将越来越有价值。不过,研究团队也提到,AI 生成数据并非完全不可取,但一定要对数据进行严格过滤。比如,在每一代模型的训练数据中,保持10% 或20% 的原始数据,还可以使用多样化数据,如人类产生的数据,或研究更鲁棒的训练算法。

下一篇:必威中国互联网投资基金召开第三届理事会第三次会议
上一篇:必威互联网平台公司积极进军保险业

咨询我们

输入您的疑问及需求发送邮箱给我们