首页 交易指南 文章详情
交易指南

AI训练数据短缺预警:公共文本即将被“榨干”

B
币安资讯团队
· 2026年04月11日 · 阅读 9547

人工智能(AI)领域的快速发展正面临一个隐忧:AI训练数据即将遭遇严重瓶颈。根据研究机构预测,到2028年左右,用于训练AI模型的数据集规模将达到公共在线文本总量的极限。这意味着,AI可能在短短4年内耗尽可用数据资源,而互联网内容的年增长率不足10%,远低于AI训练数据集每年翻倍的速度。

过去十年,神经网络规模扩大和海量AI训练数据的注入,推动了大型语言模型(LLM)的爆发式进步,如ChatGPT便是典型代表。然而,可用数据的增长已无法跟上AI模型的“胃口”。内容供应商正通过软件代码和条款修改,限制爬虫抓取,从2023年的不足3%激增至2024年的20%-33%。这不仅引发数据共享危机,还迫使开发者寻求变通方案。

版权风暴来袭:媒体巨头集体起诉AI公司

围绕AI训练数据的合法性,全球知识产权争议日益激烈。2023年12月,《纽约时报》起诉OpenAI和微软,指控其未经授权使用内容训练模型;今年4月,纽约市Alden全球资本旗下的8家报纸也发起类似诉讼。多家媒体组织联合呼吁,建立新规则:要求AI公司透明化训练数据集、征得权利人同意,并消除模型中的偏见与错误信息。

OECD最新报告指出,数据抓取已成为生成式AI获取海量训练数据的主要手段,但这一过程频繁触及版权、商标和数据库权利。报告数据显示,约70%的AI训练数据集缺乏清晰来源许可,部分如“Books3”数据集涉嫌收录17万本未经授权书籍,用于训练Meta的Llama模型。经济合作与发展组织呼吁全球协调政策框架和技术创新,以平衡技术迭代与利益分配。

  • 数据抓取定义:通过自动化工具从网站、数据库或社交平台提取信息,用于收集、预处理和模型训练。
  • 典型案例:GPT-3训练数据超80%来自Common Crawl公开网络抓取数据集。
  • 隐患:可能包含受保护书籍、文章、图像及个人隐私信息。

中国AI企业突围:海外训练与国产芯片双管齐下

面对数据与硬件双重压力,中国科技巨头正采取创新策略规避限制。英国媒体报道,阿里巴巴和字节跳动将AI模型训练业务迁至东南亚数据中心,以获取英伟达晶片,绕过美国出口禁令。今年4月,美国禁止英伟达H20晶片对华出口后,此类海外项目激增。中国初创企业DeepSeek则囤积晶片,并在国内训练模型,同时与华为合作开发下一代国产AI晶片。

字节跳动今年购买的英伟达晶片量超过任何其他中国企业,但监管机构已禁止其在新数据中心使用此类晶片。公司正储备计算能力,为超过10亿用户提供服务。这些举措不仅缓解了AI训练数据获取难题,还推动国产技术自主化。

未来出路:合成数据与政策协调成关键

专家认为,解决AI训练数据危机的路径包括生成合成数据集、优化现有数据利用率,以及国际政策协调。英伟达等公司已推出工具,如SDG,用于创建大型逼真数据集,支持代理式AI训练。同时,新闻业中的AI应用也在探索许可与诉讼间的平衡,避免“淘金热”耗尽人类文本资源。

随着生成式AI爆发,数据质量而非数量将成为竞争焦点。开发者需注重许可合规,媒体则可通过授权协议获利。最终,技术创新与法律框架的协同,将决定AI产业的可持续未来。

开启您的数字资产之旅

注册即享新人福利,加入全球数百万用户的选择

立即免费注册