AI训练数据短缺预警：公共文本即将被“榨干”

币安资讯团队

· 2026年04月11日 · 阅读 9547

人工智能（AI）领域的快速发展正面临一个隐忧：AI训练数据即将遭遇严重瓶颈。根据研究机构预测，到2028年左右，用于训练AI模型的数据集规模将达到公共在线文本总量的极限。这意味着，AI可能在短短4年内耗尽可用数据资源，而互联网内容的年增长率不足10%，远低于AI训练数据集每年翻倍的速度。

过去十年，神经网络规模扩大和海量AI训练数据的注入，推动了大型语言模型（LLM）的爆发式进步，如ChatGPT便是典型代表。然而，可用数据的增长已无法跟上AI模型的“胃口”。内容供应商正通过软件代码和条款修改，限制爬虫抓取，从2023年的不足3%激增至2024年的20%-33%。这不仅引发数据共享危机，还迫使开发者寻求变通方案。

版权风暴来袭：媒体巨头集体起诉AI公司

围绕AI训练数据的合法性，全球知识产权争议日益激烈。2023年12月，《纽约时报》起诉OpenAI和微软，指控其未经授权使用内容训练模型；今年4月，纽约市Alden全球资本旗下的8家报纸也发起类似诉讼。多家媒体组织联合呼吁，建立新规则：要求AI公司透明化训练数据集、征得权利人同意，并消除模型中的偏见与错误信息。

OECD最新报告指出，数据抓取已成为生成式AI获取海量训练数据的主要手段，但这一过程频繁触及版权、商标和数据库权利。报告数据显示，约70%的AI训练数据集缺乏清晰来源许可，部分如“Books3”数据集涉嫌收录17万本未经授权书籍，用于训练Meta的Llama模型。经济合作与发展组织呼吁全球协调政策框架和技术创新，以平衡技术迭代与利益分配。

数据抓取定义：通过自动化工具从网站、数据库或社交平台提取信息，用于收集、预处理和模型训练。
典型案例：GPT-3训练数据超80%来自Common Crawl公开网络抓取数据集。
隐患：可能包含受保护书籍、文章、图像及个人隐私信息。

中国AI企业突围：海外训练与国产芯片双管齐下

面对数据与硬件双重压力，中国科技巨头正采取创新策略规避限制。英国媒体报道，阿里巴巴和字节跳动将AI模型训练业务迁至东南亚数据中心，以获取英伟达晶片，绕过美国出口禁令。今年4月，美国禁止英伟达H20晶片对华出口后，此类海外项目激增。中国初创企业DeepSeek则囤积晶片，并在国内训练模型，同时与华为合作开发下一代国产AI晶片。

字节跳动今年购买的英伟达晶片量超过任何其他中国企业，但监管机构已禁止其在新数据中心使用此类晶片。公司正储备计算能力，为超过10亿用户提供服务。这些举措不仅缓解了AI训练数据获取难题，还推动国产技术自主化。

未来出路：合成数据与政策协调成关键

专家认为，解决AI训练数据危机的路径包括生成合成数据集、优化现有数据利用率，以及国际政策协调。英伟达等公司已推出工具，如SDG，用于创建大型逼真数据集，支持代理式AI训练。同时，新闻业中的AI应用也在探索许可与诉讼间的平衡，避免“淘金热”耗尽人类文本资源。

随着生成式AI爆发，数据质量而非数量将成为竞争焦点。开发者需注重许可合规，媒体则可通过授权协议获利。最终，技术创新与法律框架的协同，将决定AI产业的可持续未来。

开启您的数字资产之旅

注册即享新人福利,加入全球数百万用户的选择

立即免费注册

AI训练数据短缺预警：公共文本即将被“榨干”

版权风暴来袭：媒体巨头集体起诉AI公司

中国AI企业突围：海外训练与国产芯片双管齐下

未来出路：合成数据与政策协调成关键

热门文章

币安稳定币：加密世界中的“定海神针”，你了解多少？

2025年低利率时代来袭！收益增强策略如何助投资者破局求胜？

AI赛道投资的长期逻辑：穿越周期，看清未来十年的核心驱动力

零基础入门App Rollup：分步教程教你打包高效JavaScript应用，体积小性能爆表！

币安卡申请全攻略：手把手教你将加密货币变成日常消费力

开启您的数字资产之旅