AI自循环训练危机：当机器学习开始"近亲繁殖"

最新研究表明，AI模型使用自身生成内容进行训练会导致严重的性能退化问题，这一现象被专家称为"模型崩溃"。

数据污染危机：AI的"近亲繁殖"效应

2024年7月《自然》杂志发表的研究揭示了一个令人担忧的现象：当生成式AI使用自身输出内容作为训练数据时，仅需5-7个训练周期（示例数据），模型就会产生大量无意义的输出。这种现象类似于生物学上的近亲繁殖，导致AI系统快速退化。

"AI生成内容在互联网上的快速扩张，可能对模型本身造成毁灭性影响。" —— 杜克大学AI专家Emily Wenger

研究人员通过实验展示了这一退化过程：

研究表明，这种退化并非特定提示导致，而是训练过程的系统性缺陷。数维云AI实验室的专家指出，这种现象在自然语言处理领域尤为明显，需要特别警惕。

模型崩溃的核心问题是数据多样性的逐步丧失：

业界正在探索多种应对策略：

数维云的研究团队发现，在AI训练过程中引入专业领域的人类专家审核机制，可以将模型崩溃的发生时间推迟3-5个训练周期（示例数据）。

虽然模型崩溃问题尚未大规模爆发，但随着AI生成内容在互联网占比预计将在2026年达到35%（示例数据），这一问题亟需行业协同解决。保持人类原创内容的持续输入，可能是维持AI系统健康发展的关键。

核心结论：

AI发展不能脱离人类智慧的滋养，模型自循环训练可能导致严重的性能退化。行业需要建立有效机制，确保训练数据的质量和多样性，这是AI持续健康发展的基础。