AI Info Hub

GitHub 宣布从 4 月 24 日起，Copilot Free、Pro 和 Pro+ 用户的交互数据将默认用于训练和改进 AI 模型，除非用户主动关闭。这不是普通隐私条款更新，而是头部 AI 编程平台第一次把真实编码交互数据作为默认训练燃料公开推进。

GitHub 最近更新 Copilot 数据使用政策，明确从 4 月 24 日起，Copilot Free、Pro 和 Pro+ 用户与系统的交互数据会被用于训练和改进 AI 模型，除非用户手动选择退出。公开说明里提到的范围不只是简单的提示词，还包括输入输出、展示给模型的代码片段、光标附近上下文、文件名、仓库结构以及对建议的反馈。Business 和 Enterprise 不在这次默认纳入范围内，但面向个人和小团队的主流付费层已经被覆盖。这让 GitHub 从提供 AI 编程助手，进一步走到把开发者真实使用过程持续反哺模型的阶段。这件事值得关注，是因为 AI 编程产品真正稀缺的往往不是更多公开代码，而是高质量、带上下文、带偏好、带结果反馈的真实交互数据。开发者接受了哪些建议、改了哪些建议、在什么文件和仓库结构里触发了补全，这些信息比单纯抓取公开仓库更接近真实软件生产过程。GitHub 公开承认这一点，说明 AI 编程助手的下一轮竞争，已经不只是拼模型基座，而是拼谁能持续拿到更贴近开发流程的一手行为数据。也正因为如此，这次调整很容易引发争议，尤其是在开源代码、AI 生成代码占比不断提高的背景下，很多人会追问默认开启是否足够透明，以及训练回路会不会进一步放大已有偏差。更长远看，这次政策变化可能会影响整个 AI 开发工具行业的产品设计和商业边界。第一，它会迫使更多开发者重新审视自己到底愿不愿意用真实工作流去换更强的助手。第二，它可能推动竞争对手把默认不训练、本地推理或企业隔离做成更明确的卖点。第三，它也在提醒行业，AI 编码工具不再只是一个功能插件，而是在逐步变成持续收集、学习和优化开发行为的基础设施层。对 GitHub 来说，这可能是能力飞轮，对用户来说，则是效率提升和数据控制之间一次更难回避的权衡。

GitHub 将默认把 Copilot 交互数据用于训练模型，AI 编程助手开始正面撞上数据边界问题