Cloudflare 推出了Markdown for Agents功能,使 AI 爬虫能够通过发送Accept: text/markdown请求头来获取网页的 Markdown 版本。该公司还同时提出了一种名为 “Content Signals” 的机制,允许内容发布者声明其内容是否可以用于 AI 训练、搜索索引或推理使用。尽管这一举措是为让大语言模型(LLM)更容易理解网页内容,但它也延续了一个长期争论:互联网是否应该为 AI 代理重新设计,还是 AI 公司应当适应现有的 Web 标准。

 

Cloudflare 认为,HTML 页面包含导航、样式和脚本等内容,而这些对 LLM 来说几乎没有语义价值。例如,一个简单的 Markdown 标题大约消耗 3 个 token,而等效的 HTML 标记则需要 12 到 15 个 token。公司表示,一篇在 HTML 形式下需要约 16,180 个 token 的博客文章,在转换为 Markdown 后仅需约 3,150 个 token。

 

AI 代理可以通过在 Accept 请求头中指定text/markdown来触发这一转换。Cloudflare 的边缘服务器随后会获取原始 HTML 页面,将其转换为 Markdown,并返回结果,同时附带一个x-markdown-tokens响应头,用于显示估算的 token 数量。其目标是提升检索增强生成(RAG)流程的效率。

 

“Content Signals” 提案还增加了一层“同意机制”。发布者可以在 robots.txt 的注释中插入三个信号:searchai-inputai-train,用于声明内容是否允许被搜索索引、作为实时 AI 输入使用或被纳入模型训练。“yes” 表示允许,“no” 表示禁止,而未设置则表示无明确偏好。Cloudflare 也承认,这些信号仅表达偏好,并不具备强制执行力。同时,公司指出,目前 Markdown 响应默认会包含Content-Signal: ai-train=yes, search=yes, ai-input=yes。Cloudflare 表示,许多客户已经部署了托管的 robots.txt 文件,允许搜索引擎抓取但禁止用于训练,这表明市场对更细粒度控制的需求正在增长。

 

这一举措也引发了搜索引擎领域人士的质疑。谷歌的John Mueller 提出疑问:LLM 爬虫是否会将 Markdown 视为普通文本文件,以及是否能正确处理其中的链接与导航结构。他在 Bluesky 上称,将页面转换为 Markdown 专门提供给机器人是一种“愚蠢的想法”,认为这种“扁平化”处理会丢失上下文与结构信息,并指出 LLM 已经能够解析 HTML,甚至可以理解图像内容。

 

出版方在如何应对 AI 抓取问题上也存在分歧。Medium在 2023 年采取默认禁止用于 AI 训练的政策,更新了服务条款与 robots.txt 来阻止 AI 爬虫,并与 Reuters、The New York Times、CNN 等媒体一样,对 OpenAI 的爬虫实施全站封锁。Medium CEO 表示,AI 公司是在未获得同意或补偿的情况下使用作者内容。Cloudflare 也曾尝试一种“按抓取付费”的模式:向 AI 爬虫返回 HTTP 402(Payment Required)响应。发布者可以选择允许、收费或阻止特定机器人,从而获得内容变现的可能性。

 

随着越来越多的发布者开始封锁 AI 爬虫或探索付费访问模式,围绕同意机制、补偿方式以及技术适配的争论预计将进一步加剧。Markdown-for-Agents 是否会成为广泛采用的标准,还是仅作为一种可选优化存在,将取决于 AI 平台如何响应这些信号,以及发布者是否认为为机器提供“友好格式”具有实际价值。

标签: none

添加新评论