内容提取同步4 积分URL 提取网页抓取小红书

URL 内容提取

从小红书和其他网页中提取可读主内容。

它能做什么

从网页中提取干净、可读的正文内容一直很麻烦,尤其是小红书、微信公众号或重 JavaScript 页面。这个连接器会把任意 URL 的主内容以结构化 Markdown 形式返回,并附带标题、规范 URL 和内容长度。

输入参数

参数格式示例必填
urlstringhttps://www.xiaohongshu.com/explore/abcd1234

输出结果

字段类型说明
titlestring从页面中提取出的标题
urlstring页面的规范 URL
contentLengthnumber提取出的主内容字符数

示例输出

输入

url: "https://www.xiaohongshu.com/explore/abcd1234"

输出

# URL Extract
- Title: 10 Hidden Cafes in Shanghai You Must Visit
- URL: https://www.xiaohongshu.com/explore/abcd1234
- Content Length: 2,340 characters

结果解读

The Xiaohongshu note was successfully extracted. The main content is 2,340 characters and covers hidden cafe recommendations in Shanghai.

最近测试:2026-03-10

如何安装

通过 CLI

$ vernclaw-cli invoke extract.url --url <value>

通过网页

  1. 访问连接器目录并找到 URL 内容提取。
  2. 点击“安装连接器”,并按提示确认任何训练相关要求。
  3. 如果需要,请完成授权。
  4. 之后即可在 Chat 或 CLI 中使用该连接器。

鉴权与权限

是否需要 OAuth
托管鉴权已内置,无需自备 API Key
自带 Key(BYOK)v1 暂不支持
是否记录审计日志每次请求都会记录输入、结果、成本和时间戳
训练确认不需要

管理员可以在后台通过黑名单或白名单限制这个连接器。

限制与边界情况

  • 位于登录墙或 CAPTCHA 后的页面可能提取失败。
  • 非常大的页面(正文超过约 100KB)可能会被截断。
  • 需要大量 JavaScript 渲染的动态 SPA 页面,可能只返回不完整内容。
  • 已对小红书和微信公众号文章链接做了专项支持与测试。

常见用法

读取一篇小红书笔记并提取要点

粘贴笔记链接,即可获得标题、正文和字符数。

提取文章正文供后续摘要

把 URL 交给该连接器,再把输出串联给摘要器。

常见问题

支持哪些网站?

支持任何公开可访问的网页;其中对小红书和微信公众号文章做了专门测试和优化。

会返回完整页面 HTML 吗?

不会。它会像阅读模式一样提取主要可读正文,并以 Markdown 返回。

遇到必须登录的页面怎么办?

需要鉴权的页面会提取失败。当前仅支持公开可访问内容。

相关连接器

适合 Agent 使用的链接