内容提取同步2 积分URL 提取网页抓取小红书

URL 内容提取

从小红书和其他网页中提取可读主内容。

它能做什么

从网页中提取干净、可读的正文内容一直很麻烦，尤其是小红书、微信公众号或重 JavaScript 页面。这个连接器会把任意 URL 的主内容以结构化 Markdown 形式返回，并附带标题、规范 URL 和内容长度。

输入参数

参数	格式	示例	必填
`url`	string	https://www.xiaohongshu.com/explore/abcd1234	是

输出结果

字段	类型	说明
`title`	string	从页面中提取出的标题
`url`	string	页面的规范 URL
`contentLength`	number	提取出的主内容字符数

示例输出

输入

url: "https://www.xiaohongshu.com/explore/abcd1234"

输出

# URL Extract
- Title: 10 Hidden Cafes in Shanghai You Must Visit
- URL: https://www.xiaohongshu.com/explore/abcd1234
- Content Length: 2,340 characters

结果解读

The Xiaohongshu note was successfully extracted. The main content is 2,340 characters and covers hidden cafe recommendations in Shanghai.

最近测试：2026-03-10

如何安装

通过 CLI

$ vernclaw-cli invoke extract.url --url <value>

通过网页

访问连接器目录并找到 URL 内容提取。
点击“安装连接器”，并按提示确认任何训练相关要求。
如果需要，请完成授权。
之后即可在 Chat 或 CLI 中使用该连接器。

鉴权与权限

是否需要 OAuth	否
托管鉴权	已内置，无需自备 API Key
自带 Key（BYOK）	v1 暂不支持
是否记录审计日志	每次请求都会记录输入、结果、成本和时间戳
训练确认	不需要

管理员可以在后台通过黑名单或白名单限制这个连接器。

限制与边界情况

•位于登录墙或 CAPTCHA 后的页面可能提取失败。
•非常大的页面（正文超过约 100KB）可能会被截断。
•需要大量 JavaScript 渲染的动态 SPA 页面，可能只返回不完整内容。
•已对小红书和微信公众号文章链接做了专项支持与测试。

常见用法

读取一篇小红书笔记并提取要点

粘贴笔记链接，即可获得标题、正文和字符数。

提取文章正文供后续摘要

把 URL 交给该连接器，再把输出串联给摘要器。

常见问题

支持哪些网站？

支持任何公开可访问的网页；其中对小红书和微信公众号文章做了专门测试和优化。

会返回完整页面 HTML 吗？

不会。它会像阅读模式一样提取主要可读正文，并以 Markdown 返回。

遇到必须登录的页面怎么办？

需要鉴权的页面会提取失败。当前仅支持公开可访问内容。