花要库尔 Crawler 插件使用文档
一、插件简介
花要库尔 Crawler 是一个功能强大的 WordPress 文章免费采集插件,支持自定义采集规则和批量采集。
主要功能包括:自定义采集规则,批量采集文章,图片本地化处理,内容智能过滤。
二、主要功能区域
插件分为三个主要功能区:采集规则,采集内容,以下是采集规则介绍
#标题选择器示例:
.show-title h1 // 选择class为show-title下的h1标签
#post-title // 选择id为post-title的元素
#标题排除示例:
.subtitle // 排除副标题
.date, .author // 排除日期和作者信息
#内容选择器示例:
.article-content // 选择class为article-content的元素
#post-content // 选择id为post-content的元素
#内容排除示例:
.advertisement // 排除广告区块
.related-posts // 排除相关文章
.social-share // 排除分享按钮
#如果有多个相同的标签,你可以使用以下方法来精确选择要采集的标签:
#使用索引选择器:
.article-title h1:first-child /* 选择第一个h1 */
.article-title h1:last-child /* 选择最后一个h1 */
.article-title h1:nth-child(2) /* 选择第2个h1 */
#使用属性选择器:
.article-title h1[class="specific-class"] /* 选择有特定class的h1 */
.article-title h1[id="specific-id"] /* 选择有特定id的h1 */
#使用子元素选择器:
.article-title > h1 /* 只选择直接子元素h1 */
#使用组合选择器:
.article-title h1:not(.exclude-class) /* 选择不包含特定class的h1 */
.article-title h1:has(span) /* 选择包含span的h1 */
#使用相邻选择器:
.article-title h1 + h1 /* 选择紧跟在h1后面的h1 */
#例如,如果你要排除带有特定文本或属性的标签:
/* 标题选择器 */
.article-title h1
/* 标题排除选择器 */
.article-title h1.exclude-this, .article-title h1[data-type="ad"]
#实际应用示例:
/* 选择第一个h1但排除带有特定class的 */
.article-title h1:first-child:not(.ad)
/* 选择包含特定文本的h1 */
.article-title h1:contains("文章标题")
/* 选择不包含特定元素的h1 */
.article-title h1:not(:has(span))
三、注意事项
选择器说明;建议使用浏览器开发者工具查看目标元素的选择器,可以使用多个选择器组合,用逗号分隔,排除选择器可以精确控制不需要的内容.
图片处理:建议先测试单个网址,图片本地化可能会增加采集时间,确保服务器有足够的存储空间.
性能建议:批量采集时建议每次不超过10个网址,定期清理不需要的采集规则,采集大量文章时注意服务器负载.
四、常见问题
1:采集失败的可能原因? 选择器设置不正确,目标网站禁止采集,网络连接不稳定,服务器超时设置过短.
2:图片无法显示? 检查原站图片链接是否有效,确认图片选择器设置正确,检查服务器是否有写入权限.
3:内容不完整? 检查选择器是否准确,确认排除规则是否正确,查看目标网页源代码结构.
五、联系与支持
如果您在使用过程中遇到问题,可以通过以下方式联系作者:
QQ:372421150邮箱:372421150@qq.com
如果觉得插件对您有帮助,欢迎赞助支持!
使用声明:
1、本站所有素材,仅限学习交流,请勿用于商业用途.
2、下载积分可通过日常 签到、绑定邮箱 等途径免费获得!
3、本站提供的源码、模板、软件工具等其他资源,均不包含技术服务,请大家谅解!由于资源大多存储在云盘,如出现链接失效请评论反馈。
花要库尔 » 花要库尔 Crawler
花要库尔 » 花要库尔 Crawler