测试环境,Wordpress 6.8.2
Nginx 1.26.2
MySQL 5.7
PHP 7.4
测试时间:2025-9-10
视频教程:
图文教程说明:
打开 New Task 新建任务
任务名称:随便写
列表页URL:要采集的列表页网址
下一页正则模式:匹配列表页分页,示例<div class=”pages”>.*?</div>,中间的.*?表示要采集的结果。
内容页链接提取方式:获取要采集的内容页网址
提取方法: 使用 CSS 选择器:可使用F12选取XPath,示例 /html/body/div/div[4]/div[1]/div/div[2]/a,因为要循环采集列表所有链接,需要将最后一个数值去掉,改为/html/body/div/div[4]/div[1]/div/div/a。
测试抓取:点击 测试提取内容页链接,可以测试是否抓取列表页成功,成功的话会显示抓到的网址。
列表页抓取成功后,进行下一步设置:抓取标题和正文内容。
标题采集方式:以正则截取为例。
示例:<div class=”title”><h2>梦见和别人吵架打架</h2></div>,前缀:<div class=”title”><h2>,后缀:</h2>。
正文采集方式:以正则截取为例。
示例:<div class=”read-content”><p>梦见和别人吵架打架是什么意思?在中国传统解梦文化中,梦境往往具有某些征兆,那么在《周公解梦》的梦境解析里面,做梦梦到和别人吵架打架是啥预兆?以下是周公解梦大全查询的结果:</p><p>梦见和别人吵架是什么意思呢?梦见吵架打架就象征着杂乱….</p>
<p><strong>梦见和别人吵架打架分析</strong></p>
<p>人们往往是为了证明自己的观点..</p>
</div>
前缀:<div class=”read-content”>,后缀:</div>。
采集阶段:原内容过滤与替换
过滤HTML标签:比如要过滤正文中的链接,图片,只需要填写 a,img。
原内容过滤词:过滤特定的词,比如敏感词,广告词等。
原内容替换规则:替换一些词为你指定的词,以AAREPLACEZZ隔开,格式:替换前AAREPLACEZZ替换后,比如:老品牌AAREPLACEZZ知名品牌。
正文采集测试:点击 测试正文采集(包含过滤替换),成功的话会显示采集到 标题 和 正文(正文是经过过滤和替换规则处理的)。
请求头设置:对于有防护的网站需要模拟真实访问
请求 Cookie:F12获取该网站的Cookie值。
User-Agent:填写浏览器UA。
AI 处理设置:需要用AI改写的,开启这里;不需要AI处理的,选:否,直接发布。
AI 接口设置:填写你使用的AI接口,模型和密钥(APIKey),AI提供商都有说明。
内容改写指令:自定义要改写的提示词。
标题改写指令:填写改写标题的提示词,留空则不改写标题。
AI 输出后:过滤与替换:AI改写后的正文进行过滤和替换处理,比如一些特征词,敏感词等。
AI输出过滤词:过滤一些特征词,敏感词等。比如:首先,其次,结语等。
AI输出替换规则:以AAREPLACEZZ隔开,格式:替换前AAREPLACEZZ替换后,比如:智能改写AAREPLACEZZ人工润色。
发布与图片:发布之前是否需要插入图片。
图片插入方式:
A. 插入本地图片:上传一些自备的图片到某一个文件夹,填写该文件夹路径。
B. 采集网络图片:内置了搜狗图片的采集规则,{title} 表示文章标题,根据标题搜索图片。其他网站的图片自行测试。
C. 使用自定义图片链接:直接复制自备的图片链接。
插入图片数量:例如:1-3 (随机1到3张),或 2 (固定2张)。
插入位置:可选。
发布状态:可选 存为草稿 或 立即发布。
发布分类:该任务要发布到哪个分类。
定时自动采集:采集频率:可选 分钟、小时、天、周,比如 30分钟执行一次。
验证:安装WP Crontrol插件并检查运行时间是否一致。
定时任务调试:无视。
完整任务测试运行:任务设置完成,测试看效果,该效果为发布效果。
任务设置完成记得保存任务。
所有任务页面,可以导出导入任务,插件搬家的时候用保存任务,省去重新设置的麻烦。