5.7 手动新建采集规则示例（自己写采集规则）

专业版、基础版用户可参考以下教程自定义添加采集规则

手动新建采集规则示例（自己写采集规则）

365建站器集成有采集工具，用户可以自定义添加采集规则，采集规则主要涉及两步：

第一步：获取文章列表页网址

简单情形：有文章列表页，且翻页时网址包含递增的页码数字。

复杂情形：无页码如下拉自动加载，需要通过浏览器抓包获取真实的文章列表页。（需要熟悉浏览器抓包）

第二步：识别和提取所需内容，比如文章网址、文章标题、文章内容

简单情形：浏览器右键审查元素（推荐Google Chrome浏览器），查看网页源代码，找到所需内容前后唯一代码，用于匹配所需内容。

复杂情形：通过XPath 或者正则表达式匹配所需内容。（需要熟悉正则表达式等）

本教程均以上述简单情形来演示：

采集中国新闻网-滚动新闻：https://www.chinanews.com.cn/scroll-news/news1.html

上图说明：通过观察，以上网站有文章列表页，且翻页时网址包含递增的页码数字。

第1页：https://www.chinanews.com.cn/scroll-news/news1.html

第2页：https://www.chinanews.com.cn/scroll-news/news2.html

第3页：https://www.chinanews.com.cn/scroll-news/news3.html

……

第10页：https://www.chinanews.com.cn/scroll-news/news10.html

上图说明：“数据采集”——“新建”一个采集规则，将文章列表页添加进去，页码数字用(*)代替，英文括号和*，页码区间1-10

（不规则列表网址可不填写，常用于第1页的页码不是1，而是index.html的情形）

上图说明：点击“测试”，即可看到按照页码区间生成的文章列表页网址。

上图说明：浏览器打开文章列表页，右键“审查元素”，移动鼠标，确定文章列表页和源代码对应关系，寻找文章列表页前后可能唯一的html标签代码。

上图说明：将寻找到的文章列表页开头html代码，通过Ctrl+F搜索下，结果唯一即可。如上图列表页开头代码为 <div class="content_list">

备注说明：开头代码必须是全部源代码中的唯一值，用于确定所需内容区域的起点。

上图说明：将寻找到的文章列表页结尾html代码，通过Ctrl+F搜索下，结果能唯一最好。如上图列表页结尾代码为 <div id="more">

备注说明：结尾代码则可以不唯一，但必须是从开头代码位置算起，在所需内容区域里面未出现过的值，用于确定所需内容区域的终点。

上图说明：列表页开始代码 <div class="content_list"> 和列表页结尾代码 <div id="more"> 之间就是内容网址区域。

通过观察内容网址区域内的链接都带有 .shtml (频道页和文章页)

但是文章页链接还带有年份数字2021；因此可用 20 和 .shtml 作为内容网址包含字符。（非连续的包含字符用英文逗号隔开）

上图说明：内容网址区域是可选填写项，如果不填，则可能提取到非文章链接，比如频道页（采集时会过滤掉）。内容网址包含字符是必须填写项，用于识别和提取文章内容页链接。

内容网址匹配区域填写： <div class="content_list">[内容]<div id="more">

内容网址包含字符填写：20,.shtml

拼接地址：属于复杂情形用法，可不填。

传递参数到分页：属于复杂情形用法，可不填。

当前网址页码数据采集：默认不打勾。

上图说明：点击“网址采集测试”，即可看到识别和提取到的文章内容页链接。

上图说明：自定义填写“采集名称”和“分类”，然后“保存”此采集规则。（“2、内容采集规则”中，标题字段、内容字段默认用公共规则即可，其它选项用于复杂情形，可不填写）

上图说明：点击“开始采集”，能正常采集到内容代表添加成功。（试用版每个分类采集只能入库100篇文章，VIP版无限制）

上图说明：全部采集完成后，可点击“刷新”，显示最新的数据条数。（试用版每个分类采集只能入库100篇文章，VIP版无限制）

上图说明：进入文章库，可以详细查看采集到的文章内容。

可新建一个采集规则，对照填写，保存后采集测试：

上图说明：可新建一个采集规则，对照填写，保存后采集测试：

采集的列表网址：https://www.chinanews.com.cn/scroll-news/news(*).html

多页采集选项：1-10

内容网址区域匹配：<div class="content_list">[内容]<div id="more">

内容网址包含字符：20,.shtml

采集名称：中国新闻网-滚动新闻

分类：中国新闻网

以下三项为可选填写项（2、内容采集规则，通常情况下用公共规则即可）

标题字段规则：<h1>[内容]</h1>

内容字段规则：<div class="left_zw">[内容]<div class="adEditor">

过滤规则（增加一行填写）：(\n|\r| )=>空

入门介绍

安装必读

1.第一步：服务器端环境(2选1)

2.第二步：本地端365建站器

3.第三步：批量创建网站

4.第四步：设置网站模板

5.第五步：批量采集文章

6.第六步：批量发布文章

7.批量设置js广告

8.定时计划任务

9.批量主动推送（百度token）

10.友情链接、轮链、内外链

11.图片相关功能与设置

12.全局设置及其他功能

13.页面自定义内容调用

14.插件相关功能说明

15.网站相关账号和密码

16.建站器信息备份与迁移

17.服务器网站备份与迁移

18.版本更新：软件和源码

其它问题

旧版文档

其它

5.7 手动新建采集规则示例（自己写采集规则）