5.7 手动新建采集规则示例(自己写采集规则)

365站群采集规则数量:1770个(旗舰版、终身版可以全部使用),每月新增中,最近更新2024-07-23

专业版、基础版用户可参考以下教程自定义添加采集规则


手动新建采集规则示例(自己写采集规则)


365建站器集成有采集工具,用户可以自定义添加采集规则,采集规则主要涉及两步:


第一步:获取文章列表页网址

简单情形:有文章列表页,且翻页时网址包含递增的页码数字。

复杂情形:无页码如下拉自动加载,需要通过浏览器抓包获取真实的文章列表页。(需要熟悉浏览器抓包)


第二步:识别和提取所需内容,比如文章网址、文章标题、文章内容

简单情形:浏览器右键审查元素(推荐Google Chrome浏览器),查看网页源代码,找到所需内容前后唯一代码,用于匹配所需内容。

复杂情形:通过XPath 或者 正则表达式匹配所需内容。(需要熟悉正则表达式等)


本教程均以上述简单情形来演示:

采集中国新闻网-滚动新闻:https://www.chinanews.com.cn/scroll-news/news1.html






上图说明:通过观察,以上网站有文章列表页,且翻页时网址包含递增的页码数字。


1页:https://www.chinanews.com.cn/scroll-news/news1.html

2页:https://www.chinanews.com.cn/scroll-news/news2.html

3页:https://www.chinanews.com.cn/scroll-news/news3.html

……

10页:https://www.chinanews.com.cn/scroll-news/news10.html




上图说明:“数据采集”——“新建”一个采集规则,将文章列表页添加进去,页码数字用(*)代替,英文括号和*,页码区间1-10

(不规则列表网址可不填写,常用于第1页的页码不是1,而是index.html的情形)



上图说明:点击“测试”,即可看到按照页码区间生成的文章列表页网址。



上图说明:浏览器打开文章列表页,右键“审查元素”,移动鼠标,确定文章列表页和源代码对应关系,寻找文章列表页前后可能唯一的html标签代码。



上图说明:浏览器打开文章列表页,右键“审查元素”,移动鼠标,确定文章列表页和源代码对应关系,寻找文章列表页前后可能唯一的html标签代码。



上图说明:将寻找到的文章列表页开头html代码,通过Ctrl+F搜索下,结果唯一即可。如上图列表页开头代码为 <div class="content_list">

备注说明:开头代码必须是全部源代码中的唯一值,用于确定所需内容区域的起点。



上图说明:将寻找到的文章列表页结尾html代码,通过Ctrl+F搜索下,结果能唯一最好。如上图列表页结尾代码为 <div id="more">

备注说明:结尾代码则可以不唯一,但必须是从开头代码位置算起,在所需内容区域里面未出现过的值,用于确定所需内容区域的终点。



上图说明:列表页开始代码 <div class="content_list"> 和 列表页结尾代码 <div id="more"> 之间就是内容网址区域。


通过观察 内容网址区域 内的链接都带有 .shtml (频道页 和 文章页)

但是文章页链接还带有年份数字2021;因此可用 20.shtml 作为内容网址包含字符。(非连续的包含字符用英文逗号隔开

 


上图说明:内容网址区域是可选填写项,如果不填,则可能提取到非文章链接,比如频道页(采集时会过滤掉)。内容网址包含字符是必须填写项,用于识别和提取文章内容页链接。


内容网址匹配区域填写: <div class="content_list">[内容]<div id="more">

内容网址包含字符填写:20,.shtml


拼接地址:属于复杂情形用法,可不填。

传递参数到分页:属于复杂情形用法,可不填。

当前网址页码数据采集:默认不打勾。



上图说明:点击“网址采集测试”,即可看到识别和提取到的文章内容页链接。



上图说明:自定义填写“采集名称”和“分类”,然后“保存”此采集规则。(“2、内容采集规则”中,标题字段、内容字段默认用公共规则即可,其它选项用于复杂情形,可不填写)



上图说明:点击“开始采集”,能正常采集到内容代表添加成功。(试用版每个分类采集只能入库100篇文章,VIP版无限制)



上图说明:全部采集完成后,可点击“刷新”,显示最新的数据条数。(试用版每个分类采集只能入库100篇文章,VIP版无限制)



上图说明:进入文章库,可以详细查看采集到的文章内容。



可新建一个采集规则,对照填写,保存后采集测试:

2021-12-02_151909.png

上图说明:可新建一个采集规则,对照填写,保存后采集测试:


采集的列表网址:https://www.chinanews.com.cn/scroll-news/news(*).html

多页采集选项:1-10


内容网址区域匹配:<div class="content_list">[内容]<div id="more">

内容网址包含字符:20,.shtml


采集名称:中国新闻网-滚动新闻

分类:中国新闻网



以下三项为可选填写项(2、内容采集规则,通常情况下用公共规则即可)


标题字段规则:<h1>[内容]</h1>

内容字段规则:<div class="left_zw">[内容]<div class="adEditor">


过滤规则(增加一行填写):(\n|\r|  )=>空