08CMS v3.4 版本采集系统使用教程 - 米库模板-苹果cms模板

虽然现在坛子里人气不咋滴，有不少提问贴没有解决，但是这些都会过去，G大说再进行一轮开发之后就将进入市场推广了，也就意味着官方不会再一味的闭门开发

这个所谓的 “再一轮开发”或许就是指V3.5版本吧，GBK编码版本已经发布了，再出UTF8的就应该算是完成了吧，具体还看官方的日程安排了

这个教程版的版主也当了不短的一段
时间了，最郁闷的事就是老看见人在那吼：不会用啊，文档太少了……云云。汗颜哪，貌似有点占着茅坑不拉屎的嫌疑

这也不能全怪我啊，我也很想吼一句：G大你丫也太低调了点吧，让不让人活了，自己不出来也就算了，多少给个日程表，俺也好有个方向啊，瞎子走路还有盲棍探路呢，好歹给老娘指条路啊

—————- 美丽分割线 —————-

抱怨到这里结束吧，上正题

08CMS采集系统的使用说明

因为08CMS架构上的特殊性，目前市面上还没有完美支持的外部采集器提供（我没看到，有知道的分享下哈）

单篇采集一般的采集器都能应付，问题主要出在合辑的采集

不过即使有我也会选择系统自带的采集器，毕竟合适的才是最好的，系统自带的采集器明显是量身定做的

个人感觉，即使目前系统自带的采集器还有不少不足，但是也不是一般的采集器能替代的，契合度上的先天优势哈

下面开始介绍08CMS内置的采集系统

第一、登陆
后台进入采集管理

[attach]1646[/attach]

那些个什么怎么登陆后台，点击先后顺序就别问我了哈

第二、第一次使用采集系统，系统会要求添加采集
模型

所谓采集模型，就是搭建采集的框架，设定需要采集的
字段以及采集到的内容添加至哪个文档模型

这里的
设置有个让人小郁闷的地方，只要填写模型名称就可以建立模型

相关设置得在建立之后才能编辑，个人觉得在建立模型中设置采集模型相关
参数比较靠谱

第三步、编辑采集模型

请看图解：

图一、编辑模型

图二、

模型编辑界面

到这里，采集模型的添加完成了

下面开始添加采集任务

第四步、采集任务的添加

下面是采集任务界面图解，请仔细阅读图中注释

第六步、重头戏开始了，采集规则的设置

首先分析采集目标页的代码结构，这里以IE浏览器为例

查看采集目标页，点击IE的

页面 —- 查看源文件

很简单就能看到目标页面的代码结构

采集页面的代码分析，主要是找采集目标的特征

页面太大这里不好拿上来解析，上图解释网址采集界面相关规则的设置

点击提交保存这里的设置

我很奇怪为什么不直接跳到下一步内容采集而是提交之后回到这个页面

在这个截图页面的下面还有一部分，称之为追溯网址规则

这个不是非必填项，一般不用

而且这个只能得到一个网址，而不是网址列表，个人感觉有点鸡肋，附上官方的解释

追溯网址：内容网址的一种延伸。有部分被采集文档，个别字段的内容不在主内容页，而是在附加页面，特别是有关附件的内容，追溯网址用于采集其附加页面网址，每个内容网址可追溯两级附加页面，追溯网址2是在追溯网址1的基础上采集的。

追溯概念举例：我们去下载站的时候，往往点进去的页面只有软件信息说明和一个或多个进入下载页面的链接

注意：这里是进入下载页面的链接，而不是下载地址。当我们要下载该软件的时候要先打开这个下载页面才能看到下载地址

这里就是一级追溯，因为我们要再点一次才能到达下载页面。这时我们的1级追溯地址就是那个进入下载页面的链接