鸿 网 互 联 www.68idc.cn

当前位置 : 服务器租用 > cms安装教程 > phpcms > >

phpcms 采集使用讲解与注意事项

来源:互联网 作者:佚名 时间:2015-08-11 10:06
phpcms是国内用的较多的一款内容管理系统网站后台,整体还是比较符合国人的习惯。我在业余时间(费了很多专门时间)试了一下这个后台, 参见 http://www.alongs.tk/cms/ ,当然这个网站做的比较一般,水平如此请见谅。 首先请看http://down.chinaz.com/try/20


phpcms是国内用的较多的一款内容管理系统网站后台,整体还是比较符合国人的习惯。我在业余时间(费了很多专门时间)试了一下这个后台,

参见 http://www.alongs.tk/cms/ ,当然这个网站做的比较一般,水平如此请见谅。


首先请看 http://down.chinaz.com/try/201203/1732_1.htm,已经大致讲了采集的使用。


1.新建一个采集点

网址类型我这里用的是单一网页。

因为http://roll.sohu.com/money/会在采集网址结果中出现,而我们的目标又不含这个网址,因此把这个网址给排除。

获取网址那一栏必须填,不填采集不到网址。坑爹的phpcms就是不会留空采集全部网址。


(1) 在第一条“全国成品没价格指数创最大跌幅” 上点击右键,审查元素,打开下面的框。

(2)在elements中找到这一段上面一点不远处的<div class="list14"> 把它复制出来,可以在上面点击右键,点copy,但是注意复制的是整个div,要粘贴到记事本中,把我们需要的<div class="list14">取出来就可以了。

(3)后面的<div class="pages">同理。



2.在内容规则中输入采集内容的办法

默认是<title>[内容]</title>,采集到的是<title>财经新闻滚动_搜狐资讯-搜狐滚动</title>

因此我们用文章中出现的

		<div class="title" title="全国成品油价格指数创最大跌幅-搜狐滚动">
			<h1>全国成品油价格指数创最大跌幅</h1>
作为标题来采集,<h1>[内容]</h1>可以可靠地得到标题。

最重要的是下面的内容规则,这关系到文章的内容能否正确地采集到。



同上,我们要对所要采集的目标网页进行分析。

如图示<!-- 正文 -->是文章内容开始的地方,在下面可以看到,文章结束后有一个<!-- 分享 -->

因此就这样设置

<!-- 正文 -->[内容]
<!-- 分享 -->
即可采集到内容,在右侧还有过滤选项,不要看这里面输入的非常麻烦,点击选择,会弹出一个框,进行选择,这里将不需要的脚本给过滤掉。

3.进行测试

点击测试,显示采集到的网址。


右侧有查看,点击可以看采集的内容。


采集的内容,如果出错,则内容或标题为空。



4.设置好以后,就可以进行采集网址,采集内容,导入内容了

在导入的时候要设置导入选项,这个比较简单大家肯定都会。


5.注意事项。

(1)采集经常会失败,就是什么都没采集到。 因为目标网页太复杂,所以尽量选择干净的网页去采集。设置的采集规则要尽量通用。

(2)重要!!! 坑爹的phpcms在这个地方有个bug,如果第一次成功采集,第二次再进行采集的时候会出现

V9第二次采集时出现“没有找到网址列表,请先进行网址采集“的问题。


解决方案请见:

http://bbs.phpcms.cn/thread-444471-1-1.html 

摘抄如下:

如果出现些问题,用MYSQL管理工具,清除v9_collection_history这个表的所有内容即可。
不过还有一个小技巧就是,因为你采集一次过后,导出内容后,这些内容就没有啥用了,可以删除了,如果你在后台一页一页删除实在是太麻烦了,也可以直接删除 v9_collection_content 这个表的所有内容即可。

还可以在已导入 中把已导入的全部删除。



附一个导出来的规则,存到txt文件中,可以从后台导入使用。

eyJsYXN0ZGF0ZSI6IjE0MTUxOTMyMzUiLCJzb3VyY2VjaGFyc2V0IjoiZ2JrIiwic291cmNldHlwZSI6IjMiLCJ1cmxwYWdlIjoiaHR0cDpcL1wvcm9sbC5zb2h1LmNvbVwvbW9uZXlcLyIsInBhZ2VzaXplX3N0YXJ0IjoiMSIsInBhZ2VzaXplX2VuZCI6IjEwIiwicGFnZV9iYXNlIjoiIiwicGFyX251bSI6IjEiLCJ1cmxfY29udGFpbiI6IiIsInVybF9leGNlcHQiOiJodHRwOlwvXC9yb2xsLnNvaHUuY29tXC9tb25leVwvIiwidXJsX3N0YXJ0IjoiPGRpdiBjbGFzcz1cImxpc3QxNFwiPiIsInVybF9lbmQiOiI8ZGl2IGNsYXNzPVwicGFnZXNcIj4iLCJ0aXRsZV9ydWxlIjoiPGgxIGl0ZW1wcm9wPVwiaGVhZGxpbmVcIj5bXHU1MTg1XHU1YmI5XTxcL2gxPiIsInRpdGxlX2h0bWxfcnVsZSI6IiIsImF1dGhvcl9ydWxlIjoiIiwiYXV0aG9yX2h0bWxfcnVsZSI6IiIsImNvbWVmb3JtX3J1bGUiOiIiLCJjb21lZm9ybV9odG1sX3J1bGUiOiIiLCJ0aW1lX3J1bGUiOiIiLCJ0aW1lX2h0bWxfcnVsZSI6IiIsImNvbnRlbnRfcnVsZSI6IjwhLS0gXHU2YjYzXHU2NTg3IC0tPltcdTUxODVcdTViYjldXHJcbjwhLS0gXHU1MjA2XHU0ZWFiIC0tPiIsImNvbnRlbnRfaHRtbF9ydWxlIjoiPHNjcmlwdChbXj5dKik+KC4qKTxcL3NjcmlwdD5bfF1cclxuIiwiY29udGVudF9wYWdlX3N0YXJ0IjoiIiwiY29udGVudF9wYWdlX2VuZCI6IiIsImNvbnRlbnRfcGFnZV9ydWxlIjoiMSIsImNvbnRlbnRfcGFnZSI6IjEiLCJjb250ZW50X25leHRwYWdlIjoiIiwiZG93bl9hdHRhY2htZW50IjoiMCIsIndhdGVybWFyayI6IjAiLCJjb2xsX29yZGVyIjoiMSIsImN1c3RvbWl6ZV9jb25maWciOiJhcnJheSAoXG4pIn0=

大概是用base64编码的规则吧。你可以导入后再进行一点个人的修改。




网友评论
<