http://bbs.yoka.com/forum-43-1.html 我要采集的是这个网站,请高手帮忙,谢谢"/>

关于动网采集插件

发布时间:2024-05-14 10:12 发布:上海旅游网

问题描述:

最近给我自己论坛装上了采集插件 Post By:2009-9-13 0:18:00

插件还不错,不过就是不能采集回复贴,只能采集一个,就郁闷了!

讲讲自己的采集过程,采集插件动网论坛上就有。你安装下就行了,安装后,你点采集后,这个页面出现问题了。其实也不是什么问题,只是这页面上有框架在,而框架中的网站已经失效了。

下一步,点击项目管理,由于是刚安装的,没有什么采集规则在。所以要自己添加几个了,随便找几个站(你想采集的内容)。看他的列表页,看一下此列表的源代码。找到列表区域的代码,看一下列表中的url,如果在URL中有"&"这样的字符。那么恭喜你,你将采集不到这站的内容了。(因为在采集过程中,服务器向对方站点发出的请求时有误的,原因就是&这个字符。本来因该是&他的)。重新找另一站的,重复上面。

没有问题的话,你就可以设置采集规则了。

第一步中的“所属频道”一定选择正确,其他的就随便了。

第二步,设置列表页了。也就是把列表框给取出来,根据列表的源代码,看仔细。设置开始标志和结束标志。设列表索引分页标签要仔细,不设的话。只能采集这一页列表数据

第三步,就已看到你上一步设置的截取下来的列表代码了,设置截取url。截这个很简单的,如:<a href="xxxxxxx">xxx</a>.你就可以在开始标志设成<a href=" 结束就设成 " 。点下一步,进入下操作

第四步,系统会自动列出url,看下前面几个是不是正确,不是的话,就请改写上面的设置。这步主要是设置标题、文章的截取。其他几个可以不设置。设好后。进入下一步,系统会自动采集第一个url中的文章。确定无误后,点击下一步

第五步,这步是采集参数设置,过滤这项勾上A和font项,这个是为了去除采集来的文章中带有关键字链接。下面的什么倒序采集啊,随便你勾。没有多大的影响。最后点击完成,就做好了一个采集规则了。

第六步,点击采集管理=》数据采集,勾上刚才设置的采集项目,再点击 开始采集 就进行数据采集了(最好勾上正文预览功能,可以看到采集那些内容)

注意,由于此采集插件只单一设置了一个发帖账户,那就是 admin 你采集过来的帖子,多是以这个账户发的,不过不会增加 admin 的经验等信息,也不会自动更新今日发帖数目等等信息。此采集只是加文章内容,其他的都不会再论坛中体现出来。所以这个要自己修复下数据。。。

其中有几步需要告手指点一下 ,我没有看懂。
1、“设置开始标志和结束标志。设列表索引分页标签要仔细,不设的话。只能采集这一页列表数据”这个应该怎么设置呢?
2、我不懂在源文件中怎么查看我目前要采集的文件的起止地址
http://bbs.yoka.com/forum-43-1.html 我要采集的是这个网站,请高手帮忙,谢谢

问题解答:

关于动网采集插件这个旅游问答期待您的解答,请登录账号或关注微信公众号回答这个问题。

热点新闻