×

关注微信公众号

免备案网站空间虚拟主机双线空间域名查询PS数码后期
photoshop互助课堂数百G视频教程下载英语培训机构初中英语如何学随时随地聆听大师开讲/课堂
酷素材!视频教程打包下手绘教程抠图教程路径专辑photoshop cs3视频教程
查看: 2468|回复: 19

四步教会您制作采集器

[复制链接]
发表于 2007-2-11 14:46:19 | 显示全部楼层 |阅读模式
很多朋友在论坛上发贴询问采集器的制作方法和一些细节问题。为了使得更多的站长更加方便地使用SupeSite的采集功能,特作此教程。

首先简单说一下制作采集器的基本原理和思路:

1、确定您要采集哪个页面的新闻,将这些页面的地址填入到“索引页面url地址(图4和5)”;
本帖的地址:http://bbs.jcwcn.com/forum.php?mod=viewthread&tid=57576
跟着教程做一遍,做完的图要到这里评论交作业,教程有看不懂的地方,可以在贴子下面评论

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?[立即注册]

x
 楼主| 发表于 2007-2-11 14:47:08 | 显示全部楼层
酷素材
2、确定在这些页面您要采集的内容区域,因为不是一个网页所有的内容都要采集回来,而是采集一个网页的一部分内容,所以您必须告诉程序您要采集的区域,也就是“列表区域识别规则”;(图4和5)
3、第2步确定区域之后,还要告诉程序您要采集的文章链接,也就是“文章链接url识别规则”。(图4和5)
4、现在已经确定了大的采集框架,接下来要告诉程序在一个文章页面,文章的标题,文章的来源和作者分别是什么。然后就是一篇文章内容的范围,也就是说一个文章页面内,真正您需要采集的范围,就是“文章内容识别规则”。最后设置分页的区域和分页的链接地址。(图6)。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?[立即注册]

x
 楼主| 发表于 2007-2-11 14:47:29 | 显示全部楼层
5、以上4个步骤已经确定了采集的范围,如果您需要过滤标题和内容,请根据您的要求设置“内容页面整理设置”。
以上几个步骤确定范围都是通过查看页面源码,进行设置的,截取的方法需要一些经验,练习2--3次就可以领悟到了。

接下来介绍采集器的基本原理和步骤:

第一:打开后台的采集器,点击“添加新机器人”。(图1)

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?[立即注册]

x
 楼主| 发表于 2007-2-11 14:47:44 | 显示全部楼层
第二:填写基本设置:(图2)

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?[立即注册]

x
 楼主| 发表于 2007-2-11 14:48:05 | 显示全部楼层
酷素材
这里需要特别指出的有两个地方:单次采集个数和采集页面编码。单次采集个数尽量设置较小的数字,以免超时。采集页面编码是您采        集网页的编码,并不是您站点的编码。这里切记!!
      查看采集页面编码的方法:点击网页头部的“查看”,然后点击“源文件”,然后找到类似“<meta http-equiv="Content-Type"             content="text/html; charset=gb2312" />” ,charset后面的就是这里需要填写的“采集页面编码”。(图3)

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?[立即注册]

x
 楼主| 发表于 2007-2-11 14:48:20 | 显示全部楼层
酷素材
第三:列表页面采集设置:(图4)和(图5)

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?[立即注册]

x
 楼主| 发表于 2007-2-11 14:49:05 | 显示全部楼层
这里设置的是采集页面的url地址,采集内容的区域范围,采集文章标题的url地址。
      采集页面的url地址有两种设置方法:手动输入(图4)和自动增长(图5)。手动输入需要您自己将所需采集的地址逐行输入。自动增长       只需填入采集页面的地址和页面页码。详见图5。用代替分页变量。
      采集内容的范围用
    代替,采集文章的标题用[url]代替。
    第四:内容页面采集设置:(图6)
          这里需要设置的采集规则有:文章标题,文章来源(选填),文章作者(选填),文章内容,分页设置(选填)。
          文章标题用[subject]代替,文章来源用[from]代替,文章作者用[author]代替,文章内容用[message]代替,分页区域用[pagearea]代        替,分页链接用代替。
          之后的过滤设置可以根据您的需要和采集页面的具体情况进行填写。
          设置完毕之后点击提交,然后点击“开始采集”(图7),图8是采集的过程,采集完毕之后点击“查看结果”(图9),如果您的采集规       则正确,可以得到图10的页面,最后将采集的内容导入资讯。这里说明一点:采集的内容只能够导入资讯这个频道。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?[立即注册]

x
发表于 2007-2-11 15:55:02 | 显示全部楼层
采集图片???#kt..jcwcn.com@
发表于 2007-2-26 09:37:52 | 显示全部楼层
这是个软件啊,我还以为自己设计程序呢.不过很好,在那里能下到这个软件啊?(^#@%^ (^#@%^ (^#@%^
发表于 2007-2-26 10:04:33 | 显示全部楼层
原帖由 hongbo21 于 2007-2-26 09:37 发表
在那里能下到这个软件啊?


你可以到这里
http://www.jcwcn.com/html/discuz/
右边有下载,SupeSite V5.0 Final
发表于 2017-9-2 22:20:11 | 显示全部楼层
很不错。。。
回复 支持 反对

使用道具 举报

发表于 2017-9-2 22:15:32 | 显示全部楼层
难得一见的好帖
回复 支持 反对

使用道具 举报

发表于 2017-9-2 21:58:12 | 显示全部楼层
很好哦。。。
回复 支持 反对

使用道具 举报

发表于 2017-9-2 22:11:34 | 显示全部楼层
不错不错
回复 支持 反对

使用道具 举报

发表于 2017-9-2 22:50:06 | 显示全部楼层
好帖子要收藏
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | [立即注册]

本版积分规则

2345