中国教程网《Photoshop专家讲堂》光盘热售参与论坛活动,快速赚取金币精品素材,中英文字体
发新话题
打印

网站的整体策划推广

网站的整体策划推广


有很多网站,刚刚一推出,激情万丈,出手豪爽,广告就烧得特别的猛,流量也涨的非常快,但是广告一停,流量就直线下降,郁闷的找不到东南西北,不知道该如何是好。你是否有这种经历呢?如果有的话,这里给你分享一个网站运营理念:

网站推广非常重要,提高网站的粘度更加重要!

为什么这样说呢?这里先给大家算一下你就明白了。  

如果你推出一个新网站,通过各种推广,每天可以获得10000ip新流量,如果你的网站的粘度能够达到10%的话,也就是说每天会有1000IP新流量喜欢上你的网站,天天来上你的网站。一年之后的流量你知道会有多大么?  

365天之后,你网站的流量一共粘住的流量就使365*1000=36.5万ip


一天一万新流量,只要有10%的粘度,一年之后就可以达到每天三十多万的流量。这个数字可怕吧?


意识到了网站粘住流量的重要性,我们再来讨论讨论,为什么大部分的网站粘不住流量.根据我们的分析,主要有以下几个原因:


1、 网站没有特色或者网站特色不够突出

有众多网站,本身就没特色,栏目策划靠copy、内容靠copy、设计靠copy、一切都是copy,这种网站的粘度非常的低。

还有一部分网站有一定的特色,但是它的特色像古代的大姑娘一年,深深藏着,没有很直接的突出出来在第一时间告诉用户。

你的网站有特色么?如果没有特色,先给自己搞出一个特色出来,然后把它正确的突出出来告诉用户,让用户记住。

说到网站的特色,特别想提一个网站,那就是博客中国,博客中国是一个非常值得研究的案例.

博客中国这个网站推出来不久,因为特色鲜明,粘度非常的高,吸引了众多的人,包括首富陈天桥都经常上。当初的博客中国虽然内容不是特别多,但是却是吸引人。记得我写hao123篇文章在上面的最高点击率就超过了5万次,普通的文章在上面的点击率也都最少5000以上。

后来博客中国影响力大了,融到了钱,拿到钱后的压力大了,眼看着单纯做博客难赚钱,他们改走大而全的门户路线,并且改名博客网。这一改并没有错,但是改的太急太快了,于是乎直接从大雅跳到大俗,使老用户都一下子无法接受不再上它。老的特色没有了,新的特色也没有突出出来。结果呢?虽然alexa排名升了,但是大量老用户流失,网站粘度大跌已是事实,赶超新浪只能成为口号!

你的网站有特色么? 如果没有,赶快找出自己网站的特色来?
你的网站有了特色,赶快想办法把自己的特色突出出来,让你的用户一上你的网站就可以知道你的特色。那么你的网站的粘度就会大大的提高。
2、网站设计没特色,不够人性化

国内的众多网站都有一个毛病,那就是模仿,再次就是追求面子工程。比如网页的设计。大家经常可以看到,国内的大部分网站一打开,首页就是几屏,好像没有几屏自己的网站就不够大气似的。为什么这就叫大气呢?因为新浪、搜狐、网易等门户网站都这样。这些网站是大网站,模仿这些网站的首页的样子也像大网站……

这种“大气”的设计风格,确实可以唬住许多人,让许多人感觉到你的网站是一个大网站,但是网站不是靠唬人吃饭和生存的。(到目前为止,确实还有不少网站就是靠唬人来吃饭的,不过唬的不是用户,而是广告主。但是这样毕竟不是长久之计,奉劝各位不要为了眼前的小利益去这样做)。靠流量,靠效果,才是实在的长久之计!

网站想粘住用户,设计上还是需要人性化一些,要多从用户的角度去出去,考虑考虑如何设计才能更加的方便用户,这样才能真正的提高网站的粘度。

3、网站打开的速度太慢

这一条非常的关键,如果你的网站打开的速度非常的慢,用户每打开一个页面就要等待,等待的感觉是非常难受的,会让用户产生心烦意乱的感觉,用户有了这些感觉肯定不会怎么喜欢你的网站,更不用说天天来上了。你的网站如果打开的速度比同类的网站都快一些,用户就会感觉上你的网站非常的爽,让用户的感觉爽了,用户自然会 喜欢上你的网站。


不要小看这条因素,这是一条非常非常重要的因素!


4、没有采用相应的提高网站粘度的策略

u 免费电子杂志跟踪
每月给用户发电子杂志提醒用户等。不过这些策略的广告成本不要太浓,同时不要发的太频繁,这样用户会讨厌的。

u 定期推出特色新专题或者活动
一定要是定期,定期推出特色专题,吸引用户的活动,这样用户就会定期回来看看。

u 用容易记忆的域名
好记的域名容易让用户记住你,也可以大大提高网站的粘度。

根绝网站自身的定位不同,运营的思路的不同,可以策划出非常多的提高网站粘度的策略,如何提高网站的粘度,欢迎大家与我交流

凡上网者都用过搜索引擎,Altavista、Infoseek 、Hotbot、网络指南针、北大天网和华好网景的ChinaOK等等,它们的索引数据库涉及Internet上超过1亿的页面(Altavista和Hotbot),北大天网也收集了32万个www页面(国内),索引数据库的建立需要访问这些页面然后进行索引,如何做到对如此多的页面的访问,现在的搜索引擎无论是针对英文还是中文,都是采用网上机器人来实现网上搜索的(Yahoo!是个例外)。

网上机器人  
网上机器人(Robot)又被称作Spider、Worm或Random,核心目的是为获取在Internet上的信息。机器人利用主页中的超文本链接遍历Web,通过URL引用从一个HTML文档爬行到另一个HTML文档。网上机器人收集到的信息可有多种用途,如建立索引、HTML文件的验证、URL链接验证、获取更新信息、站点镜象等。

机器人寻找WWW文档的算法  
机器人要在网上爬行,因此需要建立一个URL列表来记录访问的轨迹。使用的是超文本,指向其它文档的URL是隐藏在文档中,需要从中分析提取URL;机器人一般都用于生成索引数据库。所有WWW的搜索程序都有类似步骤:
1) 机器人从起始URL列表中取出URL并从网上读取其内容; 
2) 从每一个文档中提取某些信息并放入索引数据库中;
3) 从文档中提取指向其它文档的URL,并加入到URL列表中;
4) 重复上述3个步骤,直到再没有新的URL发现或超出了某些限制(时间或磁盘空间);
5) 给索引数据库加上查询接口,向网上用户发布。 
  算法有深度优先和广度优先两种基本的搜索策略。
机器人以URL列表存取的方式决定搜索策略:
1) 先进先出,则形成广度优先搜索。当起始列表包含有大量的Web服务器地址时,广度优先搜索将产生一个很好的初始结果,但很难深入到服务器中去。
2) 先进后出,则形成深度优先搜索。这样能产生较好的文档分布,更容易发现文档的结构,即找到最大数目的交叉引用。

结果处理技术
网页评选的主要因素
搜索引擎应该能够找到与搜索要求相对应的站点,并按其相关程度将搜索结果排序。 这里的相关程度是指搜索关键字在文档中出现的频度,最高为1。当频度越高时,则认为该文档的相关程度越高。但由于目前的搜索引擎还不具备智能,除非你知道要查找的文档的标题,否则排列第一的结果未必是"最好"的结果。所以有些文档尽管相关程度高,但并不一定是用户更需要的文档。
搜索引擎是一个技术含量很高的电脑网络应用系统。它包括网络技术、数据库技术、检索技术、智能技术等等。在这一方面,由于国外的很多先进技术是建立在西文内核的基础上,所以我们还不能单纯引进照搬照抄。作为中文搜索引擎来讲,如何来发挥我们在中文处理上的长处,发展出有我们自己版权的核心技术,使我们在中文搜索引擎的竞争中占有有利地位。

网页评选的四个主要因素:
a. 网页数据库的大小,主要是人工浏览后定的。

b.检索响应的时间,主要是程序里得出的。
程序首先记下访问搜索引擎开始的时间,然后到取得记录后,又记下当时的时间,然后把两个时间减一下就得出了检索响应的时间。

c.网页的质量划分主要也是由人工排定的。
搜索引擎总是要将检索结果返回给用户,而结果显示的好坏直接影响到搜索引擎的使用效果。因此,结果显示的内容组织,如何排序,是否提供足够的相关信息(内码、文件大小、文件日期等),对用户对检索结果的判断具有很大的影响。

d.各个网站的相关度和以下因素有关:各个网站的相关度; 能够区分搜索结果的相关性(Pertinency)。
l 人为的对网站设定一个相关系数,如Yahoo 1.0,Goyoyo 0.94等;
l 链接,Summary中出现的关键词的次数;
l 记录返回时间,即检索响应的时间

结果处理
(1) 按频次排定次序
通常来说,如果一个页面包含了越多的关键词,其搜索目标的相关性应该越好,这是非常合乎常理的解决方案。

(2) 按页面被访问度排序
在这种方法中,搜索引擎会记录它所搜索到的页面被访问的频率。人们访问较多的页面通常应该包含信息比较多,或者有其它吸引人的长处。这种解决方案适合一般的搜索用户,而因为大部分的搜索引擎都不是专业性用户,所以这种方案也比较适合一般搜索器使用。

(3) 进一步净化(refine)结果
按照一定的条件对搜索结果再进行优化,可以再选择类别、相关词等

一、网络蜘蛛基本原理

  网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。

  对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这其中的原因一方面是抓取技术的瓶颈,无法遍历所有的网页,有许多网页无法从其它网页的链接中找到;另一个原因是存储技术和处理技术的问题,如果按照每个页面的平均大小为20K计算(包含图片),100亿网页的容量是100×2000G字节,即使能够存储,下载也存在问题(按照一台机器每秒下载20K计算,需要 340台机器不停的下载一年时间,才能把所有网页下载完毕)。同时,由于数据量太大,在提供搜索时也会有效率方面的影响。因此,许多搜索引擎的网络蜘蛛只是抓取那些重要的网页,而在抓取的时候评价重要性主要的依据是某个网页的链接深度。

  在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先。

  广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。两种策略的区别,下图的说明会更加明确。

  由于不可能抓取所有的网页,有些网络蜘蛛对一些不太重要的网站,设置了访问的层数。例如,在上图中,A为起始网页,属于0层,B、C、D、E、F属于第1层,G、H属于第2层, I属于第3层。如果网络蜘蛛设置的访问层数为2的话,网页I是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索到,另外一部分不能被搜索到。对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。

  网络蜘蛛在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是需要会员权限才能访问。当然,网站的所有者可以通过协议让网络蜘蛛不去抓取(下小节会介绍),但对于一些出售报告的网站,他们希望搜索引擎能搜索到他们的报告,但又不能完全**的让搜索者查看,这样就需要给网络蜘蛛提供相应的用户名和密码。网络蜘蛛可以通过所给的权限对这些网页进行网页抓取,从而提供搜索。而当搜索者点击查看该网页的时候,同样需要搜索者提供相应的权限验证。

  网站与网络蜘蛛

  网络蜘蛛需要抓取网页,不同于一般的访问,如果控制不好,则会引起网站服务器负担过重。今年4月,淘宝http://www.taobao.com)就因为雅虎搜索引擎的网络蜘蛛抓取其数据引起淘宝网服务器的不稳定。网站是否就无法和网络蜘蛛交流呢?其实不然,有多种方法可以让网站和网络蜘蛛进行交流。一方面让网站管理员了解网络蜘蛛都来自哪儿,做了些什么,另一方面也告诉网络蜘蛛哪些网页不应该抓取,哪些网页应该更新。

  每个网络蜘蛛都有自己的名字,在抓取网页的时候,都会向网站标明自己的身份。网络蜘蛛在抓取网页的时候会发送一个请求,这个请求中就有一个字段为User- agent,用于标识此网络蜘蛛的身份。例如Google网络蜘蛛的标识为GoogleBot,Baidu网络蜘蛛的标识为BaiDuSpider, Yahoo网络蜘蛛的标识为Inktomi Slurp。如果在网站上有访问日志记录,网站管理员就能知道,哪些搜索引擎的网络蜘蛛过来过,什么时候过来的,以及读了多少数据等等。如果网站管理员发现某个蜘蛛有问题,就通过其标识来和其所有者联系。下面是博客中http://www.blogchina.com)2004年5月15日的搜索引擎访问日志:

  网络蜘蛛进入一个网站,一般会访问一个特殊的文本文件Robots.txt,这个文件一般放在网站服务器的根目录下,http://www.blogchina.com/robots.txt。网站管理员可以通过robots.txt来定义哪些目录网络蜘蛛不能访问,或者哪些目录对于某些特定的网络蜘蛛不能访问。例如有些网站的可执行文件目录和临时文件目录不希望被搜索引擎搜索到,那么网站管理员就可以把这些目录定义为拒绝访问目录。Robots.txt语法很简单,例如如果对目录没有任何限制,可以用以下两行来描述:

  User-agent: *
  Disallow:

  当然,Robots.txt只是一个协议,如果网络蜘蛛的设计者不遵循这个协议,网站管理员也无法阻止网络蜘蛛对于某些页面的访问,但一般的网络蜘蛛都会遵循这些协议,而且网站管理员还可以通过其它方式来拒绝网络蜘蛛对某些网页的抓取。

  网络蜘蛛在下载网页的时候,会去识别网页的HTML代码,在其代码的部分,会有META标识。通过这些标识,可以告诉网络蜘蛛本网页是否需要被抓取,还可以告诉网络蜘蛛本网页中的链接是否需要被继续跟踪。例如:表示本网页不需要被抓取,但是网页内的链接需要被跟踪。

  关于Robots.txt的语法和META Tag语法,有兴趣的读者查看文献[4]

  现在一般的网站都希望搜索引擎能更全面的抓取自己网站的网页,因为这样可以让更多的访问者能通过搜索引擎找到此网站。为了让本网站的网页更全面被抓取到,网站管理员可以建立一个网站地图,即Site Map。许多网络蜘蛛会把sitemap.htm文件作为一个网站网页爬取的入口,网站管理员可以把网站内部所有网页的链接放在这个文件里面,那么网络蜘蛛可以很方便的把整个网站抓取下来,避免遗漏某些网页,也会减小对网站服务器的负担。

  内容提取

  搜索引擎建立网页索引,处理的对象是文本文件。对于网络蜘蛛来说,抓取下来网页包括各种格式,包括html、图片、doc、pdf、多媒体、动态网页及其它格式等。这些文件抓取下来后,需要把这些文件中的文本信息提取出来。准确提取这些文档的信息,一方面对搜索引擎的搜索准确性有重要作用,另一方面对于网络蜘蛛正确跟踪其它链接有一定影响。

  对于doc、pdf等文档,这种由专业厂商提供的软件生成的文档,厂商都会提供相应的文本提取接口。网络蜘蛛只需要调用这些插件的接口,就可以轻松的提取文档中的文本信息和文件其它相关的信息。

  HTML等文档不一样,HTML有一套自己的语法,通过不同的命令标识符来表示不同的字体、颜色、位置等版式,如:、、等,提取文本信息时需要把这些标识符都过滤掉。过滤标识符并非难事,因为这些标识符都有一定的规则,只要按照不同的标识符取得相应的信息即可。但在识别这些信息的时候,需要同步记录许多版式信息,例如文字的字体大小、是否是标题、是否是加粗显示、是否是页面的关键词等,这些信息有助于计算单词在网页中的重要程度。同时,对于HTML网页来说,除了标题和正文以外,会有许多广告链接以及公共的频道链接,这些链接和文本正文一点关系也没有,在提取网页内容的时候,也需要过滤这些无用的链接。例如某个网站有“产品介绍”频道,因为导航条在网站内每个网页都有,若不过滤导航条链接,在搜索“产品介绍”的时候,则网站内每个网页都会搜索到,无疑会带来大量垃圾信息。过滤这些无效链接需要统计大量的网页结构规律,抽取一些共性,统一过滤;对于一些重要而结果特殊的网站,还需要个别处理。这就需要网络蜘蛛的设计有一定的扩展性。

  对于多媒体、图片等文件,一般是通过链接的锚文本(即,链接文本)和相关的文件注释来判断这些文件的内容。例如有一个链接文字为“张曼玉照片”,其链接指向一张bmp格式的图片,那么网络蜘蛛就知道这张图片的内容是“张曼玉的照片”。这样,在搜索“张曼玉”和“照片”的时候都能让搜索引擎找到这张图片。另外,许多多媒体文件中有文件属性,考虑这些属性也可以更好的了解文件的内容。

  动态网页一直是网络蜘蛛面临的难题。所谓动态网页,是相对于静态网页而言,是由程序自动生成的页面,这样的好处是可以快速统一更改网页风格,也可以减少网页所占服务器的空间,但同样给网络蜘蛛的抓取带来一些麻烦。由于开发语言不断的增多,动态网页的类型也越来越多,如:asp、jsp、php等。这些类型的网页对于网络蜘蛛来说,可能还稍微容易一些。网络蜘蛛比较难于处理的是一些脚本语言(如VBScript和javascript)生成的网页,如果要完善的处理好这些网页,网络蜘蛛需要有自己的脚本解释程序。对于许多数据是放在数据库的网站,需要通过本网站的数据库搜索才能获得信息,这些给网络蜘蛛的抓取带来很大的困难。对于这类网站,如果网站设计者希望这些数据能被搜索引擎搜索,则需要提供一种可以遍历整个数据库内容的方法。

  对于网页内容的提取,一直是网络蜘蛛中重要的技术。整个系统一般采用插件的形式,通过一个插件管理服务程序,遇到不同格式的网页采用不同的插件处理。这种方式的好处在于扩充性好,以后每发现一种新的类型,就可以把其处理方式做成一个插件补充到插件管理服务程序之中。

  更新周期

  由于网站的内容经常在变化,因此网络蜘蛛也需不断的更新其抓取网页的内容,这就需要网络蜘蛛按照一定的周期去扫描网站,查看哪些页面是需要更新的页面,哪些页面是新增页面,哪些页面是已经过期的死链接。

  搜索引擎的更新周期对搜索引擎搜索的查全率有很大影响。如果更新周期太长,则总会有一部分新生成的网页搜索不到;周期过短,技术实现会有一定难度,而且会对带宽、服务器的资源都有浪费。搜索引擎的网络蜘蛛并不是所有的网站都采用同一个周期进行更新,对于一些重要的更新量大的网站,更新的周期短,如有些新闻网站,几个小时就更新一次;相反对于一些不重要的网站,更新的周期就长,可能一两个月才更新一次。

  一般来说,网络蜘蛛在更新网站内容的时候,不用把网站网页重新抓取一遍,对于大部分的网页,只需要判断网页的属性(主要是日期),把得到的属性和上次抓取的属性相比较,如果一样则不用更新。

二、Robots

<meta name="Robots" contect= "all|none|index|noindex|follow|nofollow">

其中的属性说明如下:

设定为all:文件将被检索,且页面上的链接可以被查询;

设定为none:文件将不被检索,且页面上的链接不可以被查询;

设定为index:文件将被检索;

设定为follow:页面上的链接可以被查询;

设定为noindex:文件将不被检索,但页面上的链接可以被查询;

设定为nofollow:文件将不被检索,页面上的链接可以被查询。

-----------------------------------
我们知道,搜索引擎都有自己的“搜索机器人”(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库。

对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开。为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是The Robots META标签。

一、robots.txt

1、 什么是robots.txt?

robots.txt是一个纯文本文件,通过在这个文件中声明该网站中不想被robots访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。

当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果找到,搜索机器人就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那么搜索机器人就沿着链接抓取。

robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

网站 URL
相应的 robots.txt的 URL

http://www.w3.org/
http://www.w3.org/robots.txt

http://www.w3.org:80/
http://www.w3.org:80/robots.txt

http://www.w3.org:1234/
http://www.w3.org:1234/robots.txt

http://w3.org/
http://w3.org/robots.txt

2、 robots.txt的语法

"robots.txt"文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:

"<field>:<optionalspace><value><optionalspace>"。

在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow行,详细情况如下:

User-agent:

该项的值用于描述搜索引擎robot的名字,在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何机器人均有效,在"robots.txt"文件中, "User-agent:*"这样的记录只能有一条。

Disallow :

该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow 开头的URL均不会被robot访问到。例如"Disallow: /help"对/help.htm和/help/index.html都不允许搜索引擎访问,而"Disallow: /help/"则允许robot访问/help.html,而不能访问/help/index.html。

任何一条Disallow记录为空,说明该网站的所有部分都允许被访问,在"/robots.txt"文件中,至少要有一条Disallow记录。如果 "/robots.txt"是一个空文件,则对于所有的搜索引擎robot,该网站都是开放的。

下面是一些robots.txt基本的用法:

禁止所有搜索引擎访问网站的任何部分:

User-agent: *
Disallow: /

允许所有的robot访问

User-agent: *
Disallow:

或者也可以建一个空文件 "/robots.txt" file

禁止所有搜索引擎访问网站的几个部分(下例中的cgi-bin、tmp、private目录)

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/

禁止某个搜索引擎的访问(下例中的BadBot)

User-agent: BadBot
Disallow: /

只允许某个搜索引擎的访问(下例中的WebCrawler)

User-agent: WebCrawler
Disallow:

User-agent: *
Disallow: /

3、 常见搜索引擎机器人Robots名字

名称 搜索引擎

Baiduspider http://www.baidu.com

Scooter http://www.altavista.com

ia_archiver http://www.alexa.com

Googlebot http://www.google.com

FAST-WebCrawler http://www.alltheweb.com

Slurp http://www.inktomi.com

MSNBOT http://search.msn.com

4、 robots.txt举例

下面是一些著名站点的robots.txt:

http://www.cnn.com/robots.txt

http://www.google.com/robots.txt

http://www.ibm.com/robots.txt

http://www.sun.com/robots.txt

http://www.eachnet.com/robots.txt

5、 常见robots.txt错误

颠倒了顺序:
错误写成

User-agent: *
Disallow: GoogleBot

正确的应该是:

User-agent: GoogleBot
Disallow: *

把多个禁止命令放在一行中:
例如,错误地写成

Disallow: /css/ /cgi-bin/ /images/

正确的应该是

Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/

行前有大量空格
例如写成

Disallow: /cgi-bin/

尽管在标准没有谈到这个,但是这种方式很容易出问题。

404重定向到另外一个页面:
当Robot 访问很多没有设置robots.txt文件的站点时,会被自动404重定向到另外一个Html页面。这时Robot常常会以处理robots.txt文件的方式处理这个Html页面文件。虽然一般这样没有什么问题,但是最好能放一个空白的robots.txt文件在站点根目录下。

采用大写。例如

USER-AGENT: EXCITE
DISALLOW:

虽然标准是没有大小写的,但是目录和文件名应该小写:

user-agent:GoogleBot
disallow:

语法中只有Disallow,没有Allow!
错误的写法是:

User-agent: Baiduspider
Disallow: /john/
allow: /jane/

忘记了斜杠/
错误的写做:

User-agent: Baiduspider
Disallow: css

正确的应该是

User-agent: Baiduspider
Disallow: /css/



二、 Robots META标签

1、什么是Robots META标签

Robots.txt文件主要是限制整个站点或者目录的搜索引擎访问情况,而Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots META标签也是放在页面的<head></head>中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。具体的形式类似(见黑体部分):

<html>

<head>

<title>中国教程网</title>

<meta name="Robots" content="index,follow">

<meta http-equiv="Content-Type" CONTENT="text/html; charset=gb2312">

<meta name="keywords" content="教程… ">

<meta name="description" content="中国教程网是…">

<link rel="stylesheet" href="/public/css.css" type="text/css">

</head>

<body>



</body>

</html>

2、Robots META标签的写法:

Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。 content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。

INDEX 指令告诉搜索机器人抓取该页面;

FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;

Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。

这样,一共有四种组合:

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">

<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">

<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">

<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">

其中

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">可以写成

<META NAME="ROBOTS" CONTENT="ALL">;

<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">可以写成

<META NAME="ROBOTS" CONTENT="NONE">

需要注意的是:上述的robots.txt和Robots META标签限制搜索引擎机器人(ROBOTS)抓取站点内容的办法只是一种规则,需要搜饕婊魅说呐浜喜判校⒉皇敲扛鯮OBOTS都遵守的。

目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以限制GOOGLE是否保留网页快照。例如:

<META NAME="googlebot" CONTENT="index,follow,noarchive">

表示抓取该站点中页面并沿着页面中链接抓取,但是不在GOOLGE上保留该页面的网页快照


搭建环境软件
PHP        
Apache
MySQL
Zend Optimizer
php Myadmin   

安装前说明:
如果C:\ 盘为你现在所使用操作系统的系统盘,由于C:/盘经常会因为各种原因重装系统,数据放在该盘不易备份和转移推荐选择其他安装目录,本文将所有相关软件均安装到D:\盘目录下,这个路径你可以自行设定,如果你安装到不同目录涉及到路径的请对应修改以下的对应路径即可。特别提示:安装目录请不要选择中间有空格的,例如:D:/ Program Files/PHP5/,有些Wed服务器会崩溃。

安装PHP
(注:本文以ISAPI模式安装)
下载后得到php-5.1.4-Win32.zip,解压至 D:\盘,将php-5.1.4-Win32重命名为PHP5,进入D:\PHP5,将php.ini-dist复制到C:\Windows内,重命名为 php.ini,打开php.ini,利用键盘“ Ctrl+F ”键查找功能搜索,将extension_dir = "./" 更改指向到你的 PHP5目录下的ext目录,php5与php4动态连接库不同的地方就是它的目录名变了,在php5目录中的install文档结构里有详细的说明。修改为:extension_dir = "D:\PHP5\ext" ,再搜索 register_globals = Off,将 Off 改成On 然后再查找;extension=php_mbstring.dll,下面所列的就是 PHP 预支持的扩展模块,默认情况下都用分号在前面注释掉了,如果你想 PHP 支持某个模块,请将前面的“;”去掉即可。如果安装完毕后测试时,弹出不支持 xxx.dll 模块的话,直接将前面分号再加上去,保存后就可以了。

;extension=php_mbstring.dll
;extension=php_bz2.dll
;extension=php_curl.dll
;extension=php_dba.dll
;extension=php_dbase.dll
;extension=php_exif.dll
;extension=php_fdf.dll
;extension=php_filepro.dll
;extension=php_gd2.dll 支持GD库
;extension=php_gettext.dll
;extension=php_ifx.dll
;extension=php_imap.dll
;extension=php_interbase.dll
;extension=php_ldap.dll
;extension=php_mcrypt.dll
;extension=php_mhash.dll
;extension=php_mime_magic.dll
;extension=php_ming.dll
;extension=php_mssql.dll
;extension=php_msql.dll
;extension=php_mysql.dll 支持MySQL数据库
;extension=php_oci8.dll
;extension=php_openssl.dll
;extension=php_oracle.dll
;extension=php_pgsql.dll
;extension=php_shmop.dll
;extension=php_snmp.dll
;extension=php_sockets.dll
;extension=php_sqlite.dll
;extension=php_sybase_ct.dll
;extension=php_tidy.dll
;extension=php_xmlrpc.dll
;extension=php_xsl.dll

上传较大的文件或者运行某些程序经常超时,可以找到C:\Windows目录下的php.ini自行修改参数。

max_execution_time = 30   脚本运行最长的时间,可以修改加长,单位:秒
max_input_time = 60       脚本消耗最长的时间,单位:秒
memory_limit = 8M       脚本运行内存最大消耗
upload_max_filesize = 2M   上载文件最大容量
post_max_size = 20M      脚本运行闪存消耗

把 D:\PHP5\后缀名为.dll的文件和 D:\ext\ 目录下的所有文件复制粘贴到C:\Windows\system32内。

安装Apache

直接双击安装,过程中需设置你的服务器名和E-mail地址,假设装在D:\Apache2,打开D:\ Apache2\conf\httpd.conf,在#LoadModule ssl_module modules/mod_ssl.so下面一行添加如下代码:

LoadModule php5_module "D:/php5/php5apache2.dll"
AddType application/x-httpd-php .php

再查找 DirectoryIndex,在后面添加 index.php,保存关闭文件,在站点默认安装路径D:\Apache2\htdocs下新建一个 phpinfo.php,输入如下内容保存:
<?php
phpinfo();
?>
打开浏览器,输入:http://localhost/phpinfo.php,将显示当前服务器所支持 PHP 的全部信息,可以看到 Server API 的模式为:Apache2 handler。

安装 MySQL (注意:安装前先停止退出Apache)
在“开始”菜单的“运行”中输入:D:\MySQL\bin\mysqld-nt -install,运行成功之后再输入:net start mysql,将会启动 MySQL 服务;要停止 MySQL 服务,输入:net stop mysql ;如果你还想较详细的配置 MySQL,就请进入 D:\MySQL\bin 目录,运行 MySQLInstanceConfig.exe,按提示操作即可。

安装 Zend Optimizer (注意:安装前先停止退出Apache和MySQL)


安装 phpMyAdmin

将phpMyAdmin-2.8.1.zip解压到在站点默认安装路径D:\Apache2\htdocs,并将phpMyAdmin-2.8.1重命名为phpMyAdmin打开找到D:\Apache2\htdocs\phpMyAdmin\libraries\config.default.php做以下修改:

搜索 $cfg['PmaAbsoluteUri'],将其设置为 phpMyAdmin 目录路径,如:http://localhost/phpMyAdmin/ ;
搜索 $cfg['DefaultLang'],将其设置为 zh-gb2312 ;
搜索 $cfg['DefaultCharset'],将其设置为 gb2312 ;
搜索 $cfg['Servers'][$i]['auth_type'],将其设置为cookie ;
搜索 $cfg['blowfish_secret'],将其设置为任意短语,如:discuz等 ;

若Apache 和 MySQL 均已启动,打开浏览器,输入:http://localhost/phpMyAdmin/,即可浏览数据库内容。

安装 Discuz!
将 Discuz!文件包的upload目录中的全部文件复制到站点默认安装路径D:\Apache2\htdocs,(注意是upload 目录中的文件和目录,不是包含 upload 目录本身的目录和结构),打开浏览器,输入:http://localhost/install.php完成最后的配置后,将安装脚本 install.php 删除,以避免被再次安装。

登录口:http://union.copyso.com/apply.asp?快的话当天就搞定

一搜
登录口:http://www.yisou.com/search_submit.html?成功收录时间在1个月内

google
登录口:http://www.google.com/intl/zh-CN/addurl.html
成功收录在1个月内

搜博
登录口:http://search.21eok.com/site/add.asp
成功收录时间不定

中国搜索
登录口:http://register.zhongsou.com/NetSearch/frontEnd
       /free_protocol.htm
成功收录时间一周以内

孙悟空
登录口:http://www.sunwukong.cn/add.php
成功收录时间收录时间不定

shalala
登录口:http://shalala.net/searcher/add-a.asp
成功收录时间立即 注:先选分类再提交

TOM搜索
登录口:http://search.tom.com/tools/weblog/log.php
成功收录时间一周以内『更新时间:2005-6-9』

搜豹
登录口:http://search.sobao.com/
成功收录时间立即 注:先选分类再提交

时创网站搜索
登录口:http://search.s128.com/dr1pt.htm
成功收录时间不定 注:先选分类再提交

搜狐/搜狗
登录口:http://db.sohu.com/regurl/regform.asp?Step=REGFORM&class=
成功收录时间10天内

top88
登录口:http://www.top88.com/manual/LoginTop88.asp
成功收录时间1个工作周

北极星
登录口:http://www.beijixing.com.cn/bjx01/search/regi_1.asp
现已改成网址导航站点 需交换链接

1268网站
登录口:http://www.6128.cn/add.htm
成功收录时间不定

协通神搜
登录口:http://search.net2asp.com.cn/search/regform.htm
成功收录时间立即 注:先选分类再提交

网人:
登录口:http://www.wangren.com/search/index.asp
成功收录时间不定

酷游人--搜索引擎
登录口:http://www.cool-trip.com/sou/
成功收录时间不定 注:先选分类再提交

猫头鹰:
登录口:http://www.owlchina.com/publish.asp?l=pub
成功收录时间不定 注:先选分类再提交

商情168搜索引擎
登录口:http://search.168yx.com/add.php
成功收录时间不定

惠惠龙
登录口:http://search.hhlong.com/add.asp
成功收录时间不定

天网
登录口:http://www.infomall.cn/url_submit.html
成功收录时间一个月内

PChome搜索引擎
登录口:http://dir.pchome.com.tw/register/
成功收录时间隔日 注:繁体中文

奇摩搜索
登录口:http://tw.dir.yahoo.com/step/index.html
收录时间不定 注:繁体中文

Gais 盖世引擎
登录口:http://gais.cs.ccu.edu.tw/reg_new.php
成功收录时间不定 注:繁体中文

蚁搜
登录口:http://www.antso.com/apply.asp
成功收录时间不定 注:简体中文
本帖最近评分记录


我是个孤独的幽灵,如此苍白和落寞。永远没有自己的生活方式,一只在空气中苦苦挣扎的鱼...

TOP


(^#@#@ 顶一个 慢慢看 谢谢楼主

很详尽!多谢了(^#@#@
面壁

很详细呀

好文章,谢谢楼主
模型下载基地http://zasj.5d6d.com/forum-27-1.html

(^#@^

很详细了谢谢楼主了

(^#@^

学到很多东西

谢谢楼主
发新话题