动态网站要被搜索引擎抓取,可以采用内容发布系统软件将动态站点转化成静态页面,这种办法对于页面发布后变动少的站点比较合适,比如一些新闻类的站点。
一般的动态网站可以通过下面的办法让搜索引擎抓取: 首先,我们要让动态页面的URL地址中没有\"?\",让动态页面看上去象\"静态页面\"。看看下面这个页面 http://www.amazon.com/exec/obidos/tg/detail/-/043935806X/ ,这明显是一个动态页面,但是URL地址看上去却象\"静态页面\"。针对不同的动态技术可以采用下面技术实现:
·对于采用ASP技术的动态页面Exception Digital公司提供一种工具叫着XQASP( http://www.xde.net/products/product_xqasp.htm )可以将\"?\"替换为\"/\"。 ·对于采用ColdFusion技术的站点,需要重新配置服务器上的ColdFusion,用\"/\"代替\"?\"将参数传输到URL,更详细的信息请见http://coldfusion.com/ 站点。 ·对于使用Apache服务器的站点,可以使用rewrite模块将带参数的URL地址转换成搜索引擎支持的形式,该模块mod_rewrite在Apache服务器中不是缺省安装的,详细的信息请见 http://httpd.apache.org/docs/mod/mod_rewrite.html
对于其他的动态技术也能找到对应的方法改变URL的形式。
然后,要创建一些静态页面指向这些动态页面(以改变过的URL链接)。 前面说过,搜索引擎机器人并不会自己\"输入\"参数,所以要让上面这些动态页面被搜索引擎抓取,我们还需要告诉机器人这些页面的地址(也就是参数)。我们可以创建一些静态的页面,一般在网络营销中称? \"gateway page\"(入口页面),这些页面上有大量指向这些动态页面的链接。
将这些入口页面的地址提交到搜索引擎,这些页面和链接的动态页面(改变过URL形式)就能都被搜索引擎抓取了。
在我们调整动态站点适应搜索引擎的同时,搜索引擎也在发展。到目前为止,绝大多数的搜索引擎还不支持动态页面的抓取,但是GOOGLE、HOTBOT等和国内的百度开始尝试抓取动态网站页面(包括? \"?\"的页面),这就是我们现在在这些搜索引擎进行搜索时,结果中出现动态链接的原因。
这些搜索引擎抓取动态页面时,为了避免\"搜索机器人陷阱\",都只抓取从静态页面(至少\"看上去\"是静态的页面)链接到的动态页面,而从动态页面链接出的动态页面都不再抓取。
所以一个动态站点如果只针对上面这些搜索引擎,可以在上面小节介绍方法的基础上简化:只用创建一些入口页面,链接很多动态页面,然后将这些入口页面递交到这些搜索引擎就可以了。
对于直接使用动态的URL地址,请注意: ·文件URL中不要有Session Id,同时不要用ID作为参数名称(特别是对于GOOGLE); ·参数越少越好,尽量不要超过2个; ·能在URL中不用参数尽量不要用,一些参数转移到其他地方,这样可以增加动态页面被抓取的深度和数目。 关键词:动态网页,搜索引擎收录,动态网站的搜索引擎策略,动态URL存在的问题和解决办法 |