Google 优化蜘蛛爬取和索引的技巧
由于google掌控者搜索市场的大部分的份额,所以应时时关注和听取它的一些动态。“Google发表了一篇叫做优化蜘蛛爬取和索引的技巧”,是不是该引起我们的注意呢?
文中内容高度强调可以提高你站点爬取的能力的一些技巧,下面是陈列的关于URL的具体的例子。
“互联网是个大世界,时时刻刻都有新的内容被发表,创造,”Google 分析师Susan Moskwa说到。“Google 拥有无限的资源,所以当它面临几乎无限的在线的可利用的资源时,google的蜘蛛只有能力去找寻和爬取一部分的内容,而面对已经爬取了的内容,我们又只能索引一部分。”
Moskwa说:“URL就像一座连接你站点和搜索引擎蜘蛛之间的桥梁,蜘蛛需要能够找到并通过这座桥梁(IE,找到并爬取你的URL)到达你的网站内容页,如果你的URL地址过于复杂或是太冗余,蜘蛛就要花费很多时间去跟踪并反跟踪自己爬取的脚印,如果URL地址被很好的组织着,并直接指向相关区域的内容,这样就不会爬取到空白或是重复的内容页了。”
如果你想被Google更好的索引,你必须删除URL地址中用户具体信息。具体情况可浏览幻灯片。基本上URL的参数时不会改变网页的内容,所以这些参数应该要删除或是放入cookie中。这样就会减少很多URL指向同一个内容的数量,加快检索。(这里应该指的就是尽量使用静态地址,少产生一些用户自带的参数的重复URL)
Google说漫无目的的无限的空间和广度其实很浪费时间,所以对于那些是唯一地址的不管是过去的还是将来的url地址,最好有一个时间标志。例如example/2009/08//11/title
告诉Google那些网页可以忽略它不需要爬取。包括一些登陆的页面,联系方式,购物车和其他的页面,类似于要求用户去执行的行为,蜘蛛是无法识别操作的。可以通过使用robots.txt文件来实现。
最后,尽可能避免重复的内容。Google希望每一个内容页面都对应一个唯一的地址。当然他们不可能全部的识别出来,因此会有一些典型链接因素存在让你去鉴别哪些特定内容网页的URL更被人们喜爱。
相关建站知识
- 07-19帝国CMS模板 TAGS标签:首页/列表页/内容页调用TAG标签的方法!
- 10-23帝国CMS获取当前目(父栏目)ID、名称、别名、链接
- 07-12phome_enewspic 数据表字段解释(图片信息表)
- 04-16帝国CMS标签调用记录范围小技巧
- 02-14帝国CMS结合项”您来自的链接不存在“解决方法
- 09-24帝国CMS报错Fatal error: Maximum execution time of
- 08-17帝国cms灵动标签调用信息标题分类名称和地址
- 09-20帝国CMS7.5版TAGS功能升级
- 08-24帝国CMS不同会员组查看文章权限判断在静态页面的实现方法
- 10-30帝国CMS内容页模板调用作者和判断作者为空
- 03-31帝国CMS调用评论的文章链接和文章标题
- 11-15帝国cms列表页调用tags教程
- 03-06帝国CMS灵动标签按照点击数实现天、周、月排行榜调用
- 06-28帝国CMS二次开发跨表查询相关文章
- 04-27帝国CMS模板判断输出是副标题还是原标题的2种方法
- 06-20帝国CMS利用PHP判断当前页面是否为首页
- 01-25帝国CMS模板内容页模板怎么调用信息下线时间
- 08-07帝国CMS单独制作投稿等表单页面
- 03-05帝国cms制作手机模版教程
- 03-28帝国CMS新手教程调用网站关键字+描叙的方法