【官方说法】只需两步,教你正确识别百度蜘蛛
经常听到站长们问,百度蜘蛛是什么?最近百度蜘蛛来的太频繁服务器抓爆了,最近百度蜘蛛都不来了怎么办,还有很多站点想得到百度蜘蛛的IP段,想把IP加入白名单,但IP不固定,这些百度方面并未透露相关信息。
那怎么才能识别正确的百度蜘蛛呢?来来来,只需两步,教你正确识别百度蜘蛛
1、查看UA,如果UA都不对,可以直接判断非百度搜索的蜘蛛,目前对外公布过的UA是:
移动UA:
Mozilla/5.0(Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,likeGecko)Version/5.1 Mobile Safari/10600.6.3 (compatible;Baiduspider/2.0;+http://www.baidu.com/search/spider.html)
PC UA:
Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)
新增渲染UA:
移动UA:
Mozilla/5.0(iPhone; CPU iPhone OS 9_1 likeMac OS X) AppleWebKit/601.1.46 (KHTML,like Gecko) Version/9.0 Mobile/13B143Safari/601.1 (compatible;Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
PC UA:
Mozilla/5.0 (compatible;Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
2、反查IP
站长可以通过DNS反查IP的方式判断某只spider是否来自百度搜索引擎。根据平台不同验证方法不同,如linux/windows/os三种平台下的验证方法分别如下:
1)、在linux平台下,您可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。
2)、在windows平台或者IBM OS/2平台下,您可以使用nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。
3)、 在mac os平台下,您可以使用dig 命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。
相关阅读:
搜索引擎爬虫蜘蛛的USERAGENT大全
百度蜘蛛抓取时返回304状态码的问题分析
搜索引擎蜘蛛的爬取策略简单分析
相关建站知识
- 04-06在帝国cms列表页调用内容页内容字段newstext
- 03-16帝国cms二次开发函数对应文件目录分享
- 02-13打通多个帝国CMS系统的会员整合与同步教程
- 09-16帝国CMS登录后台提示"您的Cookie没有开启
- 11-12帝国cms Tags标签页面优化的技巧具体有哪些?
- 07-01帝国cms后台发布信息时的多图上传去掉a标签
- 10-08帝国CMS二次开发PHP跨表查询相关文章
- 07-21帝国CMS跳过选择会员类型直接注册方法
- 11-11MYSQL语句 去掉字段最后一个符号的方法
- 05-29帝国cms标题属性设置了加粗、颜色等属性在内容页显示
- 12-23帝国CMS内容页调用附属专题
- 09-21帝国TAGS标签伪静态调用+伪静态规则教程
- 01-24帝国CMS调用当天发布的信息
- 10-10帝国CMS灵动标签SQL调用指定类型的最新广告
- 05-09帝国cms会员头像在会员控制中心任意地方调用
- 04-13怎么去掉帝国CMS自动缩略图出现黑边框背景
- 10-17帝国cms wap里调用出栏目名称代码
- 06-06帝国CMS7.5整合ueditor 1.4.3百度编辑器教程
- 01-01帝国CMS调用自定义列表路径的方法
- 05-03帝国cms比较高效的随机调用方法