Discuz! Board

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 5|回复: 0

baidu蜘蛛足迹分析

[复制链接]

主题

帖子

5

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
5
发表于 2024-10-8 08:19:08 | 显示全部楼层 |阅读模式
继写了《最近baidu和google的收录差异 89812.shtml 》之后,开始思索,寻找……为什么百度不鸟我?
    网上有网友写道baidu有个15天的观察期,不知道是不是真的。今天下午登陆了服务器,查看分析IIS日志文件。发现google和baidu都在我的网站上线第三天,也就是6月14日就拜访了我的网站,并且第一个访问的文件都是robots.txt,说明robots.txt文件是何等的重要。直到今天才发现yaho拜访了我的robots.txt文件,其他搜索引擎没发现足迹,这就是为什么国内搜索市场baidu和google占了8成以上市场的原因。我估计如果不是我申请yahoo的访问量统计工具,它不知道会不会拜访我。
    baidu和google的行动速度算是相当快,baidu的行动也毫不比google弱。从14号开始,这两个家伙基本上每天都访问我的网站,当然google的访问量相对来说比较频繁,但baidu也不弱到哪里去,基本上也是天天访问。具体观察了今天的日志,从凌晨0点8分开始,baidu蜘蛛就不断的来骚扰我睡觉,一直到下午17点,访问间隔基本上都是1个小时,从一开始只访问首页,到访问频道页,基本上都是成功的。随便摘了几条数据如下:
    2008-06-16 15:07:23 W3SVC1 202.104.188.69 GET /plus/rssmap.html - 80 - 220.181.32.5 Baiduspider+(+) 200 0 0
    2008-06-17 04:09:07 W3SVC1 202.104.188.69 GET /index.html - 80 - 61.135.168.39 Baiduspider+(+) 200 0 64
    2008-06-17 10:44:48 W3SVC1 202.104.188.69 GET /html/info/index.html - 80 - 220.181.32.5 Baiduspider+(+) 304 0 0
    红色数字200表示正常请求完成,两个0不知道啥意思,64也不知道啥意思,哪位知道请解释一下,万分感谢。304表示未修改,就是未按预期修改文档,baidu还要看看你的内容是否经常更新,所以经常更新网站内容也是非常重要的。基本上没发现4xx(客户机中出现错误)和5xx(服务器出现错误)等错误信息,可以说相对比较友好。
    那么为什么baidu迟迟不肯收录我呢?到底它在等什么?在观察什么呢?我自己的想法是:
    第一、baidu对新站一定要观察一段时间,不管你是什么内容,都不收录,但是蜘蛛照常访问,等过了这段观察期后,马上就会放手大干了;
    第二、就是网站原创的内容比较少,这个想法有点不对,因为趣飞商旅网( )除了航空资讯频道外,特价机票页面是原创内容来的,首页也是,为什么一开始就爬了首页,却不收录呢?有点想不通,只能用第一个想法来解释;
    第三、声明一下,我的域名是新注册的,排除以前被罚记录,我的服务器使用的是独立ip,排除多个站点使用同一ip受到牵连的可能性。
    所以,讲到最后,难道真的像网友说的要等15天?大家共同探讨一下,希望有经验的老鸟分析一下,或给点建议,万分感激!偶是新鸟,偶也继续观察,继续分享,谢谢各位支持!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表