当前位置:首页 > SEO > 正文内容

对百度蜘蛛的看法

老野2024-04-27 19:36:0236

为何百度抓取部分链接,而不是直接抓取全站?我先给你们说个案例,此时此刻我在WordPress后台把tag的别名由中文改成英文,让URL变成英文格式。


值得注意的是地图文件是实时更新最新URL的,但为何搜索引擎蜘蛛还会抓取中文别名的链接而不是英文的?由此得来,蜘蛛并不一定是通过最新的地图文件来获取内容链接,其实早就在其他页面抓取过中文链接(也有可能在我未改动之前已经在地图文件读取所有URL了),只是没有马上进入Tag中文别名链接进行爬行。


蜘蛛已经事先抓取到链接了,为什么不爬呢?


爬链接和爬内容是两个概念,百度自从发现你的网站开始,它会先爬链接,再到爬内容。


但也有可能你连爬链接这关都过不了,第一考虑URL格式是否符合标准,如果不符合,蜘蛛大概率少部分再爬取你的内容作为进一步验证,如果页面构造、URL、内容存在垃圾或404或设置设计不当,很可能不再派来或考验(女人大姨妈 一样 偶尔来一次)。


转回正题,爬链接不一定能在统计里获取到蜘蛛IP,但爬内容大概率大概率是能看到。


相对于以前我说的隐藏式蜘蛛的讨论是存在的。


我想说的是,胡乱改编网站页面、URL构造影响是很大的,做网站讲究是稳定。其中包括服务器访问性稳定、URL格式稳定(确保无404访问错误,如有404错误请及时提交到站长死链)、网站界面不宜改动。


做网站一定要先完成好网站所有界面和页面的创建(页面只能增不能减),稳定后才向各搜索引擎的站长中心提交链接。