分析Googlebot爬行日志文件[案例]
深圳网站建设效益分析Googlebot爬行尖峰通过日志文件[案例]冲击
网站主真的不知道是谁,或是完整的故事,是爬行网站直到他们分析自己的服务器日志。专栏作家Glenn Gabe股份为例,阐述了一些见解,可以从服务器日志文件分析收集到的。
我最近开始帮助一个网站,受到负面影响5月17日更新算法。该网站已经很长一段时间的上网质量的灰色地带,澎湃有质量的更新,有时滴。所以我开始挖掘通过抓取分析和审计的网站。
一旦我开始分析网站,我注意到几页奇怪的尖峰爬在谷歌搜索控制台抓取统计报告(GSC)。例如,谷歌通常会爬行大约每天3000页,但前两穗猛增至近20000。然后两更突破11000。
不用说,我是在发现为什么那些尖峰发生兴趣。有SEO网站上的技术问题?有引起穗外部因素吗?或者这是Googlebot异常?我赶紧伸手将我的客户对我所看到的。
穗状花序爬行:有时期待,有时不
我问我的客户,如果他们实施任何大规模的变化的基础上,我建议可以在爬行引发穗。他们还没。记得,我刚开始帮助他们。
另外,我刚刚完成了两个大型爬行网站并没有看到任何奇怪的技术问题可能是导致Googlebot SEO抓取许多额外的页面或资源:编码故障可能导致谷歌抓取许多近重复的网页,拙劣的分页,分面导航等。我没有找到任何这些问题在网站上(至少根据第一套爬)。
现在,值得注意的是,谷歌可以增加爬行,当它看到大规模的变化在一个网站 -例如,一个站点迁移,重新设计或改变许多网址的网站上。谷歌 站长趋势分析师John Mueller解释了这几次。
下面的图片显示 什么能像。这是从一个网站,我正在帮助一个HTTPS迁移(不是网站我在后覆盖)。注意在爬行后迁移发生的穗。这是完全正常的:
但这是不是发生了什么事,在这种情况下。现场有没有大规模的变化,但。在审查的情况,我的决定是明确的:
释放日志文件!
服务器电源的日志
日志文件包含了网站活动的原始数据,包括从用户和搜索引擎的访问。使用日志,你可以挖掘到每个访问事件看哪些网页和资源被抓取,响应代码返回,引荐,IP地址和更多。我很想看看,在爬行了穗。
如果你从未处理的日志文件,你应该知道他们可以得到相当大的。例如,看到是在文件大小几百兆的日志文件,这是不寻常的(或高容量的网站甚至更大)。这是一个日志文件是我的工作。这是696mb。
在分析日志文件的第一集,在进行仪表板讲了一个有趣的故事。响应码图显示404s大幅飙升,Googlebot遇到。这看起来有问题。
我注意到通往陌生网址看起来像拙劣的页面包含成千上万的视频事件,和我的客户的网站不包含其中的一个URL。在这段时间的404s大部分是由于陌生网址。
但事情看起来并没有对那些“Googlebot”事件。更多的情况下。
情节复杂起来:欺骗
我总是告诫人们才挖到自己的日志文件,他们可能会看到一些令人不安的事情。记住,日志包含网站上的所有活动,包括所有机器人的活动。很不幸的是不寻常的看到许多机器人抓取网站获得英特尔…或者更恶毒的原因。
例如,你可能会看到爬虫试图了解更多关于你的网站(一般从竞争对手)。你也可以看到黑客攻击。例如,从IP地址随机事件的锤击你的WordPress的登录页面。
所以,这是在404s穗擦我浮出水面,从“Googlebot”。我很快就注意到许多假冒Googlebot的事件(从几个不同的IP地址)。尖叫的青蛙日志分析器有一个俏皮的“验证程序”,我充分利用特征。
它知道真正的Googlebot钉在这段时间内有趣的(通过GSC报告),而伪造的Googlebots也击网站的那段时间。但我不能在日志文件中发现任何验证Googlebot尖峰。
所以我们研究和收集的一些坏演员IPS 和看到他们是不是从谷歌。我的客户现在是处理这些IPS。这是一个聪明的做法,特别是如果你看到来自特定IP地址欺骗Googlebot回访。我们经历了这个过程的第二穗以及。
这是提升你的发动机罩和一些疯狂的问题找到一个很好的例子(或燃料被添加到您的引擎)。你可以接近休克誓要永远再看看引擎盖,或者你可以解决问题的长期。清扫地毯下的问题在这里永远不可能是真正的解决方案。
将真正的Googlebot的请站起来?
在分析前两个尖峰,我还没有看到任何验证Googlebot的问题。(我指的是谷歌真正的爬行网站并没有不同的爬虫欺骗Googlebot的。)所以,在GSC抓取统计并秒杀,但服务器日志显示Googlebot适当正常活动。这是伪造的Googlebots似乎引起的问题。
检查验证Googlebot的活动与欺骗下活动:
抓取数据恢复正常,然后再次上涨
我们已检查抓取统计报告在GSC经常监测情况(对于房Googlebot)。抓取数据恢复正常了,但添加第三和第四的时间(在第一个屏幕截图看到我分享以上)。最近的上涨是超过11000页的爬行。
检查记录揭示了很多的网址,不要在网站上存在(而不是视频网址之前)。这是由Googlebot适当的访问(验证)。我很高兴看到我们终于抓住了一些真正的Googlebot问题(而不只是欺骗Googlebot的问题)。
这些URL看起来完全搞砸,有时长几百字。它看起来像一个编码错误,不断添加更多的人物和目录的每个URL连接。 我发信息给我的客户,他们转发信息到他们的领先开发商。他们一开始不知道谷歌会发现这些网址。我会掩护下。
Googlebot和404s:微妙的形势对于SEO
需要明确的是,404s不是问题,如果页面应该是404。谷歌的John Mueller解释了很多次。404s是完全自然的在网络上,而不影响质量的一个网站。
谷歌也写了一篇文章对404s网站管理员中心博客,如果他们可以伤害你的网站。缪勒的评论之间,支持DOC和博客后,你可以放心,404s本身不会引起质量问题。但是,为了确保邪恶是很重要的,不是你伪造的Googlebots锤服务器尝试影响正常运行时间(和SEO长期)。
我问我的客户,如果网站有任何性能问题的基础上,我们看到了爬行的尖峰,并听到他们根本没有看到任何问题。网站运行在一个非常强大的服务器,连眼睛都没有眨一下,当“Googlebot”添加在爬行。
谷歌是如何找到这些长的网址吗?
在爬这些长URL的分析,我可以看到破碎的URL和一些JavaScript文件之间的连接。我相信谷歌是寻找URL(或形成URL)基于JavaScript代码。
你会发现,谷歌提到的可能性,这发生在我上面列出的支持文件。所以如果你看到URL被抓取谷歌,并在您的网站上目前没有,那么Googlebot可以找到那些网址通过JavaScript或其他嵌入式内容。这也是重要的是要知道。
我们学到了什么(不知道)
正如我前面所说,挖掘服务器日志可以是有益的和令人不安的。另一方面,你可以发现问题,Googlebot的遭遇,然后解决这些问题。另一方面,你可以看到邪恶的东西,如黑客攻击、伪造Googlebots抓取您的网站获得英特尔,或其他试图锤服务器。
这里有一些我们学到的东西通过这个练习:
我们可以清楚地看到伪造的Googlebots爬行网站,许多人打怪404s。我的客户能够解决那些流氓IPS,锤击服务器。
我们看到了一个真正的Googlebot(验证)爬行看起来是拙劣的URL(基于发现通过JavaScript链接)。利用这些数据,我的客户可以挖掘到的技术问题,可以得到那些长长的,拙劣的URL。
我们发现所有的尖刺从Googlebot也<strong>不会</strong>被显示在GSC。这很奇怪,我不知道如果这是一个报告的问题在谷歌的结束或者别的什么。但是,我们也发现了一些真正从Googlebot尖峰,我们解决了。
也许最重要的是,我的客户可以清楚地看到,例如SEO的软肋,许多伪造的Googlebots爬行网站获得英特尔,或者更恶毒的原因。但至少我的客户都知道这是现在正在发生的(通过数据)。现在他们要形成一种处理流氓机器人计划。
总结:日志文件可以揭示表面之下的险恶的问题
当你打破它,网站所有者,真的不知道是谁,或是完整的故事,是爬行网站直到他们分析自己的服务器日志。谷歌分析将不提供此数据。你必须了解你的日志表面机器人访问你的网站。
所以,如果你能找到一个尖峰在爬行,你在想什么,别忘了你的日志!他们可以是一个宝贵的数据,可以帮助揭开SEO神秘源(可能是阴险的问题亟待解决)。不要害怕去挖掘寻找答案。记住,你可能需要准备好。