如何检查URL被谷歌使用Python索引
谷歌搜索控制台可以帮助你确定你的网站被索引的网页,但如何识别那些不?专栏作家Paul Shapiro有一个Python脚本就是这样的。
有三个主要的组件有机搜索:爬行、索引和排名。当谷歌等搜索引擎来到你的网站,它抓取所有的链接发现。它所找到的信息然后进入搜索引擎的索引,其中不同的因素来确定哪些网页抓取,以什么样的顺序,对于一个特定的搜索查询。
作为SEO,我们会以我们的努力集中于排名的成分,但如果能够抓取和索引你的站点上的网页搜索引擎不会的,你不会收到来自谷歌的任何交通。显然,确保您的网站是正确的抓取和索引搜索引擎是搜索引擎的重要组成部分。
但是你怎么能说如果你的网站收录正常吗?
如果你有机会到谷歌搜索控制台,它告诉你多少页都包含在你的XML网站地图,其中有多少是索引。不幸的是,它不会走得太远,告诉你哪些页面是>没有索引。
确定一个URL已经被谷歌索引
为了确定个体的URL已经被谷歌索引,我们可以用“信息:“搜索算子,像这样:
信息:http://searchengineland.com/google-downplays-google-algorithm-ranking-update-week-normal-fluctuations-258923
如果URL索引,结果将显示该URL:
判断一个网页是谷歌索引信息算子
然而,如果URL不收录,谷歌将返回一个错误,说没有,URL信息:
谷歌的结果如果页面没有被索引
用python的URL批量检查指标状况
现在我们知道如何检查,如果一个URL被索引,你可能想知道你如何能做这样的集体。你可以有1000个工人检查每一个-或者,如果你喜欢,你可以用我的Python解:
使用以上的Python脚本,确保你有Python 3安装.你也将安装beautifulsoup图书馆。要做到这一点,打开一个终端或命令提示符并执行:
pip安装beautifulsoup4
然后你可以下载到你的电脑上的脚本。在同一文件夹中的脚本,创建一个URL列表的文本文件,列出每个URL在单独一行。
Python脚本文件的目录结构
现在,你的剧本是现成的,我们需要建立Tor运行作为我们的免费代理。在Windows中,下载Tor专家束。解压zip文件夹到本地目录并运行tor.exe。随时最小化窗口。
Tor专家截图
接下来,我们需要安装Polipo运行Tor和HTTP代理。下载最新的Windows二进制(它将被命名为“polipo-1。x.x.x-win32 .zip”)和解压到一个文件夹。
在你Polipo文件夹,创建一个文本文件(例如:配置.txt)具有下列内容:
socksparentproxy =“本地:9050”
socksproxytype = SOCKS5
diskcacheroot =“”
disablelocalinterface =真
打开命令提示符并浏览到您Polipo目录。
运行以下命令:
polipo.exe C config.txt
运行Tor配置Polipo
在这一点上,我们已经准备好运行实际的Python脚本:
Python indexchecker.py
Python脚本配置
该脚本将提示您指定要检查每个URL之间等待的秒数。
它也会提示你输入一个文件名(不带扩展名的文件)将结果输出到CSV。
最后,它会要求包含检查URL的列表的文本文件的文件名。
输入此信息,让脚本运行。
最终的结果将是一个CSV文件,可以很容易地打开Excel,指定如果索引页是还是不是。
ouputted CSV显示URL索引或不
如果在脚本似乎不工作,谷歌有可能堵塞器。随时在这种情况下,使用你自己的代理服务,通过修改后的剧本:
代理= {
“https”:“https:/ /本地:8123,
“https”:“HTTP:/ /本地:8123
}
结论
知道哪些页面被谷歌索引是SEO成功的关键。你不能如果你的网页不在谷歌的数据库从谷歌获得的流量!
不幸的是,谷歌不容易确定一个网站的URL索引。但有点苦劳和以上的Python脚本,我们能够解决这个问题。