解决标签,爬行,以及用户生成的内容
解决标签蔓延:爬行预算,复制内容,以及用户生成的内容
先进的搜索引擎优化|咨询|技术SEO
打击坏的辩解书呆子的指导,重复的用户生成的数据,统计的内容,和纯粹的意志的力量。
这里是情况。你有一百万个产品网站。你的竞争对手有很多相同的产品。你需要独特的内容。你是做什么的?每个人都做同样的事情-你转向用户生成的内容。问题解决了,对吧?
用户生成的内容(UGC)可以是一个非常有价值的内容和组织来源,帮助您建立自然语言描述和人为驱动的网站内容组织。网站利用用户创建内容的一个共同特征是标签,随处可见,从电子商务网站到博客。网站管理员可以利用标签功率网站搜索,创建分类和产品浏览类别,并提供网站内容丰富的描述。
这是一个合乎逻辑和实际的方法,但如果不加以控制会导致棘手的SEO问题。对于大型网站,手动调节数以百万计的用户提交的标签可能是繁琐的(如果不是完全不可能)。但是,未标记的标签会产生大量内容稀疏、内容重复和内容扩展的大规模问题。在我们的案例研究下面,来自不同公司的三个技术SEO联手解决大规模标签扩展问题。该项目是由Jacob Bohall,在蜂巢的数字营销副总裁,而计算统计服务是由J.R. Oakes适应合作伙伴和Russ琼斯MOZ提供。让我们潜水。
什么是标签蔓延?
我们定义标签蔓延的不受限制的增长独特的,用户贡献的标签产生大量的重复页面和不必要的爬行空间。标签蔓延产生的URL可能被列为门户页面,页面出现只存在的目的是建立一个索引在一个详尽的关键字数组。你可能见过这在其最基本的形式在帖子在博客的标签,这就是为什么大多数SEO推荐一个毯子”NOINDEX,遵循“在标签页的WordPress网站。这种简单的方法可以是一个有效的解决方案,为小博客网站,但往往不是解决方案的主要电子商务网站,更依赖于标签进行分类的产品。
以下三个标签云代表用户生成的术语与不同的股票照片的列表。注:用户行为通常是尽可能多的标签,以确保他们的产品最大限度地暴露。
美国航空母舰约克镇号,约克镇,CV,cvs-10,好人李察,革命战争的船舶、军舰、海军船、军舰,攻击航母,爱国点,标志性建筑,历史性的船只,埃塞克斯级航母,水,海洋
船舶、船只、约克镇、战艇,爱国者足尖,旧军舰,历史地标,航母、军舰、海军舰艇,海军舰艇,看,海洋
约克船舶、军舰和航母,历史军事船只的美国航空母舰约克镇号航空母舰
你可以看到,每个用户产生的有价值的信息的照片,这是我们将要使用的为相关股票的图像创建可转位的分类依据。然而,在任何类型的规模,我们有直接的威胁:
细内容:只有少数产品共享用户生成的标签,当用户创建一个更具体的/定义标签,例如“cvs-10”
重复和类似的内容:这些标签会重叠,如“美国航空母舰约克镇号”与“约克,“船”与“船”的“简历”与“cvs-10,”等。
坏的内容:通过不正当的格式,拼写错误,冗长的标签,断字和类似的错误创造,由用户。
现在,你明白什么是标签蔓延和它如何负面影响你的网站,我们如何才能解决这个问题的规模?
提出的解决方案
在纠正标签扩展,我们有一些基本的(在表面上)的问题来解决。我们需要有效地检查数据库中的每个标记,并将它们分组,以便采取进一步的行动。首先,我们确定一个标签的质量(有可能是有人搜索这个标签,它拼写正确,它是商业的,它是用于许多产品)和第二,我们确定是否有另一个标签非常相似,它具有较高的质量。
确定好的标签:我们定义了一个好的标签作为术语能够贡献的意义,并很容易作为一个索引页在搜索结果。这也需要识别一个“主”标签来表示类似的术语组。
识别坏标签:我们想孤立的标签不应该出现在我们的数据库中,由于拼写错误,重复,可怜的格式,高歧义,或可能导致低质量的页面。
好与坏标签标签:我们认为我们的许多最初的“坏标签”可能是一个系列的副本,即复数/奇异、技术/俚语,联用/非联用,动词,和其他的茎。也有可能是两个短语指同一件事,像“约克船舶”和“美国航空母舰约克镇号。“我们需要确定这些关系的每一个“坏”的标签。
对于这个项目的启发,我们的样本标签数据库包括超过2000000个“独特”的标签,使这几乎是不可能的壮举,以手工完成。虽然理论上我们可以利用机械土耳其人或类似的平台得到“手动”审查,这种方法的早期测试被证明是不成功的。我们需要一个程序化的方法(实际上是一些方法),我们可以稍后在添加新标签时重现。
方法
保持心中的目标识别好的标签,标签和标签的坏标签,好与坏的标签,我们雇了十几个方法,包括:拼写校正,出价值,标签的搜索量,独特的访客,标签数、堵塞、词干提取、Jaccard指数,Jaro Winkler距离波特,关键字规划分组,维基百科歧,和k-均值的词向量聚类。每一种方法都帮助我们确定标签是否有价值,如果没有,帮助我们确定一个替代标签是有价值的。
拼写校正
方法:一个明显的问题与用户生成的内容是拼写错误的发生。我们会经常发现拼写错误,分号后的字母“L”或词的开头或结尾有意想不到的人物。幸运的是,Linux具有内置的拼写检查称为一个我们能够使用来解决大量的问题。
好处:这提供了一个快速,早期的胜利,这是相当容易识别坏标签时,他们组成的词不包括在字典或包括字符,这是简单的莫名其妙(如分号中间的一个字)。此外,如果修正后的词或短语出现在标签列表,我们可以信任修正的短语作为一个潜在的好的标签,并将拼错的词好标签。因此,这种方法有助于我们两个过滤不良标签(拼错的词)和找到好的标签(拼写校正的术语)
局限性:这种方法最大的局限在于正确拼写单词或短语的组合对用户或搜索引擎不一定有用。例如,数据库中的标签很多都是多个标签在用户空间分隔,而不是逗号分隔的提交标签串连。因此,标签可能包括拼写正确的术语,但仍然是无用的搜索值。此外,有大量字典的限制,特别是域名,品牌和互联网俚语。为了适应这种情况,我们增加了一个个人的字典,包括根据Quantcast排名最前的10000域,几千个品牌,和一个俚语词典。虽然这是有帮助的,仍然有一些错误的建议,需要处理。例如,我们看到“purfect”正确的“完美”尽管是一个猫的形象和流行文化有关的。我们也注意到一些用户参考这句话“这款,”purrrfect,”purrrrfect,”purrfeck等,“最终,我们不得不依靠其他指标来决定我们是否可信的拼写建议。
买入价值
方法:虽然标签可能是好的,在某种意义上说,它是描述性的,我们想要的标签,商业相关。使用标签或标签短语的每次点击成本证明是有用的,以确保这个词可以吸引买家,而不仅仅是游客。
好处:这种方法的一个伟大的特点是,它往往有一个高信号噪声比。大部分的标签,具有很高的材料往往是商业相关的搜索频繁足以列入“好标签”。在许多情况下,我们可以确信一个标签只是在这个度量就好。
局限性:然而,出价值度量也有一些很大的局限性。对于初学者来说,谷歌关键词策划者的消歧问题显而易见。谷歌结合相关的关键词搜索量和共产党一起报告时的数据,这意味着一个标签,如“Facbook”将返回相同的数据为“脸谱网”。显然,我们宁愿地图“Facbook”到“脸谱网”而不是保持标签,所以在某些情况下,中共度量不足以确定好标签。出价值的进一步限制是获取CPC数据的难点。谷歌现在需要运行有效的AdWords广告系列获得中国共产党的价值。这是不是简单的壮举,看看5000000关键词在谷歌关键词规划师,即使你有足够的帐户。幸运的是,我们觉得历史数据足够可信,所以我们不需要获得新的数据。
标签的搜索量
方法:与CPC相似,我们可以使用搜索量来确定标签的潜在值。不过,我们必须小心,不要依赖于标签本身,因为标签可能是通用的,它使流量与产品本身无关。例如,标签“美国航空母舰约克镇号可能有几百的搜索一个月,但“美国航空母舰约克镇号T恤”获得0。对于我们索引中的所有标签,我们跟踪了标签的搜索量以及产品名称,以确保我们对潜在产品流量有了很好的估计。
好处:像CPC,这个度量做了一个很好的工作,巩固我们的标签数据集只关键字,有可能提供流量。在绝大多数情况下,如果“标签+产品”有搜索量,我们可以确信这是一个好术语。
局限性:不幸的是,这种方法是受害者的相同的消歧问题,中共提出。由于谷歌集团的条款一起,有可能在某些情况下,两个标签将给予相同的指标。例如:“浮船,”pontoonboat,“浮船,“浮船,”船划船,”和“浮船”在同一流量组还包括像“游艇”、“游艇标签。”此外,没有占在这个度量关键词难度。一些标签,当结合产品类型、产品关键词,获得可观的流量却永远是遥不可及的模板标签页。
独特的访客
方法:这个方法是显而易见的:保护已经收到来自谷歌的流量标记。我们出口了所有的标签从谷歌分析,已收到搜索流量从谷歌在过去12个月。一般来说,这应该是一个相当安全的条款列表。
好处:当与客户进行实验工作时,能够给他们一个几乎可以保证改进的方案总是很好的。因为我们能够保护标签已经收到的交通标签他们好(在绝大多数情况下),我们可以确保客户有很高的利润,从我们所做的变化和风险最小的任何交通损失。
局限性:不幸的是,即使这种方法并不完美。如果一个产品(或一组产品)具有足够高的权限,包括一个标签的差的变化,那么坏的变种将排名和接收流量。我们必须使用其他策略来验证我们的选择,从这个方法,并设计了一种方法,以鼓励标签交换索引的正确版本的期限。
标签数
描述:标签使用的频率往往是一个强烈的信号,我们可以信任的标签,尤其是当与其他类似的标签相比。通过计算每个标签在网站上使用的次数,我们可以将最后一组值得信赖的标签偏向于这些更受欢迎的术语。
好处:这是一个伟大的决胜指标,当我们有两个标签非常相似,但需要选择只有一个。例如,有时一个词组两变种被完全接受(如版本和无连字符)。我们可以简单地推迟一个具有较高的标签数。
局限性:标签频率的明显限制是许多最频繁的标签过于通用而不实用。标签“蓝色”是不是特别有用,当它只是帮助人们找到“蓝色T恤”这个词是
词干提取
方法:词干提取的工作类似于堵塞。然而,而不是使用一个规则集除信件到达干编辑的话,lemmatization试图地图的术语,其最简单的词典形式,如WordNet,并返回一个规范的“引理”这个词。想想一个粗略的方式是词干提取简化字。这里有一个API来检查出。
好处:这种方法往往比堵塞更好。术语“船”,“运”,“船”都映射到“船舶”,这种方法,而“航运”或“托运人”,这是具有不同的含义,尽管有相同的干,保留。您可以创建一个数组的“引理”从短语可以比较其他短语解决词序问题。这被证明是一个更可靠的方法分组比词干的变化。
局限性:与许多方法一样,映射相关术语的上下文可能是困难的。词干提取可以上下文提供更好的过滤器,但这样做通常依赖于词的形式(名词,形容词,识别等)适当地映射到一个根词。由于用户生成的内容不一致,假设所有的词都是形容词形式(描述产品)或名词形式(产品本身)是不准确的。这种不一致可以呈现出疯狂的结果。例如,“脱衣袜”的目的是作为一个标签,袜子的颜色带在他们身上,如“条纹袜”,或它可能是“脱衣袜”或其他一些绑腿,这将是一个匹配只发现如果有其他产品和标签比较的背景。此外,它不创建所有相关的词之间的关联,只是文本衍生工具,所以你仍然在寻找一个规范之间的邮差,快递,托运人等
Jaccard指数
方法:Jaccard指数是衡量交叉相似系数在联盟。现在,不要跑了,只是,其实很简单。
想象一下,你有两堆3个弹珠:红色,绿色和蓝色的第一,红色,绿色和黄色的第二。这两个桩的“交集”是红色和绿色,因为两个桩有这两种颜色。“联合”将是红色,绿色,蓝色和黄色,因为这是所有颜色的完整列表。Jaccard指数为2(红色和绿色)除以4(红色,绿色,蓝色,黄色)。因此,这两桩Jaccard指数将是5。较高的Jaccard指数,更相似的两套。
那么这与标签有什么关系呢?嗯,想象一下,我们有两个标签:“海洋”和“海”,我们可以得到一个列表中的所有已标记为“海洋”和“海洋产品。”最后,我们把这两个集合的Jaccard指数。分数越高,他们的相关性越大。也许我们发现,70%的产品与标签“海洋”也有标签“海”,我们现在知道,这两个是相当好的相关。然而,当我们运行相同的测量比较“地下室”或“平,“我们发现他们只有Jaccard指数02。尽管它们在人物方面非常相似,但它们却意味着完全不同的东西。我们可以排除将两个术语映射在一起。
优点:使用Jaccard指数的最大好处是它可以让我们找到高度相关的标签可能有共同的绝对没有文本的特点,很可能有一个过于相似或重复的结果集。虽然大多数的指标,我们认为到目前为止帮助我们找到“好”或“坏”的标签,Jaccard指数可以帮助我们找到“相关”的标签,而无需做任何复杂的机器学习。
局限性:当然有用,Jaccard指数的方法有其自身的问题。我们遇到的最大问题是与标签一起使用几乎所有的时间,但不是替代彼此。例如,考虑标签“鲁思宝贝”和他的绰号,“苏丹特警”。后者只发生在产品的标签上也有“鲁思宝贝”的标签(因为这是他的一个绰号),所以他们有很高的Jaccard指数。然而,谷歌并没有将这两个术语映射在一起,所以我们更喜欢保留这个昵称,而不是简单地将其重定向到“贝贝鲁思”,如果我们要确定什么时候我们应该同时保留两个标签,或者我们应该将一个标签重定向到另一个标签时,我们需要深入挖掘。作为一个独立的,这种方法也并不充分,在确定的情况下,用户总是拼错的标签或使用不正确的语法,他们的产品基本上没有“联盟成为孤儿。”
Jaro Winkler距离
方法:有几个编辑距离和字符串相似性度量,我们在整个过程中使用。编辑距离仅仅是衡量一个单词如何改变另一个单词有多么困难。例如,最基本的编辑距离度量的Levenshtein距离之间的“Russ Jones”和“Russell Jones”是3(你要加“E”、“L”和“L”将Russ罗素)。这可以用来帮助我们找到类似的单词和短语。在我们的例子中,我们使用一个特定的编辑距离的措施称为“Jaro Winkler距离”使高优先级的词和短语,起初是相似的。例如,“棒球”将更接近“Baseballer”比“篮球”因为差异是在学期结束。
好处:编辑距离度量帮助我们找到许多标签非常相似的变种,特别是当变量是不是拼写错误。这是特别有价值的使用与Jaccard指数指标结合,因为我们可以将上一个字符无关的度量字符水平的度量(即一个关心标签中的字母和一个不)。
限制:编辑距离度量可以是一种愚蠢。根据Jaro Winkler的距离,“棒球”和“篮球”更相关的一个比“棒球”和“投手”和“捕手”,“团团”和“圆”有一个可怕的编辑距离度量,而“圆”和“磅”看上去很相似。编辑距离根本不能孤立使用找到类似的标签。
关键词规划分组
方法:虽然谷歌的选择相结合的关键字相似的关键字预测交通问题,它实际上为我们提供了一种新的方法来识别高度相关的术语。每当两个标签共享相同的指标,从谷歌关键词规划师(每月平均流量,历史流量,CPC,和竞争),我们可以得出这样的结论:有一个增加的机会,这两个相互关联。
好处:这种方法对于缩写词(特别是难以检测)非常有用。虽然谷歌集团共同首席运营官和首席运营官,你可以想象,像上面提到的标准方法可能有问题检测的关系。
限制:这种方法最大的缺点是,它创造了众多的误报少受欢迎的条款。有太多的关键词,每年的搜索量平均为10,每月搜索10次,并有党和竞争的0。因此,我们不得不限制使用这种方法更流行的术语,只有极少数的比赛。
维基百科的消歧
方法:上面的许多方法是很好的分组相似/相关的条款,但不提供一个高信心的方法确定“主”的术语或短语代表一组相关/重复的术语。虽然可以考虑测试所有标签对英语语言模型,缺乏流行文化的引用和短语,使它不可靠。为了有效地做到这一点,我们发现维基百科是一个值得信赖的来源,以确定适当的拼写,时态,格式和词序为任何给定的标签。例如,如果用户标记的产品为“魔戒”,“魔戒”,“魔戒”,“很难确定哪些标签应该是首选(当然我们不需要所有的3)。如果你搜索维基百科的这些条款,你会看到他们重定向到标题为“指环王”的网页,在许多情况下,我们可以相信他们的典型变体作为“好标签”,请注意,我们不鼓励刮任何网站或违反其使用条款。维基百科确实提供了一个可以用于研究目的的整个数据库的导出。
好处:当标签可以映射到维基百科条目,这种方法被证明是一个非常有效的提供验证,标签有潜在的价值,或创建一个参考点的相关标签。
k-均值向量聚类
方法:最后,我们试图将标签为一个子集更有意义的标签使用Word嵌入和k-均值聚类。一般来说,参与的过程转化为符号(单词)的标签,然后精炼的词性(名词、动词、形容词),和最后的lemmatizing令牌(“蓝衬衫”变成了“蓝衫”)。从那里,我们将所有标记为一个自定义Word2vec嵌入模型的基础上加入每个令牌阵列向量。我们创建了一个标签阵列和数据集的每个标签的向量数组,然后跑k-均值的标签的总数为百分之10多点的价值。起初,我们测试了30000个标签,并取得了合理的结果。
以上分类列被选中的Kmeans质心。注意如何处理匹配的“海边”到“海滩”和“沿海”到“海滩”。
好处:这种方法似乎做了一个很好的工作找到标签和他们的类别之间的语义比字符驱动。“蓝色衬衫”可能与“服装”相匹配,这显然是不可能的,因为在向量空间中没有语义关系。
局限性:最终,我们遇到的主要缺点是试图运行k-均值满二百万标签而结束了200000类(重心)。sklearn Python允许多个并行工作,但只有在质心的初始化,在这种情况下是11的意思,即使你跑在60核心处理器,并行工作的数量被初始化的数量有限,在这种情况下,又是11。我们尝试PCA(主成分分析),以减少矢量尺寸(300至10),但结果总体较差。最后,因为嵌入通常是基于条件概率封闭语料库中对他们进行训练了,有比赛,你可以理解为什么他们匹配,但显然没有正确的类别(如“第十九个世纪的艺术”被选为一类“第十八世纪的艺术”)。最后,环境问题和字嵌入显然遭受认识的差异之间的“鸭子”(动物)和“鸭子”(行动)。
把它一起
使用上述方法的组合,我们能够开发出一系列的方法的信心分数,可以应用到任何标签在我们的数据集,产生一个启发式如何考虑每个标签前进。这些是案例级别的战略,以确定适当的方法。我们表示如下:
好标签:这主要是作为我们的“不接触”的条款已经收到来自谷歌的流量列表。经过一些确认练习,名单扩展到包括独特的条款与排名潜力,商业吸引力,独特的产品集,以提供给客户。例如,这个类别的启发式可能看起来像这样:
如果标签与维基百科条目相同
标签+产品估计搜索流量和
标签有CPC值
马克“好标签”
好的标签:这代表,我们想保留的产品和他们的描述有关,因为他们可以在网站上用来添加背景的一页,但不保证自己的可转位的空间。这些标签映射被重定向或canonicaled到大师”,“但仍包含在一个网页的主题相关度,自然语言查询,长尾搜索,例如,启发这类可能看起来像这样:
如果标签与维基百科条目相同,但
标签+产品没有搜索量
矢量标签匹配“好标签”
马克作为“好标签”,并重定向到“好标签”
别坏标签:这个分组代表坏标签映射到一个置换。这些标签将被删除,并用修正的版本替换。这是最常见的拼写错误或发现通过堵塞/词干提取等,占主导地位的替代被确定。例如,这个类别的启发式可能看起来像这样:
如果标签是不相同的维基百科或向量空间和
标签+产品没有搜索量
标签没有卷
标签维基百科条目匹配“好标签”
马克为“映射”的坏标签
要删除的坏标签:这些标签被标记为不好标签的坏标签。从本质上讲,这些需要从我们的数据库完全删除。这最后一组代表最坏的最坏的感觉,标签的存在可能会被认为是一个负面指标的网站质量。考虑了字符长度的标签,缺乏维基百科条目,无法映射到字向量,没有以前的流量,没有预测的流量或CPC值,等等,在许多情况下,这些都是废话短语。
总之,我们能够减少87.5%的标签的数量,巩固了网站的一个合理的,有针对性的,有用的一组标签,适当地组织语料库,而不浪费爬行预算或限制用户参与。
结论:高级白帽SEO
这是近九年前,一个著名的黑帽SEO称为白帽SEO是简单、陈旧,缺乏创新和。他声称,“先进的白帽SEO”是一个矛盾--它根本不存在。我很自豪当时回应他的要求使用数字技术的蜂巢我称它为“第二页偷猎。”这是一个伟大的技术,但它苍白的方法,我们现在看到的比较成熟的今天。我从来没有设想的深度或广度的技术水平,这将开发白帽子SEO社区处理独特但持久的问题面临着网站管理员。
我真诚地怀疑这里的大多数读者将有特定的标签蔓延的问题,上面所述。我会很幸运,如果你们中的一些人已经碰到它。我希望这篇文章可以纠正我们任何漫画白帽SEO那么肤浅或停滞和激励那些在我们的空间给他们最好的工作。