如何避免 Google 的重复内容问题?
已发表: 2021-11-01页面上的重复内容与预算超支有很多共同点。 只有在这种情况下,我们才会谈论搜索机器人站点中“信任预算”的减少。 这个问题涉及很多网站所有者,因为它甚至可能出现在他们的背后。 在阅读了有关重复内容问题的内容后,您的网站变成了一颗定时炸弹。 在时钟上滴答作响,谷歌的制裁正在等着你。
可悲但真实的是,Web 上大约有 25-30% 的重复内容。 前 Google 员工 Matt Cutts 持这种观点。 尽管重复的内容会让您陷入搜索引擎优化的困境,但这并不是那么引人注目。 有一个解决方案——阅读这篇文章并了解如何避免 Google 的重复内容问题。
- 什么是重复内容?
- 关于重复内容的事实
- 有什么样的内容?
- 代码是什么?
- HTTPS 页面
- 创建重复内容的内容管理系统
- 用于打印或多个排序选项的页面
- 博客和存档系统中的重复内容
- 用户生成的重复内容(重复发帖等)
- 结论
什么是重复内容?
有 3 种主要类型的重复内容。
- Exact duplicate:两个 URL 的内容完全相同;
- 略有差异的内容:如句子顺序、图片稍有不同等;
- 跨域重复:许多域中存在完全相同或略有更改的副本。
此外,存在两个相关的概念,Google 不会将其视为重复内容。 但不是那么有经验的出版商和 SEO 专家可以很容易地将它们与重复内容混为一谈。
- 精简内容:这些页面内容很少。 一组基于组织地址列表的页面,其中有 6000 个地址,但每个页面只包含一个地址:只有几行。
- 切片内容:彼此略有不同的页面。 该网站销售尺码为 38、38.5、39、40、41、42 等的 Timberland 鞋。如果该网站为每种鞋码提供单独的页面,则所有这些页面之间会有细微差别。 谷歌将这种效果视为切片内容。
谷歌不喜欢同样精简和切片的内容。 Google Panda 可以检测到任何这些影响。 这就是发布商应避免创建这些类型的页面的原因。
由于多种原因,可能会出现重复内容:
- 您网站内容的许可;
- 由于内容管理系统未针对搜索引擎进行优化,导致网站架构存在缺陷;
- 抄袭的存在。
在过去的五年中,垃圾邮件发送者对内容有着非凡的需求,他们开始从合法来源“窃取”内容,通过使用各种复杂的过程转换单词并将生成的文本放在他们的页面上以吸引“长尾”搜索操作并显示上下文广告和其他不诚实的目的。 所以,现在人们生活在一个“重复内容问题”和“重复内容处罚”的世界里。
为您推荐:好的内容可以加快您的营销工作的 5 种方式。
关于重复内容的事实
重复的内容位置
如果所有特定内容都在您的网站上,是否是重复内容?
是的,因为重复的内容既可能出现在同一个网站上,也可能出现在不同的网站上。
重复内容百分比
页面的多少百分比应该被复制以落入重复内容过滤器? 不幸的是,搜索引擎从不公开这些信息,因为这会影响他们预防问题本身的能力。 所有引擎的这个百分比都在不断变化。 最重要的是,页面不必完全相同即可被视为重复。
代码与文本的比例
如果您的代码非常大,但页面上有几个独特的 HTML 元素怎么办? 谷歌不会认为所有页面都是彼此重复的吗?
不会。搜索引擎不关心您的代码,而是关心您网页的内容。 代码大小只有在超出比例时才会成为问题。
导航元素与独特内容的比例
您网站上的所有页面都有一个大导航栏、很多页眉和页脚,但内容很少。 Google 不会认为所有这些页面都是重复的吗?
不会。谷歌甚至在评估页面是否重复之前就考虑了导航元素。
许可内容
您希望避免重复内容问题。 但是,如果您有来自您授权的其他 Web 资源的内容可以向访问者展示,该怎么办?
使用 meta name = “robots” content = “noindex, follow”。 把它放在你页面的标题中,搜索引擎就会知道这个内容不适合他们。 另一种选择是获得拥有和发布该内容的专有权。
有什么样的内容?
- 独特的内容是由一个人写的。 它完全不同于网络上任何其他字母、符号和单词的组合,并且没有受到计算机文本处理算法的影响。
- 片段是被反复复制和使用的小块内容(例如,引用)。 它们很少会给搜索引擎带来问题,尤其是当包含在包含大量独特内容的较大文档中时。
- 带状疱疹。 搜索引擎会在其他网页上寻找相对较小的短语片段(五到六个词)。 如果两个文档有太多带状疱疹,搜索引擎可能会将这些文档解释为重复内容。
代码是什么?
有很多方法可以创建重复内容。 这就解释了为什么网络上有足够多的内容。 内部重复内容需要特定的策略才能在优化方面获得最佳结果。 坦率地说,重复页面是对用户和搜索引擎都没有价值的页面。 然后尽量避免这个问题。 确保只有一个 URL 指向每一页。 此外,对旧 URL 执行 301 重定向到其余 URL。 它可以帮助搜索机器人尽快查看您所做的更改,并保留已删除页面所具有的“链接汁”。
如果这不可能,还有很多其他选择。 以下是针对各种情况的最简单解决方案的概要:
- 您可以使用 robots.txt 文件来阻止搜索引擎蜘蛛抓取您网站页面的重复版本;
- 使用 rel=”canonical” 元素,这是删除重复页面的次优解决方案;
- 使用 CODE <meta name=”robots” content=”noindex”> 指示搜索引擎不要显示重复页面。
但是,请注意:如果您使用 robots.txt 来阻止页面查看,则在页面上应用 noindex 或 nofollow 是没有意义的。 由于蜘蛛无法读取页面,它永远不会看到 noindex 或 nofollow 元标记。 考虑到这些工具,考虑一些重复内容的特定情况。
您可能喜欢:为什么内容写作对品牌和企业很重要?
HTTPS 页面
如果您使用的是 SSL 协议(浏览器和 Web 服务器之间的加密数据交换,通常用于电子商务),那么您的站点的页面以 HTTPS:(而不是 HTTP:)开头。 当您的 HTTPS 页面上的链接使用相对而非绝对链接指向网站上的其他页面时,就会出现问题。 例如,您主页的链接变为 https://www.YourDomain.com 而不是 http://www.YourDomain.com)。
如果您的站点存在此问题,您可以使用 rel=”canonical” 或 301 重定向来修复它。 另一种解决方案是将链接更改为绝对链接:http://www.YourDomain.com/content.html 而不是 /contenthtml),这也会让窃取您内容的人的生活变得更加困难。
创建重复内容的内容管理系统
有时一个网站可能有很多相同页面的版本。 它恰好是某些内容管理系统的限制,这些系统使用多个 URL 引用相同的内容。 它通常是完全多余的重复,对用户没有任何价值。 最好的决定是删除重复的页面,并对已删除的页面执行 301 重定向到其余页面。 如果不起作用,请尝试其他方法。
用于打印或多个排序选项的页面
许多网站都提供打印页面,以适合打印机的格式为用户提供相同的内容。 一些电子商务网站提供了多种分类(按尺寸、颜色、品牌和价格)的产品列表。 这些页面对用户有价值,但对搜索引擎没有价值。 因此,他们认为这是重复的内容。 在这种情况下,您可以创建用于打印的 CSS 电子表格。
博客和存档系统中的重复内容
博客在重复内容问题上有一种有趣的变体形式。 一篇博文可以出现在几个不同的页面上:
- 博客的起始页;
- 该帖子的永久链接页面;
- 存档页面;
- 类别页面。
每个帖子副本都是其他副本的副本。 发布者很少尝试处理帖子同时出现在博客主页和永久链接页面上的问题。 搜索引擎似乎很好地解决了这个问题。 但是,在类别和存档页面上仅显示帖子片段可能是有意义的。
用户生成的重复内容(重复发帖等)
各种站点使用结构来获取用户生成的内容,例如博客、论坛或留言板。 这些都是以极低的成本开发大量内容的好方法。 问题是用户可以同时在您的网站和其他几个网站上发布相同的内容,这会导致重复内容问题。 这很难控制,但要减少问题,您可以按照以下步骤进行:
- 你需要有一个明确的政策来通知用户他们提供给你网站的内容应该是独一无二的,不能发布到其他网站上。 毫无疑问,这很难得到,但它有助于实现您的期望;
- 以需要不同内容的独特方式刷新您的论坛。 除了标准数据输入字段外,还添加一些对您的网站访问者有用的独特字段(不同于其他网站)。
您可能还喜欢:如何通过视频内容扩大您的 SEO?
结论
不要太担心重复的内容。 通常没什么大不了的。 大多数情况下,Google 自己都知道如何处理母版页或内容引用等问题。 此外,很多人都面临着重复内容的问题。 有时重复出现在他们期望的地方,所以你应该经常检查站点。 为了防止它们,您需要为每个页面创建独特的内容。
本文由伊莎贝尔·乔丹撰写。 Isabelle 是 ektatraveling.com 保险公司的商业和营销记者。 她为不同的新闻门户网站和主题博客撰稿,帮助她始终处于旅游和保险新闻的核心位置。 这样的工作让她有机会就当今最相关的话题撰写文章。