抓取預算優化:停止浪費抓取預算的 8 個技巧
已發表: 2022-07-26底線:如果 Google 無法抓取您的重要頁面,它們將不會出現在搜索結果中。 這可能導致自然流量低於預期和排名下降。
抓取預算優化使 Google 可以更輕鬆地訪問、抓取和索引您的每個重要頁面,以便您可以通過搜索吸引更多客戶。 以下是您需要了解的有關抓取預算、如何識別抓取預算浪費以及您可以採取哪些措施來優化您的網站以避免任何可能的 SEO 抓取預算問題。
什麼是抓取預算?
您的抓取預算是指 Google 在任何一天抓取的您網站的網頁數。 它基於您的抓取速率限制和抓取需求。
您的抓取速度限制是 Google 在不影響您網站的用戶體驗的情況下可以抓取的頁面數。 從本質上講,Google 不想讓您的服務器因請求而過載,因此它在您的服務器可以處理的內容(您的服務器資源)和它“想要”抓取您的網站的程度之間找到了一個令人滿意的媒介。
您的抓取需求取決於 URL 的受歡迎程度及其新鮮度。 如果一個 URL 是陳舊的並且很少有人搜索它,那麼 Google 將不那麼頻繁地抓取它。
雖然您無法影響抓取速度,但您可以通過創建新鮮內容、使用 SEO 最佳實踐優化您的網站以及解決 404 和不必要的重定向等 SEO 問題來影響您的抓取需求。
什麼是爬網預算優化?
抓取預算優化是通過提高搜索抓取工具的可導航性和減少抓取預算浪費,使 Googlebot 更容易訪問、抓取和索引您的網站的過程。 這包括減少錯誤和斷開的鏈接、改進內部鏈接、不索引重複內容等等。
當 Google 沒有抓取您網站上足夠多的頁面或沒有足夠頻繁地抓取它們時,抓取預算可能會成為一個問題。
因為它只有一定數量的資源可供使用,所以穀歌在任何一天只能將這麼多的抓取分配給任何給定的網站。 如果您有一個大型網站,這意味著 Google 可能只有資源來每天抓取您網站的一小部分頁面。 這可能會影響您的網頁被編入索引或內容更新反映在 Google 排名中所需的時間。
值得慶幸的是,如果您認為您的網站可能存在 Google 抓取預算問題,您可以採取某些措施來優化您的網站並充分利用您的抓取預算。
如何檢查您的抓取統計報告
您可以通過在 Google Search Console 中檢查您的抓取統計信息或分析您的服務器文件日誌來確定抓取預算問題。
在 Google Search Console 中查看您的抓取統計報告可以幫助您更好地了解 Googlebot 如何與您的網站進行交互。 以下是您如何使用它來查看 Google 的爬蟲在做什麼。
打開 Google Search Console,登錄並選擇您的網站。 然後從 Search Console 菜單中選擇“設置”選項。
您可以在抓取統計信息部分下查看過去 90 天的抓取報告。 單擊“打開報告”將其打開。
您的抓取統計報告的含義
現在您可以看到 Googlebot 的活動,是時候解碼數據了。 以下是您可以從抓取報告中獲得的信息類型的快速細分。
主抓取圖表將向您展示 Googlebot 抓取活動的直觀表示。 在這裡,您可以看到 (1) Google 在過去 90 天內發出了多少抓取請求,以及 (2) 您網站服務器的平均響應時間以及抓取時下載的總字節數。
“主機狀態”部分 (3) 將讓您知道爬蟲在訪問您的網站時是否遇到任何可用性問題。
帶有白色複選標記的綠色圓圈表示 Googlebot 沒有遇到任何問題,表明您的主機運行順利。
帶有綠色複選標記的白色圓圈表示 Googlebot 在一周前遇到了問題,但現在一切正常。
帶有白色感嘆號的紅色圓圈表示 Googlebot 在過去一周內至少遇到了一個重大問題。
抓取請求細分提供了一些關於 Google 抓取工具如何與您的網站交互的更詳細信息。
通過響應
要查看的第一部分是“按響應”部分。 本節介紹 Googlebot 在嘗試抓取您網站上的網頁時收到的響應類型。 谷歌認為以下是很好的回應:
- 好的 (200)
- 永久搬遷 (301)
- 臨時搬家 (302)
- 搬家(其他)
- 未修改 (304)
理想情況下,大多數響應應該是 200(一些 301 也可以)。 諸如“未找到 (404)”之類的代碼提醒您,您的網站上可能存在死胡同,這可能會影響您的抓取預算。
文件類型
“按文件類型”部分會告訴您 Googlebot 在抓取過程中遇到的文件類型。 您看到的百分比值代表該類型響應的百分比,而不是每種文件類型的字節百分比。
按目的
“按目的”部分指示爬取的頁面是爬蟲以前見過的頁面(刷新)還是對爬蟲來說是新的(發現)。
按 Googlebot 類型
最後,“按 Googlebot 類型”部分會告訴您用於發出請求和抓取您的網站的 Googlebot 抓取代理的類型。 例如,“智能手機”類型表示 Google 的智能手機抓取工具進行的訪問,而“AdsBot”類型表示 Google 的 AdsBot 抓取工具之一進行的抓取。 附帶說明一下,您始終可以通過編輯 robots.txt 文件來禁止特定類型的 Googlebot 抓取您的網站。
如果您想詳細了解如何解釋抓取報告中的數據,請查看 Google 的 Search Console 抓取報告指南。
如何判斷您是否在浪費您的抓取預算
確定優化抓取預算是否有助於 Googlebot 抓取更多網頁的一種快速方法是查看每天實際抓取的網站網頁的百分比。
找出您網站上有多少獨特頁面,然後將其除以“平均每天抓取”數字。 如果您的頁面總數是每天抓取的頁面數量的十倍或更多,您應該考慮抓取預算優化。
如果您認為自己遇到了抓取預算問題,請先查看“按響應”部分,了解抓取工具可能遇到的錯誤類型。 您可能需要進行更深入的分析,以準確了解您的預算消耗了什麼。 查看您的服務器日誌可以為您提供有關爬蟲如何與您的站點交互的更多信息。
檢查您的服務器日誌
檢查您是否浪費抓取預算的另一種方法是查看您網站的服務器日誌。 這些日誌會存儲對您的網站發出的每一個請求,包括 Googlebot 在抓取您的網站時發出的請求。 分析您的服務器日誌可以告訴您 Google 抓取您網站的頻率、抓取工具最常訪問的頁面以及抓取工具機器人遇到的錯誤類型。
您可以手動檢查這些日誌,儘管挖掘這些數據可能有點乏味。 值得慶幸的是,幾種不同的日誌分析器工具可以幫助您對日誌數據進行排序和理解,例如 SEMRush 日誌文件分析器或 Screaming Frog SEO 日誌文件分析器。
抓取預算 SEO:優化抓取預算的 8 種方法
您是否發現浪費的抓取預算? 抓取預算 SEO 優化策略可以幫助您減少浪費。 這裡有八個技巧可以幫助您優化 SEO 抓取預算以獲得更好的性能。
1. Finetune Robots.txt & Meta Robots 標籤
抑制浪費的抓取預算的一種方法是首先阻止 Google 的抓取工具抓取某些頁面。 通過讓 Googlebot 遠離您不想編入索引的頁面,您可以將注意力集中在更重要的頁面上。
robots.txt 文件為搜索爬蟲設置邊界,聲明您要爬取哪些頁面以及哪些頁面是禁區。 在 robots.txt 文件中添加禁止命令將阻止爬蟲訪問、爬取和索引指定的子目錄,除非有指向這些頁面的鏈接。
在頁面級別,您可以使用元機器人標籤對特定頁面進行無索引。 noindex 標記允許 Googlebot 訪問您的頁面並跟踪其上的鏈接,但它告訴 Googlebot 避免將頁面本身編入索引。 此標記直接進入 HTML 代碼的 <head> 元素,如下所示:
<meta name=”robots” content=”noindex” />
2. 修剪內容
在您的網站上託管低價值 URL 或重複內容可能會拖累您的抓取預算。 深入了解您網站的頁面可以幫助您識別不必要的頁面,這些頁面可能會佔用抓取預算並防止更有價值的內容被抓取和編入索引。
什麼是低價值 URL? 根據 Google 的說法,低價值 URL 通常屬於以下幾類之一:
- 重複內容
- 會話標識符
- 軟錯誤頁面
- 被黑頁面
- 低質量和垃圾郵件內容
重複的內容並不總是很容易識別。 如果一個頁面上的大部分內容與另一個頁面的內容相同——即使您添加了更多內容或更改了一些字詞——Google 也會將其視為明顯相似。 利用 noindex 元標記和規範標記來指示哪個頁面是應該被索引的原始頁面。
通過更新、刪除或不對可能註冊為低價值的內容編制索引,您可以讓 Googlebot 有更多機會抓取您網站上真正重要的網頁。
推薦閱讀
- 重複內容 SEO:如何檢查重複內容
- 為什麼內容修剪有助於您的 SEO(以及如何做到這一點)
3. 移除或渲染 JavaScript
Googlebot 讀取 HTML 沒有問題,但是,它必須先呈現 JavaScript,然後才能讀取它並將其編入索引。 因此,Google 不會抓取頁面上的 JavaScript 元素並將其編入索引,而是抓取頁面上的 HTML 內容,然後將頁面放入呈現隊列中。 當它有時間和資源用於渲染時,它會渲染 JavaScript 並“讀取”它,然後最終索引它。 這個額外的步驟不僅需要更多時間——還需要更多的抓取預算。
JavaScript 也會影響您的頁面加載時間,並且由於網站速度和服務器負載會影響您的抓取預算,如果您的網站因過多的 JavaScript 而陷入困境,Google 可能會降低您的網站的抓取頻率。
為了節省抓取預算,您可以不使用 JavaScript 索引頁面,刪除 JavaScript 元素,或使用 Prerender 之類的工具將動態 JavaScript 內容呈現為靜態 HTML,讓 Google 更容易理解和抓取。
4.刪除301重定向鏈
301 重定向是一種有用且對 SEO 友好的方式,可以將流量和鏈接資產從您要刪除的 URL 轉移到另一個相關 URL。
但是,如果您不跟踪重定向,很容易意外創建重定向鏈。 這不僅會導致網站訪問者的加載時間增加,而且還會導致爬蟲爬取多個 URL,只是為了訪問一頁實際內容。 這意味著 Google 需要抓取重定向鏈中的每個 URL 才能到達目標頁面,在此過程中會耗盡您的抓取預算。
為防止這種情況,請確保您的所有重定向都指向其最終目的地。 盡可能避免使用重定向鏈總是好的做法。 儘管如此,還是會發生錯誤,因此請花一些時間手動瀏覽您的網站或使用重定向檢查工具來發現和清理任何 301 重定向鏈。
5. 遵循 XML 站點地圖最佳實踐
您的站點地圖與搜索爬蟲共享所有重要頁面——或者至少應該如此。 搜索引擎抓取站點地圖以輕鬆找到頁面。 雖然谷歌說它不需要一個來找到你的頁面,但維護一個仍然是一個好主意。
為了正常運行,您的站點地圖應該只包含您想要編入索引的頁面。 您應該從您的站點地圖中刪除所有未編入索引或重定向的 URL。 一個簡單的方法是使用動態生成的 XML 站點地圖。 動態生成的站點地圖會自行更新,因此您不必擔心在每次實施 301 後編輯您的站點地圖。
如果您的網站上有多個子目錄,請使用包含指向每個子目錄的站點地圖的鏈接的站點地圖索引。 這有助於展示您的網站架構,並為搜索爬蟲提供一個簡單的路線圖。
6.創建內部鏈接策略
內部鏈接不僅可以幫助網站訪問者四處走動; 它們還為爬蟲機器人創造了更清晰的移動路徑。
完善的內部鏈接策略可以將爬蟲指向您想要爬取的頁面。 因為爬蟲使用鏈接來查找其他頁面,將更深的頁面與更高級別的內容相互鏈接可以幫助爬蟲更快地訪問它們。 同時,從您不希望佔用爬網預算的低優先級頁面中刪除鏈接可能有助於將它們推到隊列的最後,並確保您的重要頁面首先被爬網。
7.修復網站錯誤
網站錯誤可能會絆倒搜索爬蟲並浪費寶貴的爬蟲預算。 理想情況下,您希望爬蟲遇到實際頁面或單個重定向到該頁面。 如果它遇到重定向鍊或 404 錯誤頁面,那麼您就是在浪費抓取預算。
使用您的 Google Search Console 抓取報告來確定抓取工具在哪裡遇到錯誤以及它們是什麼類型的錯誤。 消除任何可識別的錯誤將為 Googlebot 創造更流暢的抓取體驗。
8.檢查損壞的鏈接
URL 基本上是兩個頁面之間的橋樑。 它為搜索引擎爬蟲提供了一條尋找新頁面的途徑——但有些 URL 無處可去。 斷開的鏈接是搜索引擎爬蟲的死胡同,浪費了您有限的爬蟲預算。
花一些時間檢查您的網站是否存在損壞的鏈接,這些鏈接可能會將搜索爬蟲發送到死頁並更正或刪除它們。 除了減少抓取預算浪費外,您還將通過刪除損壞的鏈接來改善訪問者的瀏覽體驗,因此定期檢查鏈接始終是一個好主意。
通過 SEO 審計停止浪費的抓取預算
感到不知所措或不確定從哪裡開始優化網站的抓取預算或一般 SEO? 沒必要一個人去。 立即與 Victorious 預約諮詢,讓我們的專家幫助您完成執行 SEO 審核並製定優化網站 SEO 的策略。