크롤링 예산 최적화: 낭비되는 크롤링 예산을 막기 위한 8가지 팁

게시 됨: 2022-07-26

결론: Google이 중요한 페이지를 크롤링할 수 없으면 검색결과에 표시되지 않습니다. 이는 예상보다 낮은 유기적 트래픽과 순위 하락으로 이어질 수 있습니다.

크롤링 예산 최적화를 사용하면 Google에서 각 중요한 페이지에 더 쉽게 액세스하고 크롤링하고 색인을 생성할 수 있으므로 검색을 통해 더 많은 고객에게 도달할 수 있습니다. 다음은 크롤링 예산에 대해 알아야 할 사항, 크롤링 예산 낭비를 식별하는 방법, SEO 크롤링 예산 문제를 방지하기 위해 사이트를 최적화하기 위해 할 수 있는 일입니다.

크롤링 예산이란 무엇입니까?

크롤링 예산은 Google이 특정 날짜에 크롤링하는 사이트 페이지 수를 나타냅니다. 크롤링 속도 제한 및 크롤링 수요를 기반으로 합니다.

크롤링 속도 제한 은 Google이 웹사이트의 사용자 환경에 영향을 주지 않고 크롤링할 수 있는 페이지 수입니다. 기본적으로 Google은 요청으로 인해 서버에 과부하가 걸리는 것을 원하지 않으므로 서버가 처리할 수 있는 것(서버 리소스)과 사이트 크롤링에 "원하는" 양 사이에서 적절한 매체를 찾습니다.

크롤링 수요 는 URL의 인기도와 최신 정보에 따라 결정됩니다. URL이 오래되고 검색하는 사람이 거의 없으면 Google은 URL을 덜 자주 크롤링합니다.

크롤링 속도에 영향을 줄 수는 없지만 새로운 콘텐츠를 만들고 SEO 모범 사례로 사이트를 최적화하고 404 및 불필요한 리디렉션과 같은 SEO 문제를 해결하여 크롤링 수요에 영향을 줄 수 있습니다.

크롤링 예산 최적화란 무엇입니까?

크롤링 예산 최적화는 검색 크롤러 탐색 기능을 개선하고 크롤링 예산 낭비를 줄여 Googlebot이 사이트에 더 쉽게 액세스하고 크롤링하고 색인을 생성할 수 있도록 하는 프로세스입니다. 여기에는 오류 및 끊어진 링크 감소, 내부 링크 개선, 중복 콘텐츠 색인 생성 제거 등이 포함됩니다.

크롤링 예산은 Google이 사이트의 페이지를 충분히 크롤링하지 않거나 충분히 자주 크롤링하지 않는 경우 문제가 될 수 있습니다.

작업할 특정 수의 리소스만 있기 때문에 Google은 주어진 날짜에 특정 사이트에 너무 많은 크롤링만 할당할 수 있습니다. 사이트가 큰 경우 Google은 매일 사이트 페이지의 작은 부분만 크롤링할 수 있는 리소스를 보유할 수 있습니다. 이는 페이지의 색인을 생성하거나 콘텐츠 업데이트가 Google 순위에 반영되는 데 걸리는 시간에 영향을 줄 수 있습니다.

고맙게도 사이트에 Google 크롤링 예산 문제가 있다고 생각되면 사이트를 최적화하고 크롤링 예산을 최대한 활용하기 위해 할 수 있는 몇 가지 조치가 있습니다.

크롤링 통계 보고서를 확인하는 방법

Google Search Console에서 크롤링 통계를 확인하거나 서버 파일 로그를 분석하여 크롤링 예산 문제를 식별할 수 있습니다.

Google Search Console에서 크롤링 통계 보고서를 보면 Googlebot이 웹사이트와 상호작용하는 방식을 더 잘 이해할 수 있습니다. 다음은 Google 크롤러가 수행한 작업을 확인하는 데 사용하는 방법입니다.

Google Search Console을 열고 로그인한 다음 웹사이트를 선택합니다. 그런 다음 Search Console 메뉴에서 '설정' 옵션을 선택합니다.

구글 서치 콘솔 메뉴

크롤링 통계 섹션에서 지난 90일 동안의 크롤링 보고서를 볼 수 있습니다. '보고서 열기'를 클릭하여 엽니다.

크롤링 통계를 찾기 위한 Google 검색 콘솔 설정 메뉴

크롤링 통계 보고서의 의미

이제 Googlebot의 활동을 볼 수 있으므로 데이터를 디코딩할 차례입니다. 다음은 크롤링 보고서에서 얻을 수 있는 정보 유형에 대한 간략한 분석입니다.

크롤링 통계를 찾기 위한 Google 검색 콘솔 설정 메뉴

기본 크롤링 차트는 Googlebot의 크롤링 활동을 시각적으로 보여줍니다. 여기에서 (1) Google이 지난 90일 동안 제출한 크롤링 요청 수와 (2) 사이트 서버의 평균 응답 시간 및 크롤링하는 동안 다운로드된 총 바이트 수를 확인할 수 있습니다.

'호스트 상태' 섹션(3)은 크롤러가 웹사이트에 액세스하는 동안 가용성 문제가 발생했는지 알려줍니다.

흰색 체크 표시가 있는 녹색 원은 Googlebot에 문제가 발생하지 않았으며 호스트가 원활하게 실행되고 있음을 나타냅니다.

녹색 체크 표시가 있는 흰색 원은 Googlebot이 일주일 전에 문제가 발생했지만 지금은 모든 것이 잘 실행되고 있음을 의미합니다.

흰색 느낌표가 있는 빨간색 원은 Googlebot이 지난주에 하나 이상의 중요한 문제를 겪었음을 나타냅니다.

크롤링 예산 최적화에 도움이 되는 크롤링 요청 분석

크롤링 요청 분석은 Google 크롤러가 사이트와 상호작용하는 방식에 대한 보다 자세한 정보를 제공합니다.

응답으로

가장 먼저 살펴볼 섹션은 'By response' 섹션입니다. 이 섹션에서는 사이트의 페이지를 크롤링하려고 할 때 Googlebot이 어떤 종류의 응답을 받았는지 알려줍니다. Google은 다음을 좋은 응답으로 간주합니다.

  • 확인 (200)
  • 영구적으로 이사함(301)
  • 임시 이사(302)
  • 이사(기타)
  • 수정되지 않음(304)

이상적으로는 대부분의 응답이 200이어야 합니다(일부 301도 괜찮음). '찾을 수 없음(404)'과 같은 코드는 웹사이트에 크롤링 예산에 영향을 미칠 수 있는 막다른 골목이 있을 수 있다는 경고입니다.

파일 형식

'파일 유형별' 섹션은 Googlebot이 크롤링 중에 발견한 파일 유형을 알려줍니다. 표시되는 백분율 값은 각 파일 유형의 바이트 백분율이 아니라 해당 유형의 응답 백분율을 나타냅니다.

목적에 따라

'목적별' 섹션은 크롤링된 페이지가 크롤러가 이전에 본 페이지(새로 고침)인지 아니면 크롤러에 새로운 페이지(검색)인지를 나타냅니다.

Googlebot 유형별

마지막으로 'Googlebot 유형별' 섹션에서는 사이트를 요청하고 크롤링하는 데 사용되는 Googlebot 크롤링 에이전트 유형에 대해 설명합니다. 예를 들어 '스마트폰' 유형은 Google 스마트폰 크롤러의 방문을 나타내고 'AdsBot' 유형은 Google의 AdsBot 크롤러 중 하나의 크롤링을 나타냅니다. 참고로 robots.txt 파일을 수정하여 특정 유형의 Googlebot이 웹사이트를 크롤링하지 못하도록 언제든지 비활성화할 수 있습니다.

크롤링 보고서의 데이터를 해석하는 방법에 대해 자세히 알아보려면 Search Console 크롤링 보고서에 대한 Google 가이드를 확인하세요.

크롤링 예산을 낭비하고 있는지 확인하는 방법

크롤링 예산 최적화가 Googlebot이 더 많은 페이지를 크롤링하는 데 도움이 되는지 여부를 빠르게 결정하는 방법 은 사이트 페이지 중 실제로 하루에 크롤링되는 비율을 확인하는 것입니다.

웹사이트에 고유한 페이지가 몇 개인지 정확히 확인하고 이를 "하루 평균 크롤링" 숫자로 나눕니다. 하루에 크롤링되는 페이지의 총 페이지 양이 10배 이상인 경우 크롤링 예산 최적화를 고려해야 합니다.

크롤링 예산 문제가 있다고 생각되면 먼저 '응답별' 섹션을 살펴보고 크롤러에서 어떤 종류의 오류가 발생할 수 있는지 확인하세요. 예산을 낭비하고 있는 것이 무엇인지 정확히 확인하려면 더 깊은 분석을 수행해야 할 것입니다. 서버 로그를 보면 크롤러가 사이트와 상호 작용하는 방식에 대한 자세한 정보를 얻을 수 있습니다.

서버 로그 확인

크롤링 예산을 낭비하고 있는지 확인하는 또 다른 방법은 사이트의 서버 로그를 확인하는 것입니다. 이러한 로그는 Googlebot이 사이트를 크롤링할 때 수행하는 요청을 포함하여 웹사이트에 대한 모든 단일 요청을 저장합니다. 서버 로그를 분석하면 Google이 웹사이트를 크롤링하는 빈도, 크롤러가 가장 자주 액세스하는 페이지, 크롤러 봇에 발생한 오류 유형을 알 수 있습니다.

이 데이터를 파헤치는 것은 다소 지루할 수 있지만 이러한 로그를 수동으로 확인할 수 있습니다. 고맙게도 SEMRush 로그 파일 분석기 또는 Screaming Frog SEO 로그 파일 분석기와 같은 여러 로그 분석기 도구를 사용하여 로그 데이터를 정렬하고 이해할 수 있습니다.

크롤링 예산 SEO: 크롤링 예산을 최적화하는 8가지 방법

낭비된 크롤링 예산을 발견하셨습니까? 크롤링 예산 SEO 최적화 전략은 낭비를 줄이는 데 도움이 될 수 있습니다. 다음은 더 나은 성능을 위해 SEO 크롤링 예산을 최적화하는 데 도움이 되는 8가지 팁입니다.

1. Finetune Robots.txt 및 메타 로봇 ​​태그

크롤링 예산 낭비를 줄이는 한 가지 방법은 Google 크롤러가 특정 페이지를 크롤링하지 못하도록 하는 것입니다. 색인 생성을 원하지 않는 페이지에서 Googlebot을 멀리 함으로써 더 중요한 페이지에 집중할 수 있습니다.

robots.txt 파일은 크롤링할 페이지와 허용되지 않는 페이지를 선언하는 검색 크롤러의 경계를 설정합니다. robots.txt 파일에 disallow 명령을 추가하면 해당 페이지를 가리키는 링크가 없는 한 크롤러가 지정된 하위 디렉토리에 액세스하고, 크롤링하고, 색인을 생성하는 것을 차단합니다.

페이지 수준에서 메타 로봇 ​​태그를 사용하여 특정 페이지의 색인을 생성하지 않을 수 있습니다. noindex 태그를 사용하면 Googlebot이 페이지에 액세스하고 페이지의 링크를 따라갈 수 있지만 Googlebot에게 페이지 자체의 색인을 생성하지 않도록 지시합니다. 이 태그는 HTML 코드의 <head> 요소로 직접 이동하며 다음과 같습니다.

 <meta name=”robots” content=”noindex” />

2. 콘텐츠 정리

사이트에 가치가 낮은 URL을 호스팅하거나 콘텐츠를 복제하면 크롤링 예산이 늘어날 수 있습니다. 웹사이트 페이지를 자세히 살펴보면 크롤링 예산을 소모하고 더 가치 있는 콘텐츠가 크롤링 및 인덱싱되는 것을 방지할 수 있는 불필요한 페이지를 식별하는 데 도움이 될 수 있습니다.

가치가 낮은 URL에 해당하는 것은 무엇입니까? Google에 따르면 가치가 낮은 URL은 일반적으로 다음과 같은 몇 가지 범주 중 하나로 분류됩니다.

  • 중복 콘텐츠
  • 세션 식별자
  • 소프트 오류 페이지
  • 해킹된 페이지
  • 저품질 및 스팸 콘텐츠

중복 콘텐츠를 식별하기가 항상 쉬운 것은 아닙니다. 페이지에 있는 대부분의 콘텐츠가 다른 페이지의 콘텐츠와 동일한 경우, 더 많은 콘텐츠를 추가하거나 일부 단어를 변경하더라도 Google은 해당 콘텐츠를 상당히 유사한 것으로 간주합니다. 색인을 생성해야 하는 원본 페이지를 나타내기 위해 noindex 메타 태그와 표준 태그를 사용합니다.

가치가 낮은 것으로 등록될 수 있는 콘텐츠를 업데이트, 제거 또는 색인 생성하지 않음으로써 Googlebot이 사이트에서 진정으로 중요한 페이지를 크롤링할 수 있는 더 많은 기회를 제공합니다.

3. JavaScript 제거 또는 렌더링

Googlebot은 HTML을 읽는 데 문제가 없지만 JavaScript를 렌더링해야 HTML을 읽고 색인을 생성할 수 있습니다. 따라서 Google은 페이지의 JavaScript 요소를 크롤링하고 인덱싱하는 대신 페이지의 HTML 콘텐츠를 크롤링한 다음 페이지를 렌더링 대기열에 배치합니다. 렌더링에 할애할 시간과 리소스가 있으면 JavaScript를 렌더링하고 "읽고" 마지막으로 색인을 생성합니다. 이 추가 단계에는 더 많은 시간이 소요될 뿐만 아니라 크롤링 예산이 더 많이 소요됩니다.

JavaScript는 페이지 로드 시간에도 영향을 미칠 수 있으며 사이트 속도와 서버 로드는 크롤링 예산에 영향을 미치므로 Google은 JavaScript가 너무 많으면 사이트를 원하는 것보다 덜 자주 크롤링할 수 있습니다.

크롤링 예산을 절약하기 위해 JavaScript로 페이지의 색인을 생성하지 않거나 JavaScript 요소를 제거하거나 Prerender와 같은 도구를 사용하여 동적 JavaScript 콘텐츠를 정적 HTML로 렌더링하고 Google에서 더 쉽게 이해하고 크롤링할 수 있습니다.

4. 301 리디렉션 체인 제거

301 리디렉션은 제거하려는 URL에서 다른 관련 URL로 트래픽 및 링크 자산을 전송하는 유용하고 SEO 친화적인 방법입니다.

그러나 리디렉션을 추적하지 않는 경우 실수로 리디렉션 체인을 만들기 쉽습니다. 이는 사이트 방문자의 로드 시간을 증가시킬 뿐만 아니라 크롤러가 실제 콘텐츠의 한 페이지에 액세스하기 위해 여러 URL을 크롤링하게 할 수도 있습니다. 즉, Google은 대상 페이지에 도달하기 위해 리디렉션 체인의 모든 URL을 크롤링해야 하므로 이 과정에서 크롤링 예산이 소모됩니다.

이를 방지하려면 모든 리디렉션이 최종 목적지를 가리키는지 확인하십시오. 가능하면 항상 리디렉션 체인을 사용하지 않는 것이 좋습니다. 그래도 실수가 발생하므로 시간을 들여 수동으로 사이트를 살펴보거나 리디렉션 확인 도구를 사용하여 301 리디렉션 체인을 찾아 정리하십시오.

5. XML Sitemap 모범 사례 따르기

사이트맵은 중요한 모든 페이지를 검색 크롤러와 공유하거나 적어도 공유해야 합니다. 검색 엔진은 사이트맵을 크롤링하여 페이지를 쉽게 찾습니다. Google은 귀하의 페이지를 찾는 데 필요하지 않다고 말하지만 여전히 하나를 유지하는 것이 좋습니다.

제대로 작동하려면 사이트맵에 색인을 생성하려는 페이지만 포함해야 합니다. 색인이 생성되지 않았거나 리디렉션된 URL은 사이트맵에서 제거해야 합니다. 이를 수행하는 쉬운 방법은 동적으로 생성된 XML 사이트맵을 사용하는 것입니다. 동적으로 생성된 사이트맵은 자동으로 업데이트되므로 301을 구현할 때마다 사이트맵을 편집하는 것에 대해 걱정할 필요가 없습니다.

사이트에 여러 하위 디렉토리가 있는 경우 각 하위 디렉토리의 사이트맵에 대한 링크가 있는 사이트맵 색인을 사용하십시오. 이는 웹사이트 아키텍처를 보여주는 데 도움이 되며 검색 크롤러가 따를 수 있는 쉬운 로드맵을 제공합니다.

6. 내부 연결 전략 만들기

내부 링크는 사이트 방문자의 이동에만 도움이 되는 것이 아닙니다. 또한 크롤러 봇을 위한 더 명확한 이동 경로를 만듭니다.

잘 개발된 내부 연결 전략은 크롤러가 크롤링하려는 페이지를 가리키도록 할 수 있습니다. 크롤러는 링크를 사용하여 다른 페이지를 찾기 때문에 더 깊은 페이지를 상위 수준 콘텐츠와 연결하면 크롤러가 더 빠르게 액세스할 수 있습니다. 동시에 크롤링 예산에 사용하지 않으려는 우선 순위가 낮은 페이지에서 링크를 제거하면 해당 링크를 대기열 뒤로 밀어넣고 중요한 페이지가 먼저 크롤링되도록 할 수 있습니다.

7. 사이트 오류 수정

사이트 오류는 검색 크롤러를 중단시키고 귀중한 크롤링 예산을 낭비할 수 있습니다. 이상적으로는 크롤러가 실제 페이지를 만나거나 해당 페이지로 단일 리디렉션되기를 원합니다. 리디렉션 체인 또는 404 오류 페이지로 실행되는 경우 크롤링 예산을 낭비하고 있는 것입니다.

Google Search Console 크롤링 보고서를 사용하여 크롤러에서 오류가 발생한 위치와 오류의 종류를 식별합니다. 식별 가능한 오류를 제거하면 Googlebot의 크롤링 환경이 더 원활해집니다.

8. 끊어진 링크 확인

URL은 기본적으로 두 페이지 사이의 다리입니다. 새 페이지를 찾기 위한 검색 엔진 크롤러 경로를 제공하지만 일부 URL은 아무데도 가지 않습니다. 깨진 링크는 검색 엔진 크롤러의 막다른 골목이며 제한된 크롤링 예산 낭비입니다.

시간을 내어 사이트에서 검색 크롤러를 죽은 페이지로 보낼 수 있는 깨진 링크가 있는지 확인하고 수정하거나 제거하십시오. 크롤링 예산 낭비를 줄이는 것 외에도 끊어진 링크를 제거하여 방문자 탐색 경험을 개선할 수 있으므로 주기적으로 링크를 확인하는 것이 좋습니다.

SEO 감사로 낭비되는 크롤링 예산 중지

사이트의 크롤링 예산 또는 일반 SEO 최적화를 어디서부터 시작해야 할지 막막하거나 확신이 서지 않습니까? 혼자 갈 필요가 없습니다. 오늘 Victorious와 상담을 예약하고 전문가가 SEO 감사를 수행하고 사이트의 SEO를 최적화하기 위한 전략을 고안하는 과정을 도와드립니다.