사이트 크롤링, 인덱싱 및 XML 사이트맵 뒤에 숨겨진 3가지 일반적인 신화 폭로

게시 됨: 2018-03-07

우리 중 많은 사람들이 XML 사이트맵이 있는 웹사이트를 시작하면 모든 페이지가 자동으로 크롤링되고 색인이 생성된다고 잘못 믿고 있습니다.

이와 관련하여 몇 가지 신화와 오해가 생깁니다. 가장 일반적인 것은 다음과 같습니다.

Google은 모든 사이트를 자동으로 크롤링하고 빠르게 수행합니다.
웹사이트를 크롤링할 때 Google은 모든 링크를 따라가서 모든 페이지를 방문하여 즉시 색인에 모두 포함합니다.
XML 사이트맵을 추가하는 것은 모든 사이트 페이지를 크롤링하고 색인을 생성하는 가장 좋은 방법입니다.

슬프게도 웹사이트를 Google 색인에 포함시키는 것은 조금 더 복잡한 작업입니다. 크롤링 및 인덱싱 프로세스가 작동하는 방식과 XML 사이트맵이 이 과정에서 수행하는 역할에 대한 더 나은 아이디어를 얻으려면 계속 읽으십시오.

위에서 언급한 신화를 폭로하기 전에 몇 가지 필수적인 SEO 개념을 알아보겠습니다.

크롤링 은 웹 전체에서 URL을 추적하고 수집하기 위해 검색 엔진에서 구현하는 활동입니다.

인덱싱 은 크롤링 이후의 프로세스입니다. 기본적으로 검색 엔진 쿼리에 대한 결과를 제공할 때 나중에 사용되는 웹 데이터를 구문 분석하고 저장하는 것입니다. 검색 엔진 색인은 수집된 모든 웹 데이터가 추가 사용을 위해 저장되는 장소입니다.

크롤링 순위 는 Google이 사이트와 페이지에 할당하는 값입니다. 이 측정항목이 검색 엔진에서 어떻게 계산되는지는 아직 알 수 없습니다. Google은 인덱싱 빈도가 순위와 관련이 없음을 여러 번 확인했기 때문에 웹 사이트 순위 기관과 크롤링 순위 사이에는 직접적인 상관 관계가 없습니다.

뉴스 웹사이트, 가치 있는 콘텐츠가 있는 사이트 및 정기적으로 업데이트되는 사이트는 정기적으로 크롤링될 가능성이 더 높습니다.

크롤링 예산 은 검색 엔진이 웹사이트에 할당하는 크롤링 리소스의 양입니다. 일반적으로 Google은 사이트 크롤링 순위를 기반으로 이 금액을 계산합니다.

크롤링 깊이 는 Google이 웹사이트를 탐색할 때 웹사이트 수준을 드릴다운하는 정도입니다.

크롤링 우선 순위 는 크롤링과 관련된 중요성을 나타내는 사이트 페이지에 할당된 서수입니다.

이제 프로세스의 모든 기본 사항을 알았으므로 XML 사이트맵, 크롤링 및 색인 생성에 대한 3가지 신화를 파헤쳐 보겠습니다!

통념 1. Google은 모든 사이트를 자동으로 크롤링하고 빠르게 수행합니다.
테이크아웃
통념 2. XML 사이트맵을 추가하는 것은 모든 사이트 페이지를 크롤링하고 색인을 생성하는 가장 좋은 방법입니다.
테이크아웃
통념 3. XML 사이트맵은 모든 크롤링 및 색인 생성 문제를 해결할 수 있습니다.
테이크아웃

통념 1. Google은 모든 사이트를 자동으로 크롤링하고 빠르게 수행합니다.

구글은 웹 데이터 수집에 있어 민첩하고 유연하다고 주장한다.

그러나 사실은 현재 웹에 수조 개의 페이지가 있기 때문에 기술적으로 검색 엔진이 모든 페이지를 빠르게 크롤링할 수 없기 때문입니다.

크롤링 예산을 할당할 웹사이트 선택

스마트 Google 알고리즘(크롤링 예산이라고도 함)은 검색 엔진 리소스를 배포하고 크롤링할 가치가 있는 사이트와 그렇지 않은 사이트를 결정합니다.

일반적으로 Google은 설정된 요구사항에 해당하는 신뢰할 수 있는 웹사이트의 우선 순위를 지정하고 다른 사이트가 측정하는 방식을 정의하는 기초 역할을 합니다.

따라서 갓 나온 웹 사이트 또는 스크랩, 복제 또는 얇은 콘텐츠가 있는 웹 사이트가 있는 경우 제대로 크롤링될 가능성은 매우 낮습니다.

크롤링 예산 할당에 영향을 줄 수 있는 중요한 요소는 다음과 같습니다.

웹사이트 크기,
일반적인 상태(이 측정항목 집합은 각 페이지에 있을 수 있는 오류 수에 따라 결정됨)
인바운드 및 내부 링크 수.

크롤링 예산 확보 가능성을 높이려면 사이트가 위에서 언급한 모든 Google 요구 사항을 충족하고 크롤링 효율성을 최적화해야 합니다(문서의 다음 섹션 참조).

크롤링 일정 예측

Google은 웹 URL 크롤링 계획을 발표하지 않습니다. 또한 검색 엔진이 일부 사이트를 방문하는 주기를 추측하기 어렵습니다.

한 사이트의 경우 적어도 하루에 한 번 크롤링을 수행할 수 있고 다른 사이트의 경우 한 달에 한 번 또는 그보다 덜 자주 방문할 수 있습니다.

크롤링 주기는 다음에 따라 다릅니다.
사이트 콘텐츠의 품질,
웹사이트가 제공하는 정보의 새로움과 관련성,
검색 엔진이 사이트 URL을 얼마나 중요하게 생각하는지 또는 인기가 있는지에 대한 정보입니다.

이러한 요소를 고려하여 Google에서 웹사이트를 방문하는 빈도를 예측할 수 있습니다.

외부/내부 링크 및 XML 사이트맵의 역할

경로로 Googlebot은 사이트 페이지와 웹사이트를 서로 연결하는 링크를 사용합니다. 따라서 검색 엔진은 웹에 존재하는 수조 개의 상호 연결된 페이지에 도달합니다.

검색 엔진은 반드시 홈 페이지가 아닌 모든 페이지에서 웹사이트 검색을 시작할 수 있습니다. 크롤링 진입점의 선택은 인바운드 링크의 소스에 따라 다릅니다. 예를 들어, 일부 제품 페이지에는 다양한 웹사이트에서 오는 많은 링크가 있습니다. Google은 점을 연결하고 이러한 인기 있는 페이지를 첫 번째 턴에 방문합니다.

XML 사이트맵은 잘 생각한 사이트 구조를 구축하는 훌륭한 도구입니다. 또한 사이트 크롤링 프로세스를 보다 표적화되고 지능적으로 만들 수 있습니다.

기본적으로 사이트맵은 모든 사이트 링크가 있는 허브입니다. 여기에 포함된 각 링크에는 마지막 업데이트 날짜, 업데이트 빈도, 사이트의 다른 URL과의 관계 등 몇 가지 추가 정보가 포함될 수 있습니다.

Googlebot에 자세한 웹사이트 크롤링 로드맵을 제공하고 크롤링에 대한 정보를 제공합니다. 또한 모든 주요 검색 엔진은 사이트맵에 나열된 URL에 우선 순위를 부여합니다.

요약하자면, 사이트 페이지를 Googlebot의 레이더에 포착하려면 훌륭한 콘텐츠로 웹사이트를 구축하고 내부 링크 구조를 최적화해야 합니다.

테이크아웃

• Google은 모든 웹사이트를 자동으로 크롤링하지 않습니다.
• 사이트 크롤링의 주기는 사이트와 해당 페이지가 얼마나 중요한지 또는 인기 있는 정도에 따라 다릅니다.
• 콘텐츠를 업데이트하면 Google이 웹사이트를 더 자주 방문하게 됩니다.
• 검색 엔진 요구 사항과 일치하지 않는 웹 사이트는 제대로 크롤링되지 않을 수 있습니다.
• 내부/외부 링크가 없는 웹사이트 및 사이트 페이지는 일반적으로 검색 엔진 봇에 의해 무시됩니다.
• XML 사이트맵을 추가하면 웹사이트 크롤링 프로세스를 개선하고 더 지능적으로 만들 수 있습니다.

통념 2. XML 사이트맵을 추가하는 것은 모든 사이트 페이지를 크롤링하고 색인을 생성하는 가장 좋은 방법입니다.

모든 웹사이트 소유자는 Googlebot이 모든 중요한 사이트 페이지(색인 생성에서 숨겨진 페이지 제외)를 방문하고 새 콘텐츠와 업데이트된 콘텐츠를 즉시 탐색하기를 원합니다.

그러나 검색 엔진에는 사이트 크롤링 우선 순위에 대한 자체 비전이 있습니다.

웹사이트와 콘텐츠를 확인할 때 Google은 크롤링 예산이라는 일련의 알고리즘을 사용합니다. 기본적으로 검색 엔진이 자체 리소스를 능숙하게 사용하면서 사이트 페이지를 스캔할 수 있습니다.

웹사이트 크롤링 예산 확인

사이트가 크롤링되는 방식과 크롤링 예산 문제가 있는지 여부를 파악하는 것은 매우 쉽습니다.

다음을 수행하기만 하면 됩니다.

사이트와 XML 사이트맵의 페이지 수를 계산하고
Google Search Console을 방문하여 크롤링 -> 크롤링 통계 섹션으로 이동하여 사이트에서 매일 크롤링되는 페이지 수를 확인합니다.
사이트 페이지의 총 수를 하루에 크롤링되는 페이지 수로 나눕니다.

가지고 있는 숫자가 10보다 크면(Google이 매일 크롤링하는 것보다 10배 더 많은 페이지가 사이트에 있음) 나쁜 소식이 있습니다. 웹사이트에 크롤링 문제가 있습니다.

그러나 문제를 해결하는 방법을 배우기 전에 다른 개념을 이해해야 합니다.

크롤링 깊이

크롤링 깊이는 Google이 특정 수준까지 웹사이트를 계속 탐색하는 정도입니다.

일반적으로 홈페이지는 레벨 1, 클릭 1번의 페이지는 레벨 2 등으로 간주됩니다.

딥 레벨 페이지는 Pagerank가 낮거나 전혀 없으며 Googlebot이 크롤링할 가능성이 적습니다. 일반적으로 검색 엔진은 레벨 4보다 더 깊이 파고들지 않습니다.

이상적인 시나리오에서 특정 페이지는 홈페이지 또는 기본 사이트 범주에서 1-4 클릭 거리에 있어야 합니다. 해당 페이지에 대한 경로가 길수록 검색 엔진이 해당 페이지에 도달하기 위해 할당해야 하는 리소스가 늘어납니다.

웹사이트에 있는 경우 Google은 경로가 너무 길다고 추정하여 더 이상 크롤링을 중지합니다.

크롤링 깊이 및 예산 최적화

Googlebot이 느려지는 것을 방지하려면 웹사이트 크롤링 예산과 깊이를 최적화하려면 다음을 수행해야 합니다.

모든 404, JS 및 기타 페이지 오류를 수정합니다.

페이지 오류가 너무 많으면 Google 크롤러의 속도가 크게 느려질 수 있습니다. 모든 주요 사이트 오류를 찾으려면 Google(Bing, Yandex) 웹마스터 도구 패널에 로그인하고 여기에 제공된 모든 지침을 따르십시오.

페이지 매김 최적화;

페이지 매김 목록이 너무 길거나 페이지 매김 방식이 목록 아래로 몇 페이지 이상을 클릭하는 것을 허용하지 않는 경우 검색 엔진 크롤러는 그러한 페이지 더미를 파헤치는 것을 멈출 가능성이 높습니다.

또한 이러한 페이지당 항목이 거의 없으면 콘텐츠가 얇은 것으로 간주되어 크롤링되지 않습니다.

탐색 필터를 확인하십시오.

일부 탐색 체계는 새 페이지를 생성하는 여러 필터와 함께 제공될 수 있습니다(예: 계층 탐색으로 필터링된 페이지). 이러한 페이지에는 잠재적인 트래픽이 있을 수 있지만 검색 엔진 크롤러에 원치 않는 로드를 생성할 수도 있습니다.

이 문제를 해결하는 가장 좋은 방법은 필터링된 목록에 대한 체계적인 링크를 제한하는 것입니다. 이상적으로는 최대 1-2개의 필터를 사용해야 합니다. 예를 들어 3개의 LN 필터(색상/크기/성별)가 있는 상점이 있는 경우 2개의 필터(예: 색상-크기, 성별-크기)의 체계적인 조합만 허용해야 합니다. 더 많은 필터 조합을 추가해야 하는 경우 수동으로 링크를 추가해야 합니다.

URL의 추적 매개변수 최적화

다양한 URL 추적 매개변수(예: '?source=thispage')는 크롤러가 엄청난 양의 새 URL을 생성하기 때문에 트랩을 생성할 수 있습니다. '유사한 제품' 또는 '관련 기사'가 있는 페이지에서 일반적으로 발생하는 이 문제는 이러한 매개변수가 사용자의 행동을 추적하는 데 사용되는 경우 차단됩니다.

이 경우 크롤링 효율성을 최적화하려면 URL 끝에 '#' 뒤에 추적 정보를 전송하는 것이 좋습니다. 이렇게 하면 해당 URL이 변경되지 않은 상태로 유지됩니다. 또한 추적 매개변수가 있는 URL을 추적 없이 동일한 URL로 리디렉션할 수도 있습니다.

과도한 301 리디렉션을 제거합니다.

예를 들어 후행 슬래시 없이 연결된 URL의 큰 덩어리가 있다고 가정해 보겠습니다. 검색 엔진 봇이 이러한 페이지를 방문하면 슬래시가 있는 버전으로 리디렉션됩니다.

따라서 봇은 예상보다 두 배 더 많은 작업을 수행해야 하며 결국 포기하고 크롤링을 중지할 수 있습니다. 이를 방지하려면 URL을 변경할 때마다 사이트 내의 모든 링크를 업데이트하십시오.

크롤링 우선순위

위에서 말했듯이 Google은 크롤링할 웹사이트의 우선 순위를 지정합니다. 따라서 크롤링된 웹사이트 내의 페이지에서도 동일한 작업을 수행하는 것은 놀라운 일이 아닙니다.

대부분의 웹사이트에서 크롤링 우선 순위가 가장 높은 페이지가 홈페이지입니다.

그러나 이전에 말했듯이 경우에 따라 가장 인기 있는 카테고리 또는 가장 많이 방문한 제품 페이지가 될 수도 있습니다. Googlebot이 더 많은 크롤링을 수행하는 페이지를 찾으려면 서버 로그를 살펴보세요.

Google은 사이트 페이지의 크롤링 우선 순위에 영향을 줄 수 있는 요인을 공식적으로 발표하지 않았지만 다음과 같습니다.

XML 사이트맵에 포함(가장 중요한 페이지에 우선순위 태그* 추가),
인바운드 링크 수,
내부 링크 수,
페이지 인기도(방문 횟수),
페이지 랭크.

그러나 검색 엔진 봇이 웹사이트를 크롤링하는 방법을 제거한 후에도 여전히 무시할 수 있습니다. 이유를 알아보려면 계속 읽으십시오.

크롤링 우선 순위를 더 잘 이해하려면 Gary Illyes의 가상 기조 연설을 시청하십시오.

XML 사이트맵의 우선 순위 태그는 수동으로 추가하거나 사이트가 기반으로 하는 플랫폼의 기본 제공 기능을 통해 추가할 수 있습니다. 또한 일부 플랫폼은 프로세스를 단순화하는 타사 XML 사이트맵 확장/앱을 지원합니다.
XML 사이트맵 우선순위 태그를 사용하여 사이트 페이지의 다양한 카테고리에 다음 값을 할당할 수 있습니다.

0.0-0.3에서 유틸리티 페이지, 오래된 콘텐츠 및 중요하지 않은 페이지,
0.4-0.7 블로그 기사, FAQ 및 지식 페이지, 부차적으로 중요한 카테고리 및 하위 카테고리 페이지,
주요 사이트 카테고리, 주요 방문 페이지 및 홈페이지에 0.8-1.0.

테이크아웃

• Google은 크롤링 프로세스의 우선 순위에 대한 자체 비전을 가지고 있습니다.
• 검색 엔진 인덱스에 들어가야 하는 페이지는 홈페이지, 주요 사이트 카테고리 또는 가장 인기 있는 사이트 페이지에서 1-4 클릭 거리에 있어야 합니다.
• Googlebot이 느려지는 것을 방지하고 웹사이트 크롤링 예산과 크롤링 깊이를 최적화하려면 404, JS 및 기타 페이지 오류를 찾아 수정하고, 사이트 페이지 매김 및 탐색 필터를 최적화하고, 과도한 301 리디렉션을 제거하고, URL의 추적 매개변수를 최적화해야 합니다.
• 중요한 사이트 페이지의 크롤링 우선 순위를 높이려면 해당 페이지가 XML 사이트맵(우선순위 태그 포함)에 포함되어 있고 다른 사이트 페이지와 잘 연결되어 있고 다른 관련성 있고 권위 있는 웹사이트에서 오는 링크가 있는지 확인하십시오.

통념 3. XML 사이트맵은 모든 크롤링 및 색인 생성 문제를 해결할 수 있습니다.

귀하의 사이트 URL과 해당 URL에 도달하는 방법에 대해 Google에 알리는 훌륭한 커뮤니케이션 도구이지만 XML 사이트맵은 검색 엔진 봇이 귀하의 사이트를 방문할 것이라는 보장을 제공하지 않습니다(모든 사이트 페이지를 색인에 포함하는 것은 말할 것도 없음). .

또한 사이트맵이 사이트 순위를 높이는 데 도움이 되지 않는다는 점을 이해해야 합니다. 페이지가 크롤링되어 검색 엔진 색인에 포함되더라도 순위 성능은 수많은 다른 요인(내부 및 외부 링크, 콘텐츠, 사이트 품질 등)에 따라 달라집니다.

그러나 XML 사이트맵을 올바르게 사용하면 사이트 크롤링 효율성을 크게 향상시킬 수 있습니다. 다음은 이 도구의 SEO 잠재력을 극대화하는 방법에 대한 몇 가지 조언입니다.

일관성을 유지

사이트맵을 만들 때 Google 크롤러의 로드맵으로 사용된다는 점을 기억하십시오. 따라서 잘못된 방향을 제공하여 검색 엔진을 오도하지 않는 것이 중요합니다.

예를 들어, 때때로 XML 사이트맵에 일부 유틸리티 페이지( 문의하기 또는 TOS 페이지, 로그인 페이지, 분실한 비밀번호 복원 페이지, 콘텐츠 공유 페이지 등)를 포함할 수 있습니다.

이러한 페이지는 일반적으로 noindex robots 메타 태그가 있는 색인 생성에서 숨겨지거나 robots.txt 파일에서 허용되지 않습니다.

따라서 XML 사이트맵에 포함하면 Googlebot만 혼동을 일으킬 수 있으며 웹사이트에 대한 정보 수집 프로세스에 부정적인 영향을 미칠 수 있습니다.

정기적으로 업데이트

웹상의 대부분의 웹사이트는 거의 매일 변경됩니다. 특히 제품 및 카테고리가 있는 전자 상거래 웹 사이트는 사이트 안팎에서 정기적으로 뒤섞입니다.

Google에 최신 정보를 제공하려면 XML 사이트맵을 최신 상태로 유지해야 합니다.

일부 플랫폼(Magento, Shopify)에는 XML 사이트맵을 주기적으로 업데이트하거나 이 작업을 수행할 수 있는 일부 타사 솔루션을 지원하는 기능이 내장되어 있습니다.

예를 들어 Magento 2에서는 사이트맵 업데이트 주기의 주기성을 지정할 수 있습니다. 플랫폼의 구성 설정에서 이를 정의하면 사이트 페이지가 특정 시간 간격(매시간, 매주, 매월)으로 업데이트되고 사이트에 또 다른 크롤링이 필요하다는 것을 크롤러에 알립니다.

여기를 클릭하여 자세히 알아보세요.

그러나 사이트맵 업데이트의 우선 순위와 빈도를 설정하면 도움이 되지만 실제 변경 사항을 따라잡지 못하고 때때로 실제 그림을 제공하지 못할 수 있습니다.

그렇기 때문에 사이트맵에 최근 변경된 사항이 모두 반영되어 있는지 확인하십시오.

사이트 콘텐츠 분류 및 올바른 크롤링 우선 순위 설정

Google은 전체 사이트 품질을 측정하고 가장 관련성이 높은 최고의 웹사이트만 표시하기 위해 열심히 노력하고 있습니다.

그러나 종종 발생하는 것처럼 모든 사이트가 동등하게 만들어지고 실제 가치를 제공할 수 있는 것은 아닙니다.

예를 들어, 웹 사이트는 1,000페이지로 구성될 수 있으며 그 중 «A» 등급은 50페이지에 불과합니다. 나머지는 순전히 기능적이거나 오래된 콘텐츠가 있거나 콘텐츠가 전혀 없습니다.

Google이 이러한 웹사이트를 탐색하기 시작하면 가치가 낮거나 스팸성 또는 오래된 페이지의 비율이 높기 때문에 해당 웹사이트가 상당히 쓰레기라고 판단할 것입니다.

그렇기 때문에 XML 사이트맵을 만들 때 웹사이트 콘텐츠를 분류하고 검색 엔진 봇을 가치 있는 사이트 영역으로만 안내하는 것이 좋습니다.

그리고 기억하시겠지만 XML 사이트맵에서 가장 중요한 사이트 페이지에 할당된 우선순위 태그도 큰 도움이 될 수 있습니다.

테이크아웃

• 사이트맵을 생성할 때 noindex robots 메타 태그가 있는 색인 생성에서 숨겨지거나 robots.txt 파일에서 허용되지 않는 페이지를 포함하지 않도록 하십시오.
• 웹사이트 구조와 콘텐츠를 변경한 직후에 XML 사이트맵을 수동 또는 자동으로 업데이트합니다.
• 사이트 콘텐츠를 분류하여 «A» 등급 페이지만 사이트맵에 포함합니다.
• 다양한 페이지 유형에 대한 크롤링 우선 순위를 설정합니다.

기본적으로 그렇습니다.

주제에 대해 할 말이 있습니까? 아래 댓글 섹션에서 크롤링, 색인 생성 또는 사이트맵에 대한 의견을 자유롭게 공유하세요.