Crawling smarter, not harder | Search Off the Record



In this episode of SOTR, John Mueller, Lizzi Sassman, and Gary Illyes talk about misconceptions around crawl frequency and site quality, what’s challenging about crawling the web nowadays, and how search engines could crawl more efficiently.

Resources:
Episode transcript → https://goo.gle/sotr079-transcript
Gary’s post on LinkedIn → https://goo.gle/3YAT55q
Crawling episode with Dave Smart → https://goo.gle/3WShUsf
If-Modified-Since → https://goo.gle/3ywXvja
About the IETF → https://goo.gle/3SGVVlo
Robots Exclusion Protocol → https://goo.gle/4dgmBSg
Proposal for new kind of chunked transfer → https://goo.gle/3AgMF1c

Watch more Search Off the Record → https://goo.gle/sotr-yt
Subscribe to Google Search Channel → https://goo.gle/SearchCentral

Search Off the Record is a podcast series that takes you behind the scenes of Google Search with the Search Relations team.

#SOTRpodcast

Speaker: John Mueller, Lizzi Sassman, Gary Illyes
Products Mentioned: Search Console – General

source

15 thoughts on “Crawling smarter, not harder | Search Off the Record”

  1. 크롤링에 대한 두 번째 에피소드에서는 구글의 크롤링 방식과 그에 대한 오해를 다룹니다. 진행자들은 크롤링 빈도가 사이트 품질과 어떻게 연결되는지, 구글봇이 얼마나 자주 크롤링하는지에 대한 일반적인 오해를 설명합니다. 이들은 크롤링 최적화의 중요성과 서버 응답 시간, URL 파라미터 처리에 대한 논의도 진행합니다. 또한, 사이트 소유자들이 크롤링 통계를 이해하고 서버 성능을 개선하는 방법에 대해 조언합니다. 마지막으로, 크롤링과 관련된 다양한 문제와 해결책을 제시하며 마무리합니다.

    하이라이트:
    01:07 크롤링에 대한 오해와 진실에 대해 이야기합니다. 많은 사람들이 구글봇의 크롤링 빈도가 사이트 품질과 관련이 있다고 생각하지만, 이는 여러 요인에 의해 영향을 받을 수 있습니다.
    -크롤링과 관련된 신화에 대한 설명이 필요합니다. 많은 사람들이 구글봇의 행동을 통해 사이트의 품질을 추정하지만, 이는 잘못된 해석이 될 수 있습니다.
    -크롤링 빈도가 높다고 해서 사이트 품질이 항상 좋다는 뜻은 아닙니다. 크롤링 빈도는 사이트가 해킹당했거나 새로운 URL이 생겼을 때도 증가할 수 있습니다.
    -구글봇이 크롤링을 덜 한다면 이는 낮은 품질의 콘텐츠를 나타낼 수 있습니다. 따라서 크롤링 빈도는 사이트의 품질을 판단하는 유일한 기준이 아닙니다.
    06:08 구글의 크롤링 빈도는 사이트의 콘텐츠 변화에 따라 달라지며, 자주 업데이트되지 않는 경우 크롤링 빈도가 낮아질 수 있다. 이는 웹사이트 소유자들이 크롤링 통계를 이해하고 최적화하는 것이 중요하다는 점을 강조한다.
    -웹사이트가 자주 업데이트되지 않는 경우, 구글이 크롤링할 필요성이 줄어들 수 있다. 하지만 때때로 사이트는 짧은 시간 안에 업데이트될 수 있으므로 구글은 여전히 확인해야 한다.
    -웹사이트 소유자들은 크롤링 통계를 기반으로 사이트의 상태를 판단하지만, 구글이 얼마나 많은 페이지를 크롤링하는지를 이해하는 것이 중요하다. 이는 전체 페이지 수에 따라 크롤링 빈도가 영향을 받을 수 있음을 나타낸다.
    -크롤링 요청을 늘리려는 웹사이트 소유자들이 있지만, 구글은 서버 과부하를 방지하기 위해 크롤링 양을 조절해야 한다. 따라서 요청의 질과 서버의 처리 능력을 고려해야 한다.
    12:12 HTTP 프로토콜에서 'If-Modified-Since' 요청 헤더는 서버와 클라이언트 간의 효율적인 데이터 전송을 가능하게 합니다. 이를 통해 서버는 변경 사항이 없는 경우 304 상태 코드를 반환하여 대역폭과 자원을 절약할 수 있습니다.
    -'If-Modified-Since' 요청 헤더의 올바른 사용법은 서버에서의 응답을 최적화하는 데 중요한 역할을 합니다. 그러나 많은 서버가 이 요청을 무시하고 200 상태 코드를 반환하는 경향이 있어 문제를 일으킬 수 있습니다.
    -304 상태 코드는 클라이언트가 요청한 리소스가 변경되지 않았음을 나타냅니다. 이 경우 서버는 응답 본문을 포함하지 않고 헤더만 반환하여 데이터 전송량을 줄이는 데 도움을 줍니다.
    -서버 측에서 변경 사항을 확인하는 과정이 간소화되면, 전체 페이지를 다시 컴파일할 필요 없이 효율적으로 리소스를 관리할 수 있습니다. 이는 클라이언트와 서버 모두에게 이점을 제공합니다.
    18:16 웹 페이지의 리소스 사용을 최적화하기 위해 크롤링 과정에서 변경된 부분만 전송하는 방법이 논의되고 있습니다. 이는 서버와 클라이언트 간의 데이터 전송을 줄여 효율성을 높이는 데 도움을 줄 수 있습니다.
    -HTTP 버전 1.1부터 도입된 청크 전송 인코딩은 서버가 클라이언트에 필요한 데이터의 일부만 전송할 수 있는 방법입니다. 이는 더 복잡한 과정이지만, 데이터 전송의 유연성을 증가시킬 수 있습니다.
    -서버와 클라이언트 간의 상호작용을 단순화하기 위해, 웹 페이지의 특정 부분만 업데이트하는 기술이 필요하다는 의견이 제기되었습니다. 이를 통해 더 빠르고 효율적인 데이터 전송이 가능할 것입니다.
    -해시태그와 같은 URL 파라미터는 클라이언트 측에서만 작동하기 때문에, 검색 엔진이 해당 정보를 가져오기 위해서는 페이지를 렌더링해야 합니다. 이는 크롤링의 효율성을 저하시킬 수 있는 요소입니다.
    24:20 웹 크롤링에서 URL 파라미터가 문제로 작용할 수 있습니다. 무한한 버전의 URL이 생성되면 크롤링의 효율성이 떨어질 수 있으며, 이는 검색 엔진이 동일한 콘텐츠를 중복해서 탐색하게 만듭니다.
    -URL에 추가된 파라미터는 서버가 무시하지만, 이로 인해 발생하는 다양한 버전으로 인해 크롤링 중 혼란이 초래될 수 있습니다. 크롤러가 어떤 파라미터가 유용한지를 알기 위해서는 많은 샘플을 크롤링해야 합니다.
    -검색 엔진이 URL 파라미터를 효율적으로 처리하기 위해서는 외부 사이트 소유자가 어떻게 그룹화되는지 알려주는 방법이 필요합니다. 이를 통해 검색 엔진이 불필요한 링크를 크롤링하지 않도록 할 수 있습니다.
    -사이트 맵을 통해 사이트 구조를 명확히 하는 것은 크롤링을 최적화하는 데 도움이 될 수 있습니다. 그러나 사이트 맵이 잘못 제출되는 경우가 많아, 이를 바르게 사용하는 방법에 대한 교육이 필요합니다.
    30:24 웹사이트 크롤링의 중요성을 이해하는 것이 필요하다. 크롤링 과정에서 발생할 수 있는 문제를 인지하고, 이를 해결하기 위해 서버 상태를 점검하는 것이 중요하다.
    -많은 사람들이 크롤링 예산에 대한 오해를 가지고 있다. 크롤링 예산을 관리하는 것이 중요하며, 불필요한 URL 크롤링을 피하는 것이 사이트의 효율성을 높이는 데 도움이 된다.
    -서버 통계 데이터를 확인하는 것이 유용하다. 특히 평균 응답 시간을 확인하면 크롤링 효율성을 개선할 수 있는 방안을 찾을 수 있다.
    -호스팅 회사는 고객이 문제를 겪을 때 더 많은 지원을 제공해야 한다. 서버 차단 문제나 DNS 문제를 해결하기 위한 협력이 필요하다.
    36:29 서버와 클라이언트 간의 연결이 어떻게 이루어지는지 이해하는 것은 문제 해결에 매우 중요하다. 이러한 이해를 통해 사용자는 자신이 직면한 문제를 보다 효과적으로 디버깅할 수 있다.
    -연결 문제를 해결하기 위해서는 사람들이 서버 관리와 네트워킹에 대한 더 많은 정보를 얻는 것이 필요하다. 이를 통해 클라이언트와 서버 간의 연결이 실패할 때 문제의 원인을 보다 쉽게 식별할 수 있다.
    -검색 콘솔의 기능을 개선하여 사용자가 문제를 인식하고 해결할 수 있도록 지원해야 한다. 예를 들어, 사용자에게 문제가 발생했을 때 더 많은 알림을 제공하는 것이 중요하다.
    -소셜 미디어를 활용하여 사용자와 호스팅 회사에 직접 문제를 알리는 방법도 고려할 수 있다. 이를 통해 문제 해결에 대한 공동 작업을 촉진하고, 더 많은 사람들이 자신의 문제를 해결할 수 있도록 도울 수 있다.

  2. Regarding parameters, the former URL parameters tool in GSC seemed to handle this situation. When that was taken away, we started seeing TONS of parameterized URLs showing up on SERPs and in our analytics from organic search (including URLs with advertising attribution parameters, which is especially fun). Now it's a problem????? When it went away Google told us they were able to figure out which parameters they could ignore, but….evidently not. Maybe just bring that tool back and let us take care of it ourselves? It was working.

  3. 00:13 Discussion on crawling strategy and updates
    02:53 More crawling does not necessarily mean a better site.
    07:54 Website owners may request for increased crawling over time, but it's not always feasible.
    10:19 Optimizing crawling efficiency and server impact
    15:32 Sending smaller 304 response for efficiency
    17:38 Crawling smarter can save resources for the internet.
    22:05 Crawling optimizations discussion
    24:22 URL parameters can result in infinite versions of a page
    28:42 Challenges in optimizing crawling methods
    30:53 Importance of awareness and resources in crawling efficiently
    34:53 Hosting companies should assist customers better in troubleshooting crawling issues.
    37:16 Improving client-server communication and messaging strategies.

  4. 00:13 Discussion on crawling updates and strategies.
    02:53 Google's crawling frequency does not necessarily indicate site quality
    07:54 Site owners may want increased crawling over time.
    10:19 Optimizing crawling process by understanding server limitations and content quality
    15:32 Sending back only headers in HTTP response makes it more efficient
    17:38 Implementing compartmentalized changes can save resources.
    22:05 Optimizations for crawling include URL parameter handling
    24:22 URL parameters impact crawling efficiency
    28:42 Challenges of smart crawling
    30:53 Crawling efficiently depends on site size and resource awareness
    34:53 Hosting companies should assist customers in troubleshooting website crawling issues
    37:16 Client-side connection problem solutions

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top