블로그 광고수익 관련/티스토리 애드센스

구글 서치콘솔 색인 생성 범위 오류 "색인이 생성되었으나 robots.txt에 의해 차단됨" 문제가 있는 걸까?

[로일남] 2020. 3. 29. 02:32
반응형

 구글 서치콘솔에 접속하여 색인 생성 범위에 접속을 했을 때 "색인이 생성되었으나 robots.txt에 의해 차단됨"이라는 메시지를 확인할 수 있었다. 뭔가 오류 같기는 한데, 어떻게 해결을 해야할 지 감이 오지 않았다. 일단 결론부터 말을 하자면, 대개는 문제가 없는 경우라는 것이다. 

구글 서치콘솔 색인 생성 범위 오류

 우선 이 말이 무슨 말인지부터 이해를 해야할 것 같다. 

1. 색인이 생성되었다. 

색인이란 목록을 의미하며, 데이터를 기록할 경우 그 데이터의 이름, 크기 등의 속성과 그 기록 장소 등을 표로 표시하는 것을 말한다. 쉽게 이해를 하자면, 책 뒤에 키워드들의 목록이 있고, 해당 키워드가 속한 페이지를 표시하여 해당 내용을 읽기 위해서는 몇 페이지를 펴도록 안내하게끔 하는 목록이라고 이해하면 될 것이다. 

robots.txt에 의해 차단되었다.

 일단 robots.txt는 로봇 배제 표준(robots exclusion standard) 혹은 로봇(robots)이라고 알려져있는 프로토콜이다.

 검색엔진에는 웹 페이지를 크롤링 하는 봇이 있는데, 구글의 경우에는 구글봇이 있다. 구글 웹마스터도구의 가이드 기준 상 해당 웹사이트에 있는 많은 콘텐츠들을 공개적으로 검색결과로 사용할 수 있는지, 페이지의 오류는 없는지 등의 분류작업을 한다. 이 크롤링을 통해 위에 설명한 구글의 색인에 저장을 하여 목록으로 만드는 것이다. 미리 목록화를 해놓지 않으면, 방대한 웹상에서 존재하는 자료들 중 사용자가 검색하기를 희망하는 답을 빠르게 제공하기가 어려운 것이다.

 여기서 robots.txt의 역할은 검색엔진의 봇이 크롤링을 할 때의 그 기준을 제시해주는 역할을 한다. 수집을 해도 좋은 페이지인지, 수집을 할 수 없는 페이지인지를 명령하는 역할을 한다고 직관적으로 생각하면 될 것 같다.

 

구글 서치콘솔 색인 생성 범위 오류

 위의 영향을 받은 페이지는 내 블로그/관리자/참여/포스팅 즉 "새 글쓰기" 페이지와, 관리자 페이지 두개의 페이지다. 즉 로그인이 없다면 함부로 크롤링할 수 없는 보안페이지였기 때문에 해당 문구가 뜬 것으로 보인다. 구글의 검색결과를 보여줄 색인을 만들기 위해 수집을 하려고 돌아다니는 구글봇이 티슽토리의 회원 로그인정보라는 보안에 중요한 고유권한을 침범할 수 있기 때문에 robots.txt라는 명령으로 차단을 한 것이다. 

 그래서 구글 서치콘솔에서 문제되는 사이트라고 제시하는 것 중 로그인이 필요한 사이트, 주로는 사이트 주소 뒤에 /admin이나 /manage 따위의 단어가 붙어있는 경우라면 크게 신경을 쓸 필요가 없는 것으로 보인다. 끝.


PS. 전공자가 아니라 IT기술에 대한 이해도가 부족할 수 있으니, 지적사항은 댓글로 부탁드립니다.

반응형