현재 비누넷 (www.byus.net)에 테터툴즈를 설치해서 이 블로그를 운영하고 있다.
문제는,
구글 로봇이 가끔 사이트맵을 못 가져 가고 있는 것이다.
그래서인지 이 블로그의 좌측에 보이는 Google Custom Search Engine으로 이 블로그의 최신 글들을 검색해 보면 시간이 지났음에도 (10일 이상) 제대로 검색이 되지 않고, 오히려 trackback을 보낸 JoinC TeamBlog에서는 검색이 잘 된다.
구글 웹 마스터 도구 로 점검을 해보면 다음과 같이 사이트맵에 접근을 못 하거나 (time-out이나 사이트맵 (sitemap.xml)이 양식에 맞지 않다고 에러를 토해 내고 있다.

예전에도 위와 유사한 문제가 있었는데 시간이 지나니 사이트맵을 읽어는 가는데 일부 url은 timeout 등이 걸려서 접근할 수 없다고 오류 메시지가 부분적으로 나왔다.
근데 지금은 아예 못 가져가고 있다. (마지막으로 크롤링을 성공한 것이 7.18일 이다 -_-;;)
※ 사이트 맵은 Star.님의 "테터툴즈 사이트맵 생성기"에서 제공하는 php 파일을 이용하고 있다.
아무튼, 이에 대해 호스팅을 받고 있는 비누넷에 문의 해본 결과,
예상되는 원인은
크롤링 과정 등에서 발생하는 순간 과접속으로 인해 서버 부하가 발생했고 서버는 이 것을 공격으로 인식해서 해당 아이피 (구글 로봇 등)를 차단해버릴 수 있다.
라는 것이다.
실제 몇 가지 크롤링 도구로 직접 이 블로그에 대해서 크롤링을 수행해보면 몇 천개의 페이지를 긁어 가는 과정에서 엄청난 부하가 생기는 것이 당연한 것 같기도 하다.
이에 대해 해결책은 (비누넷에서 제공하는)
구글 측에 서비스 조정 요청 등을 해보라는 것이 답변이었다.
내가 생각하는 해결책은
첫 번째는, robots.txt에서 포스트를 제외한 나머지 url (owner, tag 등)은 로봇이 검색하지 않게 차단 시키는 것
두 번째는, -_-;; 이런 문제가 생기지 않을 만한 곳으로 호스팅을 옮기는 것 (아니면 티스토리 (요즘 말은 많지만) 등으로 옮기는 것)
이다.
일단은, robots.txt에서 불필요한 url 등은 배제 시켜서 다시 사이트 맵을 등록해볼 예정이다.
아래는,
비누넷에 올린 질문과 비누넷의 답변이다.
http://www.byus.net/jsb/read.php?table=webqna&no=64994&page=1&o[sc]=n&o[ss]=%BF%A9%B1%E2%B4%EB&o[st]=m&o[at]=s&o[sct]=s&o[stt]=s
==============================================
문제는,
구글 로봇이 가끔 사이트맵을 못 가져 가고 있는 것이다.
그래서인지 이 블로그의 좌측에 보이는 Google Custom Search Engine으로 이 블로그의 최신 글들을 검색해 보면 시간이 지났음에도 (10일 이상) 제대로 검색이 되지 않고, 오히려 trackback을 보낸 JoinC TeamBlog에서는 검색이 잘 된다.
구글 웹 마스터 도구 로 점검을 해보면 다음과 같이 사이트맵에 접근을 못 하거나 (time-out이나 사이트맵 (sitemap.xml)이 양식에 맞지 않다고 에러를 토해 내고 있다.

예전에도 위와 유사한 문제가 있었는데 시간이 지나니 사이트맵을 읽어는 가는데 일부 url은 timeout 등이 걸려서 접근할 수 없다고 오류 메시지가 부분적으로 나왔다.
근데 지금은 아예 못 가져가고 있다. (마지막으로 크롤링을 성공한 것이 7.18일 이다 -_-;;)
※ 사이트 맵은 Star.님의 "테터툴즈 사이트맵 생성기"에서 제공하는 php 파일을 이용하고 있다.
아무튼, 이에 대해 호스팅을 받고 있는 비누넷에 문의 해본 결과,
예상되는 원인은
크롤링 과정 등에서 발생하는 순간 과접속으로 인해 서버 부하가 발생했고 서버는 이 것을 공격으로 인식해서 해당 아이피 (구글 로봇 등)를 차단해버릴 수 있다.
라는 것이다.
실제 몇 가지 크롤링 도구로 직접 이 블로그에 대해서 크롤링을 수행해보면 몇 천개의 페이지를 긁어 가는 과정에서 엄청난 부하가 생기는 것이 당연한 것 같기도 하다.
이에 대해 해결책은 (비누넷에서 제공하는)
구글 측에 서비스 조정 요청 등을 해보라는 것이 답변이었다.
내가 생각하는 해결책은
첫 번째는, robots.txt에서 포스트를 제외한 나머지 url (owner, tag 등)은 로봇이 검색하지 않게 차단 시키는 것
두 번째는, -_-;; 이런 문제가 생기지 않을 만한 곳으로 호스팅을 옮기는 것 (아니면 티스토리 (요즘 말은 많지만) 등으로 옮기는 것)
이다.
일단은, robots.txt에서 불필요한 url 등은 배제 시켜서 다시 사이트 맵을 등록해볼 예정이다.
아래는,
비누넷에 올린 질문과 비누넷의 답변이다.
http://www.byus.net/jsb/read.php?table=webqna&no=64994&page=1&o[sc]=n&o[ss]=%BF%A9%B1%E2%B4%EB&o[st]=m&o[at]=s&o[sct]=s&o[stt]=s
==============================================
| ||||
서버의 자원을 독식하는 부분은, 상품 변경으로 해결이 되지는 않으며, 순간 과접속이 발생하는 부분에 대한 조치가 필요합니다. 구글쪽에 서비스 조정 요청 등을 해보셔야 할 것입니다. 감사합니다. 여기대 wrote.. : 빠른 답변 감사합니다. ^^ : 크롤링 도구로 집접 크롤링을 해봐도 부하가 걸릴만 한 것 같더군요. : : 흠.. 아래 문제에 대한 해결책은 없는지요? : : 아주 큰 사이트의 경우는 문제가 더 심각할 것 같은데... : : 좀 더 고가의 서비스를 사용하면 해결될 수 있는지요? : : 좋은 하루 되십시오. : : 풀비누 wrote.. : : 회원님의 계정에 순간 과접속으로 인한 서버 부하가 수시로 발생을 합니다. : : : : 관련 접속장애를 일으키는 아이피에 대해서 공격으로 확인하여 자동 차단이 되 고 : : 있으며, 관련하여 구글쪽 아이피가 차단되었을 수 있습니다. : : : : 크롤링의 서비스가 자율이라 하더라도, 해당으로 인해 서버 자원 독식에 따른 : : 서비스에 문제가 있다면, 제한이 될 사항입니다. : : : : 접속유형 : : 1 alones.byus.net : : 116.44.115.93 /../moniwiki/wiki.php/mistakable_code_open_crazy : : 2 alones.byus.net : : 116.44.115.93 /../moniwiki/wiki.php/mistakable_code_open_crazy?action=edi : : 1 alones.byus.net 116.44.115.93 /tt/category/Programming/Mistakable% 20Code : : 1 alones.byus.net 116.44.115.93 /tt/tag : : 1 alones.byus.net 116.44.115.93 /tt/tag/2006%20모토쇼 : : 1 alones.byus.net 116.44.115.93 /tt/tag/Google%20Adsense : : 1 alones.byus.net 116.44.115.93 /tt/tag/MFC%20Controls : : 1 alones.byus.net 116.44.115.93 /tt/tag/Mistakable%20Codes : : 1 alones.byus.net 116.44.115.93 /tt/tag/SE : : 1 alones.byus.net 116.44.115.93 /tt/tag/SQA : : 1 alones.byus.net 116.44.115.93 /tt/tag/STL : : 1 alones.byus.net 116.44.115.93 /tt/tag/Tattertools : : 1 alones.byus.net 116.44.115.93 /tt/tag/Windows%20Programming : : 1 alones.byus.net 116.44.115.93 /tt/tag/YouTube : : 1 alones.byus.net 116.44.115.93 /tt/tag/c++ : : 1 alones.byus.net 116.44.115.93 /tt/tag/c/c++ : : 1 alones.byus.net 116.44.115.93 /tt/tag/dll : : 1 alones.byus.net 116.44.115.93 /tt/tag/file%20i/o : : 1 alones.byus.net 116.44.115.93 /tt/tag/mfc : : 1 alones.byus.net 116.44.115.93 /tt/tag/moni%20wiki : : 1 alones.byus.net 116.44.115.93 /tt/tag/ms : : 1 alones.byus.net 116.44.115.93 /tt/tag/msdn : : 1 alones.byus.net 116.44.115.93 /tt/tag/open : : 1 alones.byus.net 116.44.115.93 /tt/tag/psp : : 1 alones.byus.net 116.44.115.93 /tt/tag/read : : 1 alones.byus.net 116.44.115.93 /tt/tag/rss : : 1 alones.byus.net 116.44.115.93 /tt/tag/wiki : : 1 alones.byus.net 116.44.115.93 /tt/tag/구글%20애드센스 : : 1 alones.byus.net 116.44.115.93 /tt/tag/디아2 : : 1 alones.byus.net 116.44.115.93 /tt/tag/디아블로 : : 1 alones.byus.net 116.44.115.93 /tt/tag/디아블로2 : : 1 alones.byus.net 116.44.115.93 /tt/tag/모니%20위키 : : 1 alones.byus.net 116.44.115.93 /tt/tag/성남%20도촌 : : 1 alones.byus.net 116.44.115.93 /tt/tag/아파트 : : 1 alones.byus.net 116.44.115.93 /tt/tag/애플 : : 1 alones.byus.net 83.170.96.157 /tt/tag/Apple%20iPhone%20dissection% 20photos : : 1 alones.byus.net 83.170.96.157 /tt/tag/Apple%20iPhone%20image : : : : 차단된 116.44.115.93 아이피는 해제를 하였으며, 동문제로 재차단될 수 있습니 다 : : 감사합니다. : : : : : : 여기대 wrote.. : : : 구글 웹 마스터 도구에서 사이트맵 오류가 계속 발생합니다. : : : : : : 아래는 제가 byus에서 호스팅 받아 운영하는 블로그와 위키 입니다. : : : : : : 블로그 : : : http://alones.byus.net/tt : : : http://alones.byus.net/pebble : : : 위키 : : : http://alones.byus.net/moniwiki/wiki.php : : : : : : : : : 문제는 사이트맵을 만들어둬도 (robots.txt는 정상입니다) 구글 로봇 등이 크 롤링 : : : 을 할 때 많은 페이지에서 : : : timeout 등의 에러가 발생해서 크롤링을 제대로 못하고 있는 것 같습니다. : : : : : : (여러 툴 (웹형 포함)으로 사이트맵을 만들고 클로링을 해봐도 동일합니다) : : : : : : 예전엔 일시적으로 사이트맵에 (구글 웹 마스터 도구로 확인) 오류가 있다고 나왔 : : : 는데, 시간이 지나니 (약 10일) 해결되긴 했지만 몇 개의 url에서 timeout이 발생 : : : 했습니다. : : : : : : 그리고 지금도 사이트맵 오류가 약 10일 정도 지속되고 있는 것 같습니다. : : : : : : : : : : : : 그래서 구글 검색이나 제 개인 블로거의 Google Custom Search Engine에서 제 글 : : : 을 찾을 수도 없습니다. : : : : : : 확인 부탁드립니다. [ 관련글 ] |
Save This Page

댓글을 달아 주세요
으 나 벌써 돈 냈는데...
음.. 그래도 나쁘지는 않으니. 그리고 1년에 만원이면. 흐.
저도 byus인데 지금 같은 문제로 고생중입니다.
이게 사이트맵 문제로 끝나질 않고...에드센스 갱신도 이루어지지 않아서 영문광고로 나오고 있더군요 -_-;
다른 포탈사이트 크롤링도 차단되지 않으리라는 보장도 없고..이거 참..
저는 예전에 한 일주일 이상 중국어 광고가 나온적이 있습니다. -_-;;
크롤링을 제대로 못하니 구글에서 블로그의 컨텐츠를 모르니 중국 광고 (또는 공익 광고)를 내 보낸것 같기도 합니다.
시간이 좀 지나니 제대로 광고가 나오긴 하던데 에휴..
카페24로 옮기고 백업을 열심히 하는 방향으로 가볼려고 합니다.
http://alones.byus.net/tt/739
처럼 카페 24는 크롤링 관련 문제는 없을 것 같아서요....
739 포스트이 댓글 처럼 아주 문제가 없는 것은 아니나....