본문 바로가기

크롤링

(2)
구글 검색엔진에 내 사이트 안 보이도록 하기 제가 받은 사이트 템플릿 파일인데, 여기 보면 검색엔진에 데모 사이트가 뜨는 것을 막기 위해서 meta 태그가 들어가있습니다. 이게 뭘까요? 사이트를 만드는 도중엔 검색엔진에 검색이 되지 않도록 하는 것입니다. 사이트가 만드는 중이라 엉망인데, 검색이 돼서 유저들이 들어오면 안되니까요. 사이트가 만들어진다음엔 저 라인을 빼서 검색이 되도록 해야겠지요. name 속성값을 바꿔서 구글의 어떤 서비스에 내 사이트를 표시하지 말게 할지 지정할 수 있습니다. name 속성으로 "robots"를 써주면, 구글의 모든 크롤러에게 표시하지 말라고 전하는 것입니다. 구글은 서비스 별로 여러개의 다른 크롤러를 쓰고 있습니다. 크롤러 리스트가 궁금하면 아래를 들어가보시고요 https://support.google.com/w..
robots.txt 란? - 검색엔진 크롤링 막기 서버에서 사이트 페이지 index.html 이 있는 곳에 robots.txt 파일을 보신 분들이 계실겁니다. 구글 검색 엔진은 크롤러를 이용해서 세상에 있는 사이트들의 정보를 수집합니다. 이 때, robots.txt 파일을 이용하면 크롤러가 내 사이트 정보를 가져가지 않도록 할 수 있습니다. 그렇다고 내 사이트가 구글에서 검색이 안 되는 것은 아니고, 크롤링만 막는 것이지요. 지금 이 글을 올리고 있는 제 티스토리 볼로그에도 robots.txt 파일이 있습니다. 검색엔진 크롤러들이 robots.txt 파일에 따를지 아닐지는 검색엔진 크롤러마다 다르다고 합니다. 구글의 검색엔진 크롤러들은 robots.txt 파일을 따르지만요. references Google Help Center https://suppor..