내 robots.txt
구글 웹 마스터 도구 쇼 다음 값 :
User-agent: *
Allow: /
무슨 뜻인가요? 나는 그것에 대한 충분한 지식이 없으므로 당신의 도움을 구하십시오. 모든 로봇이 내 웹 사이트를 크롤링하도록 허용하고 싶습니다. 이것이 올바른 구성인가요?
답변
이 파일은 모든 크롤러의 액세스를 허용합니다.
User-agent: *
Allow: /
이것은 기본적으로 모든 사용자 에이전트 (*)를 사이트의 모든 부분 (/)에 허용합니다.
답변
모든 봇이 모든 것을 크롤링하도록 허용하려면 다음이 robots.txt에 지정하는 가장 좋은 방법입니다.
User-agent: *
Disallow:
Disallow
필드에 비어있는 값이 있습니다. 이는 사양에 따른 것임을 의미 합니다 .
비어있는 값은 모든 URL을 검색 할 수 있음을 나타냅니다.
Allow: /
대신 사용 하는 방식 Disallow:
도 작동하지만 원래 robots.txt 사양의Allow
일부가 아니므 로 모든 봇에서 지원하지 않습니다 ( Googlebot과 같이 인기있는 많은 봇이 지원함 ). 즉, 인식되지 않는 필드는 무시해야하며을 인식하지 않는 봇의 경우이 경우에도 결과는 동일합니다. 크롤링이 금지 된 항목이 없으면 (사용하여 ) 모든 것이 크롤링 될 수 있습니다.
그러나 공식적으로 (원래 사양에 따라) 하나 이상의 필드가 필요 하기 때문에 잘못된 레코드 입니다.Allow
Disallow
Disallow
레코드에 하나 이상의 Disallow 필드가 있어야합니다.
답변
나는 이것이 상당히 오래된 질문이며 꽤 좋은 답변이 있음을 이해합니다. 하지만 완전성을 위해 여기에 2 센트가 있습니다.
공식 문서 에 따르면 로봇이 사이트에 액세스 할 수 있도록 전체 액세스를 허용하는 네 가지 방법이 있습니다.
깨끗한:
@unor에서 언급 한 것처럼 허용하지 않는 세그먼트가있는 전역 일치자를 지정합니다. 그래서 당신 /robots.txt
은 이렇게 생겼습니다.
User-agent: *
Disallow:
해킹 :
/robots.txt
내용이없는 파일을 만듭니다 . 기본적으로 모든 유형의 Bots
.
나는 상관하지 않는다 :
/robots.txt
모두 만들지 마십시오 . 위의 두 결과와 똑같은 결과를 얻을 수 있습니다.
못난이:
로부터 메타 태그 로봇 문서 , 당신은 수 있도록 사이트의 모든 페이지에 다음 메타 태그를 사용하여 Bots
이 페이지가 색인되지 않는 것으로 알고 있습니다.
<META NAME="ROBOTS" CONTENT="NOINDEX">
이것이 전체 사이트에 적용 되려면 모든 페이지에이 메타 태그를 추가해야합니다. 그리고이 태그는 HEAD
페이지 의 태그 아래에 엄격하게 배치되어야 합니다. 이 메타 태그에 대한 자세한 내용은 여기 .
답변
즉, 모든 ( *
) 사용자 에이전트 / 크롤러가 /
사이트 의 루트 ( )에 액세스 할 수 있도록 허용 합니다. 당신은 괜찮아.