[robots.txt] 모든 것을 허용하도록 robots.txt를 구성하는 방법은 무엇입니까?

내 robots.txt구글 웹 마스터 도구 쇼 다음 값 :

User-agent: *
Allow: /

무슨 뜻인가요? 나는 그것에 대한 충분한 지식이 없으므로 당신의 도움을 구하십시오. 모든 로봇이 내 웹 사이트를 크롤링하도록 허용하고 싶습니다. 이것이 올바른 구성인가요?

답변

이 파일은 모든 크롤러의 액세스를 허용합니다.

User-agent: *
Allow: /

이것은 기본적으로 모든 사용자 에이전트 (*)를 사이트의 모든 부분 (/)에 허용합니다.

답변

모든 봇이 모든 것을 크롤링하도록 허용하려면 다음이 robots.txt에 지정하는 가장 좋은 방법입니다.

User-agent: *
Disallow:

Disallow필드에 비어있는 값이 있습니다. 이는 사양에 따른 것임을 의미 합니다 .

비어있는 값은 모든 URL을 검색 할 수 있음을 나타냅니다.

Allow: /대신 사용 하는 방식 Disallow:도 작동하지만 원래 robots.txt 사양의Allow 일부가 아니므 로 모든 봇에서 지원하지 않습니다 ( Googlebot과 같이 인기있는 많은 봇이 지원함 ). 즉, 인식되지 않는 필드는 무시해야하며을 인식하지 않는 봇의 경우이 경우에도 결과는 동일합니다. 크롤링이 금지 된 항목이 없으면 (사용하여 ) 모든 것이 크롤링 될 수 있습니다.
그러나 공식적으로 (원래 사양에 따라) 하나 이상의 필드가 필요 하기 때문에 잘못된 레코드 입니다.AllowDisallow
Disallow

레코드에 하나 이상의 Disallow 필드가 있어야합니다.

답변

나는 이것이 상당히 오래된 질문이며 꽤 좋은 답변이 있음을 이해합니다. 하지만 완전성을 위해 여기에 2 센트가 있습니다.

공식 문서 에 따르면 로봇이 사이트에 액세스 할 수 있도록 전체 액세스를 허용하는 네 가지 방법이 있습니다.

깨끗한:

@unor에서 언급 한 것처럼 허용하지 않는 세그먼트가있는 전역 일치자를 지정합니다. 그래서 당신 /robots.txt은 이렇게 생겼습니다.

User-agent: *
Disallow:

해킹 :

/robots.txt내용이없는 파일을 만듭니다 . 기본적으로 모든 유형의 Bots.

나는 상관하지 않는다 :

/robots.txt모두 만들지 마십시오 . 위의 두 결과와 똑같은 결과를 얻을 수 있습니다.

못난이:

로부터 메타 태그 로봇 문서 , 당신은 수 있도록 사이트의 모든 페이지에 다음 메타 태그를 사용하여 Bots이 페이지가 색인되지 않는 것으로 알고 있습니다.

<META NAME="ROBOTS" CONTENT="NOINDEX">

이것이 전체 사이트에 적용 되려면 모든 페이지에이 메타 태그를 추가해야합니다. 그리고이 태그는 HEAD페이지 의 태그 아래에 엄격하게 배치되어야 합니다. 이 메타 태그에 대한 자세한 내용은 여기 .

답변

즉, 모든 ( *) 사용자 에이전트 / 크롤러가 /사이트 의 루트 ( )에 액세스 할 수 있도록 허용 합니다. 당신은 괜찮아.