[ubuntu] wget을 사용하여 웹 사이트에서 HTML이 아닌 모든 파일을 다운로드하는 방법은 무엇입니까?

wget웹 사이트에서 모든 파일 을 사용 하고 얻는 방법 ?

HTML, PHP, ASP 등과 같은 웹 페이지 파일을 제외한 모든 파일이 필요합니다.

특정 파일 확장자를 필터링하려면

wget -A pdf,jpg -m -p -E -k -K -np http://site/path/

또는 긴 옵션 이름을 선호하는 경우 :

wget --accept pdf,jpg --mirror --page-requisites --adjust-extension --convert-links --backup-converted --no-parent http://site/path/

사이트가 미러링되지만 확장자가 jpg없거나 pdf확장자가 없는 파일 은 자동으로 제거됩니다.

이것은 나를 위해 전체 웹 사이트를 다운로드했습니다 .

wget --no-clobber --convert-links --random-wait -r -p -E -e robots=off -U mozilla http://site/path/

wget -m -p -E -k -K -np http://site/path/

맨 페이지에서 해당 옵션의 기능을 알려줍니다.

wget색인 페이지에서 파일에 대한 링크가없는 경우 링크 만 따르고 파일 wget의 존재에 대해 알지 못하므로 다운로드하지 않습니다. 즉. 모든 파일이 웹 페이지 또는 디렉토리 색인에 링크되어 있으면 도움이됩니다.

Omeka의 테마 페이지 에서 링크 된 zip 파일을 다운로드하려고했습니다 . 이것은 나를 위해 일했다 :

wget -A zip -r -l 1 -nd http://omeka.org/add-ons/themes/

모든 답변 -k, -K, -E옵션은 아마 정말, 로컬 구조를 만들기 위해 HTML 페이지를 다시 작성 이름 변경과 같은 것과 같은 질문을 이해하지 않은 등의 .php파일을 등등. 관련이 없습니다.

말 그대로 등을 제외한 모든 파일을 가져 오려면 .html:

wget -R html,htm,php,asp,jsp,js,py,css -r -l 1 -nd http://yoursite.com

시도해 볼 수 있습니다 :

wget --user-agent=Mozilla --content-disposition --mirror --convert-links -E -K -p http://example.com/

또한 다음을 추가 할 수 있습니다.

-A pdf,ps,djvu,tex,doc,docx,xls,xlsx,gz,ppt,mp4,avi,zip,rar

특정 확장명을 수락하거나 특정 확장명 만 거부하려면

-R html,htm,asp,php

또는 특정 영역을 제외하려면 :

-X "search*,forum*"

로봇 (예 : 검색 엔진)에서 파일이 무시되는 경우 다음을 추가해야합니다. -e robots=off

이 시도. 그것은 항상 나를 위해 작동

wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL

wget -m -A * -pk -e robots=off www.mysite.com/

이것은 모든 유형의 파일을 로컬로 다운로드하고 html 파일에서 가리켜 로봇 파일을 무시합니다.