wget을 사용하여 전체 웹 사이트를 다운로드하고 싶지만 wget이 이미지, 비디오 등을 다운로드하고 싶지는 않습니다.
나는 시도했다
wget -bqre robots=off -A.html example.com –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6″
그러나 그렇게하면 .php 파일을 다운로드하지 않고 정적 .html 파일을 다운로드합니다.
wget 에서이 문제에 대한 해결책이 있습니까?
답변
wget에게 .html
접미사 가있는 파일 만 허용하도록 명시 적으로 지시했습니다 .
PHP 페이지에 있다고 가정하면 .php
다음을 수행 할 수 있습니다.
wget -bqre robots=off -A.html,.php example.com –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6″
이것은 PHP의 소스가 아닌 렌더링 된 HTML을 다운로드한다는 점에 유의하십시오. 페이지가 충분히 동적이면 예상 한 렌더링 결과를 얻지 못할 수 있습니다.
그러나 httrack 과 같은 다른 도구 가 더 나은 작업을 수행 할 수 있다고 제안합니다 . 필요한 작업에 따라 다릅니다.
답변
-A는 목록을 취하므로 -A.html, .php는 계산서에 맞아야합니다. 또한 -R을 찾아야합니다 (거부 목록도 필요함).
답변
예, 있습니다. 매우 간단합니다. 이 SO 대답을보십시오 : /superuser/709702/how-to-crawl-using-wget-to-download-only-html-files-ignore-images-css-js
tl / dr; 사용 --follow-tags=a
만을 따를 a
태그를.