[java] 프로그래밍 방식으로 Java로 웹 페이지를 다운로드하는 방법

웹 페이지의 html을 가져 와서에 저장하여 String일부 처리를 할 수 있기를 바랍니다. 또한 다양한 유형의 압축을 어떻게 처리 할 수 ​​있습니까?

Java를 사용하여 어떻게 할 수 있습니까?



답변

다음은 Java의 URL 클래스를 사용하여 테스트 된 코드 입니다. 하지만 예외를 처리하거나 호출 스택에 전달하는 것보다 더 나은 작업을 수행하는 것이 좋습니다.

public static void main(String[] args) {
    URL url;
    InputStream is = null;
    BufferedReader br;
    String line;

    try {
        url = new URL("http://stackoverflow.com/");
        is = url.openStream();  // throws an IOException
        br = new BufferedReader(new InputStreamReader(is));

        while ((line = br.readLine()) != null) {
            System.out.println(line);
        }
    } catch (MalformedURLException mue) {
         mue.printStackTrace();
    } catch (IOException ioe) {
         ioe.printStackTrace();
    } finally {
        try {
            if (is != null) is.close();
        } catch (IOException ioe) {
            // nothing to see here
        }
    }
}


답변

Jsoup 과 같은 괜찮은 HTML 파서를 사용합니다 . 그러면 다음과 같이 쉽습니다.

String html = Jsoup.connect("http://stackoverflow.com").get().html();

GZIP 및 청크 응답 및 문자 인코딩을 완전히 투명하게 처리합니다. HTML 순회 및 jQuery와 같은 CSS 선택기에 의한 조작 과 같은 더 많은 이점도 제공합니다 . 당신은 같은 그것을 잡아가 Document아닌 같은 String.

Document document = Jsoup.connect("http://google.com").get();

당신은 정말 그것을 처리하기 위해 HTML에서 기본 String 메서드 또는 심지어 정규식을 실행하고 싶지 않습니다 .

또한보십시오:


답변

Bill의 대답은 매우 좋지만 압축 또는 사용자 에이전트와 같은 요청으로 몇 가지 작업을 수행 할 수 있습니다. 다음 코드는 요청에 대한 다양한 유형의 압축 방법을 보여줍니다.

URL url = new URL(urlStr);
HttpURLConnection conn = (HttpURLConnection) url.openConnection(); // Cast shouldn't fail
HttpURLConnection.setFollowRedirects(true);
// allow both GZip and Deflate (ZLib) encodings
conn.setRequestProperty("Accept-Encoding", "gzip, deflate");
String encoding = conn.getContentEncoding();
InputStream inStr = null;

// create the appropriate stream wrapper based on
// the encoding type
if (encoding != null && encoding.equalsIgnoreCase("gzip")) {
    inStr = new GZIPInputStream(conn.getInputStream());
} else if (encoding != null && encoding.equalsIgnoreCase("deflate")) {
    inStr = new InflaterInputStream(conn.getInputStream(),
      new Inflater(true));
} else {
    inStr = conn.getInputStream();
}

사용자 에이전트도 설정하려면 다음 코드를 추가하십시오.

conn.setRequestProperty ( "User-agent", "my agent name");


답변

글쎄, URLURLConnection 과 같은 내장 라이브러리를 사용할 수는 있지만 그다지 제어 할 수는 없습니다.

개인적으로 Apache HTTPClient 라이브러리를 사용합니다.
편집 : HTTPClient는 Apache에 의해 수명종료 되도록 설정되었습니다 . 대체는 다음과 같습니다. HTTP 구성 요소


답변

위에서 언급 한 모든 접근 방식은 브라우저에서 보이는 웹 페이지 텍스트를 다운로드하지 않습니다. 요즘에는 HTML 페이지의 스크립트를 통해 많은 데이터가 브라우저에로드됩니다. 위에서 언급 한 기술은 스크립트를 지원하지 않으며 html 텍스트 만 다운로드합니다. HTMLUNIT는 자바 스크립트를 지원합니다. 따라서 브라우저에서 보이는 웹 페이지 텍스트를 다운로드하려는 경우 HTMLUNIT 를 사용해야합니다 .


답변

보안 웹 페이지 (https 프로토콜)에서 코드를 추출해야 할 가능성이 높습니다. 다음 예에서는 html 파일이 c : \ temp \ filename.html에 저장됩니다. Enjoy!

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.FileWriter;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.URL;

import javax.net.ssl.HttpsURLConnection;

/**
 * <b>Get the Html source from the secure url </b>
 */
public class HttpsClientUtil {
    public static void main(String[] args) throws Exception {
        String httpsURL = "https://stackoverflow.com";
        String FILENAME = "c:\\temp\\filename.html";
        BufferedWriter bw = new BufferedWriter(new FileWriter(FILENAME));
        URL myurl = new URL(httpsURL);
        HttpsURLConnection con = (HttpsURLConnection) myurl.openConnection();
        con.setRequestProperty ( "User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:63.0) Gecko/20100101 Firefox/63.0" );
        InputStream ins = con.getInputStream();
        InputStreamReader isr = new InputStreamReader(ins, "Windows-1252");
        BufferedReader in = new BufferedReader(isr);
        String inputLine;

        // Write each line into the file
        while ((inputLine = in.readLine()) != null) {
            System.out.println(inputLine);
            bw.write(inputLine);
        }
        in.close();
        bw.close();
    }
}


답변

Unix / Linux 상자에서는 ‘wget’만 실행할 수 있지만 크로스 플랫폼 클라이언트를 작성하는 경우 실제로는 옵션이 아닙니다. 물론 이것은 다운로드하는 시점과 디스크에 도달하는 시점 사이에 다운로드 한 데이터로 많은 작업을 수행하고 싶지 않다고 가정합니다.