[java] 자바 정규식 캡처 그룹

이 코드 블록을 이해하려고합니다. 첫 번째로, 표현에서 무엇을 찾고 있습니까?

내 이해는 그것이 어떤 문자 (0 이상 *) 뒤에 0에서 9 사이의 숫자 (한 번 이상 +) 뒤에 어떤 문자 (0 이상 *)라는 것입니다.

이것이 실행되면 결과는 다음과 같습니다.

Found value: This order was placed for QT3000! OK?
Found value: This order was placed for QT300
Found value: 0

누군가 나와 함께이 일을 할 수 있습니까?

캡처 그룹을 사용하면 어떤 이점이 있습니까?

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexTut3 {

    public static void main(String args[]) {
        String line = "This order was placed for QT3000! OK?"; 
        String pattern = "(.*)(\\d+)(.*)";

        // Create a Pattern object
        Pattern r = Pattern.compile(pattern);

        // Now create matcher object.
        Matcher m = r.matcher(line);

        if (m.find()) {
            System.out.println("Found value: " + m.group(0));
            System.out.println("Found value: " + m.group(1));
            System.out.println("Found value: " + m.group(2));
        } else {
            System.out.println("NO MATCH");
        }
    }

}



답변

문제는 수량 화기 유형과 관련이 있습니다. 당신은 사용하고있는 욕심 (인덱스 첫 번째 그룹에 정량을 1 – 인덱스 0 전체 대표 Pattern는 이후이 (수대로 많이 일치하는 것입니다있는 수단) 어떤 문자, 그것은 일치하는 것이다 많은 문자로 있기 때문에 다음 그룹의 조건을 충족시키기 위해).

간단히 말해서, 첫 번째 그룹 .*은 다음 그룹 \\d+이 무언가 (이 경우 마지막 숫자)와 일치 할 수 있는 한 무엇이든 일치합니다.

세 번째 그룹에 따르면 마지막 자릿수 이후의 항목과 일치합니다.

첫 번째 그룹에서 꺼리는 수량 화기로 변경하면 예상 한 결과, 즉 3000 부분을 ​​얻을 수 있습니다.

첫 번째 그룹의 물음표 에 유의하십시오 .

String line = "This order was placed for QT3000! OK?";
Pattern pattern = Pattern.compile("(.*?)(\\d+)(.*)");
Matcher matcher = pattern.matcher(line);
while (matcher.find()) {
    System.out.println("group 1: " + matcher.group(1));
    System.out.println("group 2: " + matcher.group(2));
    System.out.println("group 3: " + matcher.group(3));
}

산출:

group 1: This order was placed for QT
group 2: 3000
group 3: ! OK?

Java에 대한 자세한 정보는 Pattern 여기를 참조하십시오 .

마지막으로, 캡처 그룹은 둥근 괄호로 구분되며 Pattern입력과 일치 하면 역 참조를 사용하는 매우 유용한 방법을 제공합니다 .

Java 6에서 그룹은 순서 대로만 참조 할 수 있습니다 (중첩 된 그룹 및 순서의 미묘함에주의하십시오).

Java 7에서는 이름이 지정된 그룹을 사용할 수 있으므로 훨씬 쉽습니다.


답변

이것은 괜찮습니다.

  1. 첫 번째 그룹 ( m.group(0))은 항상 정규 표현식이 적용되는 전체 영역을 캡처 합니다 . 이 경우 전체 문자열입니다.
  2. 정규식은 기본적으로 욕심이다. 즉, 첫 번째 그룹은 정규식을 위반하지 않고 가능한 한 많이 캡처합니다. (.*)(\\d+)(정규식의 첫 번째 부분)는 커버 ...QT300INT에게 첫 번째 그룹과 0두 번째에 있습니다.
  3. 변경 : 빠르게 첫 번째 그룹이 아닌 욕심함으로써이 문제를 해결할 수 있습니다 (.*)(.*?).

욕심 많은 대 게으른에 대한 자세한 내용은 이 사이트를 확인 하십시오.


답변

문서에서 :

Capturing groups</a> are indexed from left
 * to right, starting at one.  Group zero denotes the entire pattern, so
 * the expression m.group(0) is equivalent to m.group().

따라서 캡처 그룹 0은 전체 라인을 보냅니다.


답변

이해가 정확합니다. 그러나 다음을 살펴보면 :

  • (.*) 줄 전체를 삼킬 것입니다.
  • (\\d+)풍자화 되도록 문자 를 돌려줘야합니다 (그래서 0캡처되지 않은 이유 입니다 3000).
  • 마지막 (.*)은 나머지를 캡처합니다.

그러나 저자의 원래 의도가 무엇인지 확실하지 않습니다.


답변