Pattern.compile()
방법 의 중요성은 무엇입니까 ? 객체
를 가져 오기 전에 정규식 문자열을 컴파일해야하는 이유는 무엇 Matcher
입니까?
예 :
String regex = "((\\S+)\\s*some\\s*";
Pattern pattern = Pattern.compile(regex); // why do I need to compile
Matcher matcher = pattern.matcher(text);
답변
이 compile()
메서드는 항상 어떤 지점에서 호출됩니다. 이것이 Pattern 객체를 생성하는 유일한 방법입니다. 그래서 질문은 정말로, 왜 그것을 명시 적으로 불러야 합니까? 한 가지 이유는 Matcher 개체에 대한 참조가 필요하므로 group(int)
캡처 그룹의 내용을 검색하는 것과 같은 메서드를 사용할 수 있기 때문 입니다. Matcher 개체를 유지 matcher()
하는 유일한 방법 은 Pattern 개체의 메서드 를 사용하는 것이며 Pattern 개체를 유지 하는 유일한 방법은 compile()
메서드 를 사용하는 것입니다. 그런 다음 find()
과 달리 matches()
String 또는 Pattern 클래스에서 중복되지 않는 메서드가 있습니다.
다른 이유는 동일한 Pattern 객체를 반복해서 생성하지 않는 것입니다. String에서 정규식 기반 메서드 (또는 matches()
Pattern 의 정적 메서드) 중 하나를 사용할 때마다 새 패턴과 새 Matcher가 생성됩니다. 따라서이 코드 스 니펫 :
for (String s : myStringList) {
if ( s.matches("\\d+") ) {
doSomething();
}
}
… 다음과 정확히 동일합니다.
for (String s : myStringList) {
if ( Pattern.compile("\\d+").matcher(s).matches() ) {
doSomething();
}
}
분명히 그것은 많은 불필요한 작업을하고 있습니다. 실제로 실제 일치를 수행하는 것보다 정규식을 컴파일하고 Pattern 객체를 인스턴스화하는 데 더 오래 걸릴 수 있습니다. 따라서 일반적으로 루프에서 해당 단계를 당기는 것이 좋습니다. 거의 비싸지는 않지만 Matcher를 미리 만들 수도 있습니다.
Pattern p = Pattern.compile("\\d+");
Matcher m = p.matcher("");
for (String s : myStringList) {
if ( m.reset(s).matches() ) {
doSomething();
}
}
.NET 정규식에 익숙하다면 Java의 compile()
메서드가 .NET의 RegexOptions.Compiled
수정 자 와 관련 이 있는지 궁금 할 것입니다 . 내 대답은 아니오 야. Java의 Pattern.compile()
메서드는 .NET의 Regex 생성자와 동일합니다. Compiled
옵션 을 지정하는 경우 :
Regex r = new Regex(@"\d+", RegexOptions.Compiled);
… 정규식을 CIL 바이트 코드로 직접 컴파일하여 훨씬 빠르게 수행 할 수 있지만 선행 처리 및 메모리 사용에 상당한 비용이 소요됩니다. 정규식을위한 스테로이드라고 생각하면됩니다. Java에는 이에 상응하는 것이 없습니다. 에서 만든 패턴과을 String#matches(String)
사용하여 명시 적으로 만든 패턴 사이에는 차이가 없습니다 Pattern#compile(String)
.
(편집 : 원래 모든 .NET Regex 개체가 캐시되어 있다고 말했는데 이는 올바르지 않습니다. .NET 2.0 이후로 자동 캐싱 Regex.Matches()
은 Regex 생성자를 직접 호출 할 때가 아니라와 같은 정적 메서드에서만 발생합니다 . ref )
답변
컴파일 은 정규 표현식을 파싱 하고 메모리 내 표현을 만듭니다 . 컴파일하는 오버 헤드는 일치에 비해 중요합니다. 패턴을 반복적으로 사용하는 경우 컴파일 된 패턴을 캐시하는 성능이 향상됩니다.
답변
컴파일 할 때 Pattern
Java는 String
s 에서 일치 항목을 더 빨리 찾기 위해 몇 가지 계산을 수행합니다 . (정규식의 메모리 내 표현 작성)
Pattern
여러 번 재사용하려는 경우 Pattern
매번 새로 만드는 것보다 성능이 크게 향상되는 것을 볼 수 있습니다 .
패턴을 한 번만 사용하는 경우 컴파일 단계가 추가 코드 줄처럼 보이지만 실제로는 일반적인 경우에 매우 유용 할 수 있습니다.
답변
성능 및 메모리 사용량의 문제이며, 많이 사용해야하는 경우 컴파일 된 패턴을 컴파일하고 유지합니다. 정규식의 일반적인 사용의 유효성을 검사 사용자이다 입력 (형식) , 또한 사용자에 대한 출력 데이터 형식을 컴파일 된 패턴을 저장, 이러한 클래스에서, 그들은 일반적으로 많이 불리는으로 매우 논리적 인 것 같다.
아래는 실제로 많이 호출되는 샘플 유효성 검사기입니다. 🙂
public class AmountValidator {
//Accept 123 - 123,456 - 123,345.34
private static final String AMOUNT_REGEX="\\d{1,3}(,\\d{3})*(\\.\\d{1,4})?|\\.\\d{1,4}";
//Compile and save the pattern
private static final Pattern AMOUNT_PATTERN = Pattern.compile(AMOUNT_REGEX);
public boolean validate(String amount){
if (!AMOUNT_PATTERN.matcher(amount).matches()) {
return false;
}
return true;
}
}
@Alan Moore가 언급했듯이 코드에 재사용 가능한 정규식이있는 경우 (예 : 루프 전) 재사용을 위해 패턴을 컴파일하고 저장해야합니다.
답변
Pattern.compile()
정규식을 여러 번 재사용 할 수 있습니다 (스레드 안전). 성능상의 이점은 상당히 클 수 있습니다.
빠른 벤치 마크를 수행했습니다.
@Test
public void recompile() {
var before = Instant.now();
for (int i = 0; i < 1_000_000; i++) {
Pattern.compile("ab").matcher("abcde").matches();
}
System.out.println("recompile " + Duration.between(before, Instant.now()));
}
@Test
public void compileOnce() {
var pattern = Pattern.compile("ab");
var before = Instant.now();
for (int i = 0; i < 1_000_000; i++) {
pattern.matcher("abcde").matches();
}
System.out.println("compile once " + Duration.between(before, Instant.now()));
}
compileOnce는 3 배에서 4 배까지 더 빠릅니다 . 나는 그것이 정규식 자체에 크게 의존한다고 생각하지만 자주 사용되는 정규식의 경우static Pattern pattern = Pattern.compile(...)
답변
정규식을 미리 컴파일하면 속도가 빨라집니다. Matcher를 재사용하면 약간의 속도가 향상됩니다. 메서드가 자주 호출되면 루프 내에서 호출된다고하면 전체 성능이 확실히 올라갑니다.
답변
‘Pattern.compile’과 유사하게 ‘RECompiler.compile'[com.sun.org.apache.regexp.internal]이 있습니다. 여기서 :
1. 패턴 [az]에 대한 컴파일 된 코드에는 ‘az’가 있습니다
. 패턴 [0-9]에는 ’09’가 있습니다.
3. 패턴 [abc]에 대한 컴파일 된 코드에는 ‘aabbcc’가 있습니다.
따라서 컴파일 된 코드는 여러 사례를 일반화하는 좋은 방법입니다. 따라서 다른 코드 처리 상황 1,2 및 3 대신. 문제는 컴파일 된 코드에서 현재 및 다음 요소의 ascii와 비교하는 것으로 줄어 듭니다. 따라서
a. a와 z 사이에 ascii가있는 것은 a와 z 사이
입니다. b. ‘a와 a 사이에 ASCII가있는 것은 분명히’a ‘입니다.