[java] Java 정규식에서 \ w 및 \ b에 해당하는 유니 코드?

많은 최신 정규식 구현에서는 \w문자 클래스 속기를 “모든 문자, 숫자 또는 연결 구두점”(일반적으로 밑줄)으로 해석합니다 . 그런 식으로, 같은 정규식 \w+일치하는 단어는 좋아 hello, élève, GOÄ_432또는 gefräßig.

불행히도 Java는 그렇지 않습니다. 자바에서 \w제한됩니다 [A-Za-z0-9_]. 이로 인해 위에서 언급 한 것과 같은 단어를 일치시키기가 어렵고 다른 문제가 있습니다.

또한 \b단어 구분자가 일치하지 않아야하는 위치에서 일치 하는 것으로 보입니다 .

.NET 유사, 유니 코드 인식 \w또는 \bJava에 해당하는 올바른 것은 무엇입니까 ? 유니 코드를 인식하기 위해 “재 작성”이 필요한 다른 단축키는 무엇입니까?

답변

소스 코드

아래에서 설명하는 재 작성 기능의 소스 코드 는 여기에서 확인할 수 있습니다. .

Java 7의 업데이트

PatternJDK7에 대한 Sun의 업데이트 된 클래스에는 UNICODE_CHARACTER_CLASS모든 것이 다시 올바르게 작동하도록 하는 놀라운 새 플래그가 있습니다. (?U)패턴 내부에 임베드 가능 하므로 String클래스의 래퍼 와 함께 사용할 수도 있습니다. 또한 다양한 다른 속성에 대한 정의를 수정했습니다. 지금은 유니 코드 모두에서 표준, 추적 RL1.2 및 RL1.2a을 에서 UTS # 18 : 유니 코드 정규 표현식 . 이것은 흥미롭고 극적인 개선이며, 개발 팀은이 중요한 노력에 대해 칭찬받을 것입니다.

자바의 정규식 유니 코드 문제

의미 – 자바 정규 표현식에 대한 문제는 펄 1.0 charclass 탈출이다 \w, \b, \s, \d과 보완이 -하지 자바에서 유니 코드 일까지 연장. 이들 중 단독으로 \b특정 확장 된 의미론을 즐기지 만, 이들은 \w, 유니 코드 식별자 또는 유니 코드 줄 바꿈 속성에 매핑되지 않습니다 .

또한 Java의 POSIX 속성은 다음과 같은 방법으로 액세스됩니다.

POSIX syntax    Java syntax

[[:Lower:]]     \p{Lower}
[[:Upper:]]     \p{Upper}
[[:ASCII:]]     \p{ASCII}
[[:Alpha:]]     \p{Alpha}
[[:Digit:]]     \p{Digit}
[[:Alnum:]]     \p{Alnum}
[[:Punct:]]     \p{Punct}
[[:Graph:]]     \p{Graph}
[[:Print:]]     \p{Print}
[[:Blank:]]     \p{Blank}
[[:Cntrl:]]     \p{Cntrl}
[[:XDigit:]]    \p{XDigit}
[[:Space:]]     \p{Space}

이 일을 좋아한다는 것을 의미하기 때문에, 진짜 엉망이다 Alpha, Lower그리고 Space할 수 없는 유니 코드에 자바지도에서 Alphabetic, Lowercase또는 Whitespace속성. 이것은 매우 성가신 일입니다. Java의 유니 코드 속성 지원은 엄격하게 천년 전입니다. 입니다. 즉, 지난 10 년 동안 나온 유니 코드 속성은 지원하지 않습니다.

공백에 대해 제대로 말할 수 없다는 것은 매우 성가신 일입니다. 다음 표를 고려하십시오. 각 코드 포인트에는 Java 용 J-results 열과 Perl 또는 기타 PCRE 기반 정규식 엔진 용 P-results 열이 있습니다.

             Regex    001A    0085    00A0    2029
                      J  P    J  P    J  P    J  P
                \s    1  1    0  1    0  1    0  1
               \pZ    0  0    0  0    1  1    1  1
            \p{Zs}    0  0    0  0    1  1    0  0
         \p{Space}    1  1    0  1    0  1    0  1
         \p{Blank}    0  0    0  0    0  1    0  0
    \p{Whitespace}    -  1    -  1    -  1    -  1
\p{javaWhitespace}    1  -    0  -    0  -    1  -
 \p{javaSpaceChar}    0  -    0  -    1  -    1  -

저거 봐?

거의 모든 Java 공백 결과는 Unicode에 따라 ̲w̲r̲o̲n̲g̲입니다. 그것은이다 정말 큰 문제. 자바는 단지 엉망이되어 기존 관행과 유니 코드에 따라 “잘못된”답변을 제공합니다. 게다가 Java는 실제 유니 코드 속성에 대한 액세스도 제공하지 않습니다! 사실, 자바는 지원하지 않는 모든 유니 코드 공백에 해당하는 속성을.

이러한 모든 문제에 대한 해결책 등

이 문제와 다른 많은 관련 문제를 처리하기 위해 어제이 14 개의 문자 클래스 이스케이프를 다시 작성하는 패턴 문자열을 다시 작성하는 Java 함수를 작성했습니다.

\w \W \s \S \v \V \h \H \d \D \b \B \X \R

예측 가능하고 일관된 방식으로 유니 코드와 일치하도록 실제로 작동하는 것으로 대체합니다. 단일 해킹 세션의 알파 프로토 타입 일 뿐이지 만 완전히 작동합니다.

짧은 이야기는 내 코드가 다음과 같이 14를 다시 작성한다는 것입니다.

\s => [\u0009-\u000D\u0020\u0085\u00A0\u1680\u180E\u2000-\u200A\u2028\u2029\u202F\u205F\u3000]
\S => [^\u0009-\u000D\u0020\u0085\u00A0\u1680\u180E\u2000-\u200A\u2028\u2029\u202F\u205F\u3000]

\v => [\u000A-\u000D\u0085\u2028\u2029]
\V => [^\u000A-\u000D\u0085\u2028\u2029]

\h => [\u0009\u0020\u00A0\u1680\u180E\u2000-\u200A\u202F\u205F\u3000]
\H => [^\u0009\u0020\u00A0\u1680\u180E\u2000\u2001-\u200A\u202F\u205F\u3000]

\w => [\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]]
\W => [^\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]]

\b => (?:(?<=[\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]])(?![\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]])|(?<![\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]])(?=[\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]]))
\B => (?:(?<=[\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]])(?=[\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]])|(?<![\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]])(?![\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]]))

\d => \p{Nd}
\D => \P{Nd}

\R => (?:(?>\u000D\u000A)|[\u000A\u000B\u000C\u000D\u0085\u2028\u2029])

\X => (?>\PM\pM*)

고려해야 할 몇 가지 사항 …

이는 유니 코드 가 확장 된 자소 클러스터 가 아닌 레거시 자소 클러스터 로 지칭되는\X 것을 정의 하기 위해 사용 합니다. 후자는 좀 더 복잡하기 때문입니다. Perl 자체는 이제 더 멋진 버전을 사용하지만 이전 버전은 여전히 가장 일반적인 상황에서 완벽하게 작동합니다. 편집 : 하단의 부록 참조.
수행 할 작업은 \d의도 에 따라 다르지만 기본값은 Uniode 정의입니다. 나는 사람들이 항상 원하는 \p{Nd}것은 아니지만 때때로 [0-9]또는 둘 중 하나를 볼 수 있습니다 \pN.
두 경계 정의는, \b과 \B, 특히 사용하기 위해 작성되는 \w정의를.
그 \w정의는 지나치게 넓습니다. 왜냐하면 원으로 표시된 글자뿐만 아니라 괄호 안의 글자도 잡기 때문입니다. 유니 코드 Other_Alphabetic속성은 JDK7까지는 사용할 수 없으므로 이것이 최선입니다.

경계 탐색

경계 래리 벽이 먼저 만들어 낸 이후로 문제가되었습니다 \b및 \B방법을 이해하기 위해 1987 년에 펄 1.0 다시 그들에 대한 중요한 이야기에 대한 구문을 \b하고 \B두 작품은 그들에 대해이 보급 신화를 풀다하는 것입니다 :

그들은되어 오직보고하지 위해 \w, 단어 문자 결코 단어가 아닌 문자.
그들은 특별히 끈의 가장자리를 찾지 않습니다.

\b경계 수단 :

    IF does follow word
        THEN doesn't precede word
    ELSIF doesn't follow word
        THEN does precede word

그리고 그것들은 모두 다음과 같이 완벽하게 간단하게 정의됩니다.

단어 다음 IS를(?<=\w) 입니다.
선행 단어 입니다(?=\w) .
단어가 따르지 않는 것입니다 (?<!\w).
하지 않습니다 앞에 단어 입니다 (?!\w).

따라서 IF-THEN는and ED-함께 AB정규 표현식에에서,는 or이며 X|Y, 및 때문에 and우선 높은 것보다 or간단하다, AB|CD. 따라서 모든 \b것은 경계를 다음으로 안전하게 대체 할 수 있음을 의미합니다.

    (?:(?<=\w)(?!\w)|(?<!\w)(?=\w))

에 \w적절한 방법으로 정의.

(당신은 것을 이상한 생각 A과 C구성 요소는 정반대 완벽한 세계에서, 당신은 쓸 수 있어야합니다. AB|D하지만 내가 유니 코드 속성에서 상호 배제 모순 추격하는 동안 – 내가 생각을 내가 알아서 한을 ,하지만 만일을 대비하여 경계에 이중 조건을 남겨 두었습니다. 또한 나중에 추가 아이디어를 얻으면 더 확장 가능합니다.)

를 들어 \B비 경계, 논리는 다음과 같습니다

    IF does follow word
        THEN does precede word
    ELSIF doesn't follow word
        THEN doesn't precede word

의 모든 인스턴스 \B를 다음으로 대체 할 수 있습니다.

    (?:(?<=\w)(?=\w)|(?<!\w)(?!\w))

이것은 정말 방법입니다 \b 이며 \B행동합니다. 그들과 동등한 패턴은

\b구성을 사용하는 ((IF)THEN|ELSE)것은(?(?<=\w)(?!\w)|(?=\w))
\B 사용하여 ((IF)THEN|ELSE)것은(?(?=\w)(?<=\w)|(?<!\w))

하지만 버전은 AB|CD Java와 같은 정규식 언어에 조건부 패턴이없는 경우에는 특히 괜찮습니다. ☹

나는 이미 실행 당 110,385,408 개의 일치를 확인하는 테스트 스위트와 함께 세 가지 동등한 정의를 모두 사용하여 경계의 동작을 확인했으며 다음과 같이 12 개의 다른 데이터 구성에서 실행했습니다.

     0 ..     7F    the ASCII range
    80 ..     FF    the non-ASCII Latin1 range
   100 ..   FFFF    the non-Latin1 BMP (Basic Multilingual Plane) range
 10000 .. 10FFFF    the non-BMP portion of Unicode (the "astral" planes)

그러나 사람들은 종종 다른 종류의 경계를 원합니다. 그들은 공백과 문자열 가장자리를 인식하는 무언가를 원합니다.

좌측 에지 로서(?:(?<=^)|(?<=\s))
우단 로서(?=$|\s)

Java로 Java 수정

다른 답변에 게시 한 코드 는 이것과 다른 몇 가지 편의를 제공합니다. 여기에는 자연어 단어, 대시, 하이픈 및 아포스트로피에 대한 정의와 그 이상이 포함됩니다.

또한 바보 같은 UTF-16 서로 게이트가 아닌 논리적 코드 포인트에서 유니 코드 문자를 지정할 수 있습니다. 그것이 얼마나 중요한지 지나치게 강조하기는 어렵습니다!그리고 그것은 단지 문자열 확장을위한 것입니다.

Java 정규식의 charclass가 마침내 유니 코드에서 작동하고 올바르게 작동하도록 하는 정규식 charclass 대체의 경우 여기에서 전체 소스를 가져 옵니다 . 물론 원하는대로 할 수 있습니다. 당신이 그것을 고치면 나는 그것을 듣고 싶지만 당신은 그럴 필요가 없습니다. 꽤 짧습니다. 주요 정규식 재 작성 기능의 핵심은 간단합니다.

switch (code_point) {

    case 'b':  newstr.append(boundary);
               break; /* switch */
    case 'B':  newstr.append(not_boundary);
               break; /* switch */

    case 'd':  newstr.append(digits_charclass);
               break; /* switch */
    case 'D':  newstr.append(not_digits_charclass);
               break; /* switch */

    case 'h':  newstr.append(horizontal_whitespace_charclass);
               break; /* switch */
    case 'H':  newstr.append(not_horizontal_whitespace_charclass);
               break; /* switch */

    case 'v':  newstr.append(vertical_whitespace_charclass);
               break; /* switch */
    case 'V':  newstr.append(not_vertical_whitespace_charclass);
               break; /* switch */

    case 'R':  newstr.append(linebreak);
               break; /* switch */

    case 's':  newstr.append(whitespace_charclass);
               break; /* switch */
    case 'S':  newstr.append(not_whitespace_charclass);
               break; /* switch */

    case 'w':  newstr.append(identifier_charclass);
               break; /* switch */
    case 'W':  newstr.append(not_identifier_charclass);
               break; /* switch */

    case 'X':  newstr.append(legacy_grapheme_cluster);
               break; /* switch */

    default:   newstr.append('\\');
               newstr.append(Character.toChars(code_point));
               break; /* switch */

}
saw_backslash = false;

어쨌든, 그 코드는 단지 알파 릴리스 일뿐입니다. 주말에 제가 해킹 한 것입니다. 그렇게되지 않을 것입니다.

베타의 경우 다음을 수행합니다.

코드 중복을 함께 접어
이스케이프 해제 문자열 이스케이프 대 정규식 이스케이프 증가에 대한보다 명확한 인터페이스를 제공합니다.
\d확장에 약간의 유연성을 제공 하고\b
돌아 서서 Pattern.compile 또는 String.matches 또는 기타 등등을 호출하는 편리한 메서드를 제공합니다.

프로덕션 릴리스의 경우 javadoc 및 JUnit 테스트 스위트가 있어야합니다. 내 gigatester를 포함시킬 수 있지만 JUnit 테스트로 작성되지 않았습니다.

추가

좋은 소식과 나쁜 소식이 있습니다.

좋은 소식은 제가 이제 확장 된 자소 클러스터 에 매우 근접 하여 개선 된 .\X

나쁜 소식은 ☺ 그 패턴이 다음과 같다는 것입니다.

(?:(?:\u000D\u000A)|(?:[\u0E40\u0E41\u0E42\u0E43\u0E44\u0EC0\u0EC1\u0EC2\u0EC3\u0EC4\uAAB5\uAAB6\uAAB9\uAABB\uAABC]*(?:[\u1100-\u115F\uA960-\uA97C]+|([\u1100-\u115F\uA960-\uA97C]*((?:[[\u1160-\u11A2\uD7B0-\uD7C6][\uAC00\uAC1C\uAC38]][\u1160-\u11A2\uD7B0-\uD7C6]*|[\uAC01\uAC02\uAC03\uAC04])[\u11A8-\u11F9\uD7CB-\uD7FB]*))|[\u11A8-\u11F9\uD7CB-\uD7FB]+|[^[\p{Zl}\p{Zp}\p{Cc}\p{Cf}&&[^\u000D\u000A\u200C\u200D]]\u000D\u000A])[[\p{Mn}\p{Me}\u200C\u200D\u0488\u0489\u20DD\u20DE\u20DF\u20E0\u20E2\u20E3\u20E4\uA670\uA671\uA672\uFF9E\uFF9F][\p{Mc}\u0E30\u0E32\u0E33\u0E45\u0EB0\u0EB2\u0EB3]]*)|(?s:.))

Java에서는 다음과 같이 작성합니다.

String extended_grapheme_cluster = "(?:(?:\\u000D\\u000A)|(?:[\\u0E40\\u0E41\\u0E42\\u0E43\\u0E44\\u0EC0\\u0EC1\\u0EC2\\u0EC3\\u0EC4\\uAAB5\\uAAB6\\uAAB9\\uAABB\\uAABC]*(?:[\\u1100-\\u115F\\uA960-\\uA97C]+|([\\u1100-\\u115F\\uA960-\\uA97C]*((?:[[\\u1160-\\u11A2\\uD7B0-\\uD7C6][\\uAC00\\uAC1C\\uAC38]][\\u1160-\\u11A2\\uD7B0-\\uD7C6]*|[\\uAC01\\uAC02\\uAC03\\uAC04])[\\u11A8-\\u11F9\\uD7CB-\\uD7FB]*))|[\\u11A8-\\u11F9\\uD7CB-\\uD7FB]+|[^[\\p{Zl}\\p{Zp}\\p{Cc}\\p{Cf}&&[^\\u000D\\u000A\\u200C\\u200D]]\\u000D\\u000A])[[\\p{Mn}\\p{Me}\\u200C\\u200D\\u0488\\u0489\\u20DD\\u20DE\\u20DF\\u20E0\\u20E2\\u20E3\\u20E4\\uA670\\uA671\\uA672\\uFF9E\\uFF9F][\\p{Mc}\\u0E30\\u0E32\\u0E33\\u0E45\\u0EB0\\u0EB2\\u0EB3]]*)|(?s:.))";

¡ Tschüß!

답변

\w작동하지 않는 것은 정말 유감입니다 . 제안 된 솔루션\p{Alpha} 이 저에게도 효과가 없습니다.

[\p{L}]모든 유니 코드 문자를 잡는 것 같습니다 . 따라서에 해당하는 유니 코드 \w는 [\p{L}\p{Digit}_].

답변

자바에서 \w와 \d유니 코드를 인식하지 않습니다; ASCII 문자 [A-Za-z0-9_]및 [0-9]. \p{Alpha}친구도 마찬가지입니다 (기반으로하는 POSIX “문자 클래스”는 로케일에 민감해야하지만 Java에서는 ASCII 문자 만 일치했습니다). 유니 코드 “단어 문자”를 일치 시키려면 철자를 입력해야합니다. 예 :[\pL\p{Mn}\p{Nd}\p{Pc}] 문자, 비 간격 수정 자 (악센트), 십진수 및 연결 구두점).

그러나 Java \b 는 유니 코드에 정통합니다. Character.isLetterOrDigit(ch)악센트 부호가있는 문자도 사용 하고 확인하지만 인식하는 유일한 “연결 구두점”문자는 밑줄입니다. 편집 : 샘플 코드를 시도하면 인쇄 ""되고 élève"있어야합니다 ( ideone.com에서 확인 ).