[java] 문자 인코딩 문제를 테스트하기위한 “Lorem ipsums”파일 세트가 있습니까?

레이아웃을 위해 유명한 “Lorem ipsum”텍스트가 어떻게 생겼는지 테스트합니다.

내가 찾고있는 것은 텍스트 파일을 읽을 때 문자 인코딩을 처리하는 일부 메소드를 테스트하기 위해 JUnit 테스트에서 사용할 수있는 여러 다른 인코딩으로 인코딩 된 텍스트를 포함하는 파일 세트입니다.

예:

갖는 ISO 8859-1인코딩 테스트 파일과 Windows-1252인코딩 테스트 파일을. Windows-1252는 지역 80 16 – 9F 16 의 차이를 트리거해야합니다 . 즉, ISO 8859-1과 구별하기 위해이 영역의 문자를 하나 이상 포함해야합니다.

아마도 가장 좋은 테스트 파일 세트는 각 인코딩에 대한 테스트 파일이 모든 문자를 한 번 포함하는 것입니다. 그러나 아마도 나는 sth를 알지 못할 수도 있습니다. 우리 모두는이 인코딩을 좋아합니다. 🙂

문자 인코딩 문제에 대한 테스트 파일 세트가 있습니까?



답변

ICU 테스트 스위트 파일을 사용해 보는 것은 어떻습니까? 테스트에 필요한 것인지는 모르겠지만 적어도 UTF 매핑 파일에서 /에서 꽤 완전한 것 같습니다. ICU 테스트 파일의 저장소에 링크


답변

분음 부호 에 대한 Wikipedia 기사 는 매우 포괄적이며 불행히도 이러한 문자를 수동으로 추출해야합니다. 또한 각 언어에 대한 니모닉이있을 수 있습니다. 예를 들어 폴란드어에서는 다음을 사용합니다.

Zażółć gęślą jaźń

9 개의 폴란드어 분음 부호가 하나의 정확한 문장에 모두 포함되어 있습니다. 또 다른 유용한 검색 힌트는 pangrams : 알파벳의 모든 문자를 적어도 한 번 사용하는 문장 :

  • 스페인어로 ” El veloz murciélago hindú comía feliz cardillo y kiwi. La cigüeña tocaba el saxofón detrás del palenque de paja. “(모두 27 자 및 분음 부호).

  • 러시아어로 ” Съешь же ещё этих мягких французских булок, да выпей чаю “(모두 33 개의 러시아어 키릴 문자).

팬 그램 목록 에는 완전한 요약이 포함되어 있습니다. 누구나 이것을 간단하게 포장 할 수 있습니다.

public interface NationalCharacters {
  String spanish();
  String russian();
  //...
}

도서관?


답변

완전한 텍스트 문서를 모르지만 모든 문자 집합에 대한 간단한 개요로 시작할 수 있다면 ftp.unicode.org 서버 에서 사용할 수있는 일부 파일이 있습니다.

예를 들어 WINDOWS-1252가 있습니다. 첫 번째 열은 16 진수 문자 값이고 두 번째 열은 유니 코드 값입니다.

ftp://ftp.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP1250.TXT


답변

글쎄, 나는 온라인 도구를 사용하여 Lorem Ipsum에서 텍스트 문자 세트를 만들었습니다. 나는 그것이 당신을 도울 수 있다고 믿습니다. 한 페이지에 모든 다른 문자 집합이있는 것은 없습니다.

http://generator.lorem-ipsum.info /


답변