레이아웃을 위해 유명한 “Lorem ipsum”텍스트가 어떻게 생겼는지 테스트합니다.
내가 찾고있는 것은 텍스트 파일을 읽을 때 문자 인코딩을 처리하는 일부 메소드를 테스트하기 위해 JUnit 테스트에서 사용할 수있는 여러 다른 인코딩으로 인코딩 된 텍스트를 포함하는 파일 세트입니다.
예:
갖는 ISO 8859-1
인코딩 테스트 파일과 Windows-1252
인코딩 테스트 파일을. Windows-1252는 지역 80 16 – 9F 16 의 차이를 트리거해야합니다 . 즉, ISO 8859-1과 구별하기 위해이 영역의 문자를 하나 이상 포함해야합니다.
아마도 가장 좋은 테스트 파일 세트는 각 인코딩에 대한 테스트 파일이 모든 문자를 한 번 포함하는 것입니다. 그러나 아마도 나는 sth를 알지 못할 수도 있습니다. 우리 모두는이 인코딩을 좋아합니다.
문자 인코딩 문제에 대한 테스트 파일 세트가 있습니까?
답변
ICU 테스트 스위트 파일을 사용해 보는 것은 어떻습니까? 테스트에 필요한 것인지는 모르겠지만 적어도 UTF 매핑 파일에서 /에서 꽤 완전한 것 같습니다. ICU 테스트 파일의 저장소에 링크
답변
분음 부호 에 대한 Wikipedia 기사 는 매우 포괄적이며 불행히도 이러한 문자를 수동으로 추출해야합니다. 또한 각 언어에 대한 니모닉이있을 수 있습니다. 예를 들어 폴란드어에서는 다음을 사용합니다.
Zażółć gęślą jaźń
9 개의 폴란드어 분음 부호가 하나의 정확한 문장에 모두 포함되어 있습니다. 또 다른 유용한 검색 힌트는 pangrams : 알파벳의 모든 문자를 적어도 한 번 사용하는 문장 :
스페인어로 ” El veloz murciélago hindú comía feliz cardillo y kiwi. La cigüeña tocaba el saxofón detrás del palenque de paja. “(모두 27 자 및 분음 부호).
러시아어로 ” Съешь же ещё этих мягких французских булок, да выпей чаю “(모두 33 개의 러시아어 키릴 문자).
팬 그램 목록 에는 완전한 요약이 포함되어 있습니다. 누구나 이것을 간단하게 포장 할 수 있습니다.
public interface NationalCharacters {
String spanish();
String russian();
//...
}
도서관?
답변
완전한 텍스트 문서를 모르지만 모든 문자 집합에 대한 간단한 개요로 시작할 수 있다면 ftp.unicode.org 서버 에서 사용할 수있는 일부 파일이 있습니다.
예를 들어 WINDOWS-1252가 있습니다. 첫 번째 열은 16 진수 문자 값이고 두 번째 열은 유니 코드 값입니다.
ftp://ftp.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP1250.TXT
답변
글쎄, 나는 온라인 도구를 사용하여 Lorem Ipsum에서 텍스트 문자 세트를 만들었습니다. 나는 그것이 당신을 도울 수 있다고 믿습니다. 한 페이지에 모든 다른 문자 집합이있는 것은 없습니다.