[pdf] PDF에서 텍스트를 추출하는 방법? [닫은]

PDF에서 텍스트와 이미지를 추출하기 위해 라이브러리 / API를 추천 할 수 있습니까? 문서의 미리 알려진 영역에 포함 된 텍스트를 얻을 수 있어야합니다. 따라서 API는 페이지의 각 요소에 대한 위치 정보를 제공해야합니다.

해당 데이터를 형식 xml또는 json형식 으로 출력하고 싶습니다 . 우리는 현재 꽤 좋은 것처럼 보이지만 다른 사람들의 경험과 제안을 듣고 싶은 PdfTextStream 을 보고 있습니다.

프로그래밍 방식으로 pdf에서 텍스트를 추출하는 대안 (상업적 또는 무료)이 있습니까?

답변

가져와야 할 데이터 테이블이 포함 된 400 페이지 pdf 파일이 제공되었습니다. 운 좋게도 이미지가 없습니다. Ghostscript 가 나를 위해 일했습니다.

gswin64c -sDEVICE=txtwrite -o output.txt input.pdf

출력 파일은 헤더 등으로 페이지로 분할되었지만 빈 줄 등을 제거하고 30,000 개의 레코드를 모두 빠는 앱을 쉽게 작성할 수있었습니다. -dSIMPLE그리고 -dCOMPLEX이 경우에 차이 않았다.

답변

나는 그것을 알고 오늘부터 다음 PDF 파일에서 텍스트 추출을위한 가장 좋은 방법이 있다 TET, 텍스트 추출 툴킷 . TET은 PDFlib.com 제품군의 일부입니다.

PDFlib.com은 Thomas Merz의 회사입니다. 그의 이름을 모르는 경우 : Thomas Merz는 “PostScript and PDF Bible”의 저자입니다.

TET의 첫 번째 화신은 도서관 입니다. 그것은 페이지의 모든 요소에 대한 위치 정보를 포함하여 Budda006이 원했던 모든 것을 할 수 있습니다. 아, 그리고 이미지를 추출 할 수도 있습니다. 조각으로 조각난 이미지를 재결합합니다.

pdflib.com은이 기술의 또 다른 화신 인 Acrobat 용 TET 플러그인을 제공 합니다. 그리고 세 번째 화신은 PDFlib TET iFilter 입니다. 사용자 데스크탑을위한 독립형 도구입니다. 이 두 가지 모두 비 상업용 목적으로 무료로 사용할 수 있습니다 (맥주 에서처럼).

그리고 정말 강력합니다. Adobe 자체 텍스트 추출보다 훨씬 좋습니다. 다른 도구 (Adobe 포함)가 쓰레기를 뱉어내는 텍스트를 추출했습니다.

방금 데스크톱 독립형 도구를 테스트했으며 웹 페이지에서 말하는 내용이 사실입니다. 매우 좋은 명령 줄이 있습니다. 이 도구가 처리 한 “문제가있는”PDF 테스트 파일 중 일부가 만족스럽게 처리되었습니다.

이제부터는 모든 정교하고 까다로운 PDF 텍스트 추출 요구 사항에 대한 권장 사항이 될 것입니다.

TET은 정말 대단합니다. 테이블을 감지합니다. 테이블 내부에서 여러 열에 걸쳐있는 셀을 식별합니다. 각 테이블 셀의 테이블 행과 내용을 개별적으로 식별합니다. 하이픈을 매우 잘 처리합니다. 하이픈을 제거하고 완전한 단어를 복원합니다. 비 ASCII 언어 (CJK, 아랍어 및 히브리어 포함)를 지원합니다. 합자를 만나면 원래 문자가 복원됩니다.

시도 해봐.

답변

Linux 및 Windows에서 모두 사용할 수있는 효율적인 명령 줄 도구 인 오픈 소스이며 무료로 제공됩니다. 간단히 pdftotext라고합니다. 이 도구는 xpdf 라이브러리의 일부입니다.

http://en.wikipedia.org/wiki/Pdftotext

답변

파이썬의 경우 PDFMiner 및 pyPDF2가 있습니다. 이에 대한 자세한 정보는 PDF를 텍스트로 변환하기위한 Python 모듈을 참조하십시오 .

답변

여기 내 제안이 있습니다. PDF에서 텍스트를 추출하려면 pdf 파일을 Google 문서로 가져온 다음 .html, .odf, .rtf, .txt 등과 같은보다 친숙한 형식으로 내보낼 수 있습니다.이 모든 것을 Drive API를 사용하여 . 무료이며 견고합니다. 보세요:

https://developers.google.com/drive/v2/reference/files/insert https://developers.google.com/drive/v2/reference/files/get

나머지 API이므로 모든 프로그래밍 언어와 호환됩니다. 내가 aboove에 게시 한 링크에는 Java, .NET, Python, PHP, Ruby 등의 많은 언어에 대한 실제 예제가 있습니다.

도움이 되길 바랍니다.

답변

PdfTextStream (당신이보고 있다고 말함 )은 이제 단일 스레드 응용 프로그램에서 무료 입니다. 제 생각에는 그 품질이 다른 라이브러리보다 훨씬 뛰어납니다 (예 : 펑키 임베디드 글꼴 등).

또는 오픈 소스 인 Apache PDFBox를 살펴보아야 합니다.

답변

Docotic.Pdf 라이브러리 는 PDF 파일 에서 텍스트를 일반 텍스트 또는 각 청크에 대한 좌표가있는 텍스트 청크 모음 으로 추출 하는 데 사용될 수 있습니다 .

Docotic.Pdf를 사용하여 PDF 에서 이미지 를 추출 할 수도 있습니다 .

면책 조항 : 저는 Bit Miracle에서 일합니다.