[python] 리소스 u’tokenizers / punkt / english.pickle ‘을 찾을 수 없습니다.

Question 1

내 코드 :

import nltk.data
tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle')

에러 메시지:

[ec2-user@ip-172-31-31-31 sentiment]$ python mapper_local_v1.0.py
Traceback (most recent call last):
File "mapper_local_v1.0.py", line 16, in <module>

    tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle')

File "/usr/lib/python2.6/site-packages/nltk/data.py", line 774, in load

    opened_resource = _open(resource_url)

File "/usr/lib/python2.6/site-packages/nltk/data.py", line 888, in _open

    return find(path_, path + ['']).open()

File "/usr/lib/python2.6/site-packages/nltk/data.py", line 618, in find

    raise LookupError(resource_not_found)

LookupError:

Resource u'tokenizers/punkt/english.pickle' not found.  Please
use the NLTK Downloader to obtain the resource:

    >>>nltk.download()

Searched in:
- '/home/ec2-user/nltk_data'
- '/usr/share/nltk_data'
- '/usr/local/share/nltk_data'
- '/usr/lib/nltk_data'
- '/usr/local/lib/nltk_data'
- u''

이 프로그램을 Unix 컴퓨터에서 실행하려고합니다.

오류 메시지에 따라 유닉스 컴퓨터에서 파이썬 셸에 로그인 한 다음 아래 명령을 사용했습니다.

import nltk
nltk.download()

그런 다음 d-down 로더 및 l-list 옵션을 사용하여 사용 가능한 모든 것을 다운로드했지만 여전히 문제가 지속됩니다.

나는 인터넷에서 해결책을 찾기 위해 최선을 다했지만 위의 단계에서 언급 한 것과 동일한 해결책을 얻었습니다.

Question 2

alvas의 답변에 추가하려면 punkt말뭉치 만 다운로드 할 수 있습니다 .

nltk.download('punkt')

다운로드 all는 나에게 과잉처럼 들립니다. 그것이 당신이 원하는 것이 아니라면.

Question 3

punkt모델 만 다운로드하려는 경우 :

import nltk
nltk.download('punkt')

필요한 데이터 / 모델이 확실하지 않은 경우 NLTK에서 인기있는 데이터 세트, 모델 및 태거를 설치할 수 있습니다 .

import nltk
nltk.download('popular')

위의 명령을 사용하면 데이터 세트를 다운로드하기 위해 GUI를 사용할 필요가 없습니다.

Question 4

나는 해결책을 얻었다.

import nltk
nltk.download()

NLTK 다운로더가 시작되면

d) 다운로드 l) 목록 u) 업데이트 c) 구성 h) 도움말 q) 종료

다운로더> d

어떤 패키지를 다운로드합니까 (l = list; x = cancel)? 식별자> punkt

Question 5

쉘에서 다음을 실행할 수 있습니다.

sudo python -m nltk.downloader punkt

인기있는 NLTK 말뭉치 / 모델을 설치하려면 :

sudo python -m nltk.downloader popular

모든 NLTK 말뭉치 / 모델 을 설치하려면 :

sudo python -m nltk.downloader all

다운로드 한 리소스를 나열하려면 :

python -c 'import os; import nltk; print os.listdir(nltk.data.find("corpora"))'
python -c 'import os; import nltk; print os.listdir(nltk.data.find("tokenizers"))'

Question 6

import nltk
nltk.download('punkt')

Python 프롬프트를 열고 위의 명령문을 실행하십시오.

sent_tokenize 함수의 인스턴스를 사용 PunktSentenceTokenizer를 으로부터
nltk.tokenize.punkt 모듈. 이 인스턴스는 이미 교육을 받았으며 많은 유럽 언어에서 잘 작동합니다. 따라서 문장의 끝과 새 문장의 시작을 나타내는 구두점과 문자를 알고 있습니다.

Question 7

최근 저에게도 같은 일이 일어났습니다. “punkt”패키지를 다운로드하기 만하면 작동합니다.

“사용 가능한 모든 것을 다운로드”한 후 “list”(l)를 실행하면 모든 것이 다음 줄과 같이 표시됩니까? :

[*] punkt............... Punkt Tokenizer Models

별표와 함께이 줄이 보이면 그것은 당신이 가지고 있음을 의미하며 nltk는 그것을로드 할 수 있어야합니다.

Question 8

입력하여 Python 콘솔로 이동

$ 파이썬

터미널에서. 그런 다음 Python 셸에 다음 두 명령을 입력하여 각 패키지를 설치합니다.

>> nltk.download ( ‘punkt’) >> nltk.download ( ‘averaged_perceptron_tagger’)

이것은 나를 위해 문제를 해결했습니다.