이 프로그램을 사용하여 Python 3.2에서 여기 에 링크 된 MNIST 데이터 세트를로드하려고합니다 .
import pickle
import gzip
import numpy
with gzip.open('mnist.pkl.gz', 'rb') as f:
l = list(pickle.load(f))
print(l)
불행히도 오류가 발생합니다.
Traceback (most recent call last):
File "mnist.py", line 7, in <module>
train_set, valid_set, test_set = pickle.load(f)
UnicodeDecodeError: 'ascii' codec can't decode byte 0x90 in position 614: ordinal not in range(128)
그런 다음 Python 2.7에서 절인 파일을 디코딩하고 다시 인코딩하려고했습니다. 그래서 파이썬 2.7 에서이 프로그램을 실행했습니다.
import pickle
import gzip
import numpy
with gzip.open('mnist.pkl.gz', 'rb') as f:
train_set, valid_set, test_set = pickle.load(f)
# Printing out the three objects reveals that they are
# all pairs containing numpy arrays.
with gzip.open('mnistx.pkl.gz', 'wb') as g:
pickle.dump(
(train_set, valid_set, test_set),
g,
protocol=2) # I also tried protocol 0.
오류없이 실행되었으므로 Python 3.2 에서이 프로그램을 다시 실행했습니다.
import pickle
import gzip
import numpy
# note the filename change
with gzip.open('mnistx.pkl.gz', 'rb') as f:
l = list(pickle.load(f))
print(l)
그러나 이전과 같은 오류가 발생했습니다. 이것을 작동 시키려면 어떻게해야합니까?
답변
이것은 일종의 비 호환성처럼 보입니다. ASCII로 간주되는 “binstring”오브젝트를로드하려고 시도하는 중이지만이 경우에는 이진 데이터입니다. 이것이 Python 3 unpickler의 버그이거나 numpy에 의한 pickler의 “오용”이라면 모르겠습니다.
여기에 해결 방법이 있지만이 시점에서 데이터가 얼마나 의미가 있는지 모르겠습니다.
import pickle
import gzip
import numpy
with open('mnist.pkl', 'rb') as f:
u = pickle._Unpickler(f)
u.encoding = 'latin1'
p = u.load()
print(p)
Python 2에서 피클 링을 해제 한 다음 다시 피클 링하면 동일한 문제가 다시 생성되므로 다른 형식으로 저장해야합니다.
답변
당신은 python3에서이 오류가 발생하는 경우, 그것은 파이썬 2와 파이썬 3 사이의 호환성 문제 일 수 있습니다, 나를 위해 솔루션이었다 load
로 latin1
인코딩 :
pickle.load(file, encoding='latin1')
답변
파이썬 2와 파이썬 3 사이의 비 호환성 문제인 것 같습니다. MNIST 데이터 셋을로드하려고했습니다.
train_set, valid_set, test_set = pickle.load(file, encoding='iso-8859-1')
파이썬 3.5.2에서 작동했습니다.
답변
유니 코드로의 이동으로 인해 2.x와 3.x 사이에서 피클에 일부 호환성 문제가있는 것 같습니다 . 파일이 python 2.x로 절인 것처럼 보이며 3.x로 디코딩하면 문제가 될 수 있습니다.
python 2.x로 선택을 풀고 사용중인 두 버전에서 더 잘 재생되는 형식으로 저장하는 것이 좋습니다.
답변
나는이 발췌 문장을 우연히 발견했다. 이것이 호환성 문제를 분명히하는 데 도움이되기를 바랍니다.
import sys
with gzip.open('mnist.pkl.gz', 'rb') as f:
if sys.version_info.major > 2:
train_set, valid_set, test_set = pickle.load(f, encoding='latin1')
else:
train_set, valid_set, test_set = pickle.load(f)
답변
시험:
l = list(pickle.load(f, encoding='bytes')) #if you are loading image data or
l = list(pickle.load(f, encoding='latin1')) #if you are loading text data
pickle.load
방법 의 문서에서 :
선택적 키워드 인수는 fix_imports, encoding 및 errors이며, Python 2에서 생성 된 피클 스트림에 대한 호환성 지원을 제어하는 데 사용됩니다.
fix_imports가 True 인 경우 pickle은 이전 Python 2 이름을 Python 3에서 사용 된 새 이름으로 매핑하려고 시도합니다.
인코딩과 오류는 피클에게 파이썬 2에 의해 선택된 8 비트 문자열 인스턴스를 디코딩하는 방법을 알려줍니다. 이들은 각각 ‘ASCII’및 ‘strict’로 설정됩니다. 이 8 비트 문자열 인스턴스를 바이트 객체로 읽는 인코딩은 ‘바이트’일 수 있습니다.
답변
피클보다 빠르고 더 쉬운 방해가 있습니다. 나는 피클 덤프로 저장하고 읽으려고했지만 읽는 동안 많은 문제가 있었고 한 시간을 낭비했지만 챗봇을 만들기 위해 자체 데이터로 작업하고 있지만 해결책을 찾지 못했습니다.
vec_x
와 vec_y
NumPy와 배열은 다음과 같습니다 :
data=[vec_x,vec_y]
hkl.dump( data, 'new_data_file.hkl' )
그런 다음 그냥 읽고 작업을 수행하십시오.
data2 = hkl.load( 'new_data_file.hkl' )