나는 매우 큰 데이터 세트를 가지고 있고 전체 데이터 세트를 읽을 여유가 없습니다. 그래서 훈련을 위해 한 덩어리 만 읽을 생각이지만 어떻게하는지 모르겠습니다. 어떤 생각이라도 감사하겠습니다.
답변
처음 999,999 (헤더가 아닌) 행만 읽으려는 경우 :
read_csv(..., nrows=999999)
행 1,000,000 … 1,999,999 만 읽으려는 경우
read_csv(..., skiprows=1000000, nrows=999999)
nrows : int, 기본값 없음 읽을 파일의 행 수. 대용량 파일 읽기에 유용합니다 *
skiprows : 목록과 같은 또는 정수 건너 뛸 행 번호 (0- 인덱싱) 또는 파일 시작 부분에서 건너 뛸 행 수 (int)
대용량 파일의 경우 chunksize를 사용할 수도 있습니다.
chunksize : int, 기본값 없음 반복을위한 TextFileReader 객체 반환