[python] 기존 CSV 파일에 팬더 데이터를 추가하는 방법은 무엇입니까?

팬더 to_csv()기능을 사용하여 기존 csv 파일에 데이터 프레임을 추가 할 수 있는지 알고 싶습니다 . csv 파일은로드 된 데이터와 구조가 동일합니다.

답변

pandas to_csv함수 에서 파이썬 쓰기 모드를 지정할 수 있습니다 . 추가하려면 ‘a’입니다.

귀하의 경우 :

df.to_csv('my_csv.csv', mode='a', header=False)

기본 모드는 ‘w’입니다.

답변

추가 모드 에서 파일 을 열어 csv에 추가 할 수 있습니다 .

with open('my_csv.csv', 'a') as f:
    df.to_csv(f, header=False)

이것이 당신의 CSV라면 foo.csv:

,A,B,C
0,1,2,3
1,4,5,6

그것을 읽고 예를 들어 다음을 추가하면 df + 6:

In [1]: df = pd.read_csv('foo.csv', index_col=0)

In [2]: df
Out[2]:
   A  B  C
0  1  2  3
1  4  5  6

In [3]: df + 6
Out[3]:
    A   B   C
0   7   8   9
1  10  11  12

In [4]: with open('foo.csv', 'a') as f:
             (df + 6).to_csv(f, header=False)

foo.csv 된다 :

,A,B,C
0,1,2,3
1,4,5,6
0,7,8,9
1,10,11,12

답변

with open(filename, 'a') as f:
    df.to_csv(f, header=f.tell()==0)

존재하지 않는 경우 파일 작성, 그렇지 않으면 추가
파일이 생성되면 헤더를 추가하고 그렇지 않으면 생략하십시오.

답변

일부 헤더 검사 안전 장치와 함께 사용하는 작은 도우미 기능으로 모든 것을 처리합니다.

def appendDFToCSV_void(df, csvFilePath, sep=","):
    import os
    if not os.path.isfile(csvFilePath):
        df.to_csv(csvFilePath, mode='a', index=False, sep=sep)
    elif len(df.columns) != len(pd.read_csv(csvFilePath, nrows=1, sep=sep).columns):
        raise Exception("Columns do not match!! Dataframe has " + str(len(df.columns)) + " columns. CSV file has " + str(len(pd.read_csv(csvFilePath, nrows=1, sep=sep).columns)) + " columns.")
    elif not (df.columns == pd.read_csv(csvFilePath, nrows=1, sep=sep).columns).all():
        raise Exception("Columns and column order of dataframe and csv file do not match!!")
    else:
        df.to_csv(csvFilePath, mode='a', index=False, sep=sep, header=False)

답변

처음에는 pyspark 데이터 프레임으로 시작-pyspark 데이터 프레임의 스키마 / 열 유형을 고려할 때 유형 변환 오류가 발생합니다 (pandas df로 변환 한 다음 csv에 추가 할 때).

각 df의 모든 열을 string 유형으로 설정하고 다음과 같이 csv에 추가하여 문제를 해결했습니다.

with open('testAppend.csv', 'a') as f:
    df2.toPandas().astype(str).to_csv(f, header=False)

답변

파티에 약간 늦었지만 파일을 여러 번 열고 닫거나 데이터, 통계 등을 로깅하는 경우 컨텍스트 관리자를 사용할 수도 있습니다.

from contextlib import contextmanager
import pandas as pd
@contextmanager
def open_file(path, mode):
     file_to=open(path,mode)
     yield file_to
     file_to.close()


##later
saved_df=pd.DataFrame(data)
with open_file('yourcsv.csv','r') as infile:
      saved_df.to_csv('yourcsv.csv',mode='a',header=False)`