[python] DataFrame Index에 기능 적용
Pandas의 인덱스에 함수를 적용하는 가장 좋은 방법은 무엇입니까 DataFrame
? 현재 저는이 장황한 접근 방식을 사용하고 있습니다.
pd.DataFrame({"Month": df.reset_index().Date.apply(foo)})
어디 Date
인덱스의 이름이고 foo
내가 적용하고있는 함수의 이름입니다.
답변
HYRY 가 의견에서 이미 제안 했듯이 Series.map 은 여기로 이동하는 방법입니다. 결과 시리즈에 인덱스를 설정하기 만하면됩니다.
간단한 예 :
df = pd.DataFrame({'d': [1, 2, 3]}, index=['FOO', 'BAR', 'BAZ'])
df
d
FOO 1
BAR 2
BAZ 3
df.index = df.index.map(str.lower)
df
d
foo 1
bar 2
baz 3
색인! = 시리즈
@OP가 지적한 바와 같습니다. df.index.map(str.lower)
호출은 NumPy와 배열을 반환합니다. 이는 데이터 프레임 인덱스 가 시리즈가 아닌 numpy 배열을 기반으로 하기 때문 입니다.
인덱스를 Series로 만드는 유일한 방법은 그것에서 Series를 만드는 것입니다.
pd.Series(df.index.map(str.lower))
경고
Index
클래스는 이제 서브 클래스 StringAccessorMixin
는 다음과 같이 위의 작업을 할 수있는 수단,
df.index.str.lower()
이것은 여전히 Series가 아닌 Index 객체를 생성합니다.
답변
인덱스에 “foo”함수를 적용하여 현재 DataFrame에서 열을 만들고 싶다고 가정합니다. 당신은 쓸 수 있습니다 …
df['Month'] = df.index.map(foo)
시리즈 만 생성하려면 대신 할 수 있습니다.
pd.Series({x: foo(x) for x in foo.index})
답변
많은 답변이 인덱스를 배열로 반환하므로 인덱스 이름 등에 대한 정보가 손실됩니다 (할 수는 있지만 pd.Series(index.map(myfunc), name=index.name)
). MultiIndex에서도 작동하지 않습니다.
이 작업을 수행 한 방법은 “이름 바꾸기”를 사용하는 것입니다.
mix = pd.MultiIndex.from_tuples([[1, 'hi'], [2, 'there'], [3, 'dude']], names=['num', 'name'])
data = np.random.randn(3)
df = pd.Series(data, index=mix)
print(df)
num name
1 hi 1.249914
2 there -0.414358
3 dude 0.987852
dtype: float64
# Define a few dictionaries to denote the mapping
rename_dict = {i: i*100 for i in df.index.get_level_values('num')}
rename_dict.update({i: i+'_yeah!' for i in df.index.get_level_values('name')})
df = df.rename(index=rename_dict)
print(df)
num name
100 hi_yeah! 1.249914
200 there_yeah! -0.414358
300 dude_yeah! 0.987852
dtype: float64
이것에 대한 유일한 트릭은 당신의 인덱스가 다른 다중 인덱스 레벨과 함께 고유 한 레이블을 가져야한다는 것입니다.하지만 아마도 저보다 더 똑똑한 누군가가 그것을 극복하는 방법을 알고있을 것입니다. 내 목적을 위해 이것은 95 %의 시간 동안 작동합니다.
답변
언제든지 해당 to_series()
방법을 사용하여 색인을 변환 한 다음 선호 사항 / 필요에 따라 apply
또는을 변환 할 수 있습니다 map
.
ret = df.index.map(foo) # Returns pd.Index
ret = df.index.to_series().map(foo) # Returns pd.Series
ret = df.index.to_series().apply(foo) # Returns pd.Series
위의 모든 항목은의 신규 또는 기존 열에 직접 할당 할 수 있습니다 df
.
df["column"] = ret
완전성을 위해 : pd.Index.map
, pd.Series.map
그리고 pd.Series.apply
모두 요소별로 작동합니다. 나는 종종 또는로 map
표시되는 조회를 적용 하는 데 사용 합니다 . 추가와 함께 어떤 기능을 전달할 수 있기 때문에 더 일반적이기 거나 . 차이점 및 상기에서 설명 이 SO 실 . 왜 생략 되었는지 모르겠습니다 .dicts
pd.Series
apply
args
kwargs
apply
map
pd.Index.apply