[python] NumPy에서 빈 배열 / 행렬을 만들려면 어떻게해야합니까?

일반적으로 목록을 사용하는 방식으로 배열이나 행렬을 사용하는 방법을 알 수 없습니다. 빈 배열 (또는 행렬)을 만들고 한 번에 하나의 열 (또는 행)을 추가하고 싶습니다.

현재이 작업을 수행 할 수있는 유일한 방법은 다음과 같습니다.

mat = None
for col in columns:
    if mat is None:
        mat = col
    else:
        mat = hstack((mat, col))

그것이 목록이라면, 나는 다음과 같이 할 것입니다 :

list = []
for item in data:
    list.append(item)

NumPy 배열이나 행렬에 이런 종류의 표기법을 사용하는 방법이 있습니까?



답변

NumPy를 효율적으로 사용하기위한 잘못된 정신 모델이 있습니다. NumPy 배열은 인접한 메모리 블록에 저장됩니다. 기존 배열에 행이나 열을 추가하려면 전체 배열을 새 메모리 블록에 복사하여 새 요소를 저장할 간격을 만들어야합니다. 배열을 만들기 위해 반복적으로 수행하면 매우 비효율적입니다.

행을 추가하는 경우 가장 좋은 방법은 데이터 집합의 크기보다 큰 배열을 만든 다음 행마다 데이터를 추가하는 것입니다.

>>> import numpy
>>> a = numpy.zeros(shape=(5,2))
>>> a
array([[ 0.,  0.],
   [ 0.,  0.],
   [ 0.,  0.],
   [ 0.,  0.],
   [ 0.,  0.]])
>>> a[0] = [1,2]
>>> a[1] = [2,3]
>>> a
array([[ 1.,  2.],
   [ 2.,  3.],
   [ 0.,  0.],
   [ 0.,  0.],
   [ 0.,  0.]])


답변

NumPy 배열은 목록과 매우 다른 데이터 구조이며 다른 방식으로 사용되도록 설계되었습니다. 당신의 사용 hstack은 잠재적으로 매우 비효율적입니다 … 당신이 그것을 호출 할 때마다 기존 배열의 모든 데이터가 새로운 것으로 복사됩니다. ( append함수도 같은 문제가 있습니다.) 한 번에 한 열씩 행렬을 만들려면 끝날 때까지 목록에 보관하고 배열로 변환하는 것이 가장 좋습니다.

예 :


mylist = []
for item in data:
    mylist.append(item)
mat = numpy.array(mylist)

item각각 item이 동일한 수의 요소를 갖는 한 , 목록, 배열 또는 반복 가능한 것일 수 있습니다 .
이 특별한 경우 ( data매트릭스 열을 보유하는 일부 반복 가능) 간단히 사용할 수 있습니다.


mat = numpy.array(data)

또한 list변수 이름으로 사용 하면 내장 유형을 해당 이름으로 가려서 버그가 발생할 수 있으므로 권장하지 않습니다.

편집하다:

어떤 이유로 빈 배열을 만들고 싶다면을 사용할 수 numpy.array([])있지만 거의 유용하지 않습니다!


답변

NumPy에서 빈 다차원 배열을 만들려면 (예 : m*n행렬을 저장 하는 2D 배열 ) m추가 할 행 수를 모르고 Stephen Simmons가 언급 한 계산 비용에 신경 쓰지 않는 경우 (즉, 추가 할 때마다 배열)에서 추가 할 차원을 0으로 짜낼 수 있습니다 X = np.empty(shape=[0, n]).

이 방법으로 예를 들어 사용할 수 있습니다 (여기서는 m = 5빈 행렬을 만들 때 알지 못한다고 가정합니다 n = 2).

import numpy as np

n = 2
X = np.empty(shape=[0, n])

for i in range(5):
    for j  in range(2):
        X = np.append(X, [[i, j]], axis=0)

print X

그것은 당신에게 줄 것입니다 :

[[ 0.  0.]
 [ 0.  1.]
 [ 1.  0.]
 [ 1.  1.]
 [ 2.  0.]
 [ 2.  1.]
 [ 3.  0.]
 [ 3.  1.]
 [ 4.  0.]
 [ 4.  1.]]


답변

학교 프로젝트 중 하나에서 numpy.array를 세트로 사용해야하고 비어 초기화해야했기 때문에 이것을 많이 조사했습니다 … 스택 오버플로에서 관련 답변을 찾지 못했습니다. 뭔가를 낙서.

# Initialize your variable as an empty list first
In [32]: x=[]
# and now cast it as a numpy ndarray
In [33]: x=np.array(x)

결과는 다음과 같습니다.

In [34]: x
Out[34]: array([], dtype=float64)

따라서 다음과 같이 np 배열을 직접 초기화 할 수 있습니다.

In [36]: x= np.array([], dtype=np.float64)

이게 도움이 되길 바란다.


답변

추가 기능을 사용할 수 있습니다. 행의 경우 :

>>> from numpy import *
>>> a = array([10,20,30])
>>> append(a, [[1,2,3]], axis=0)
array([[10, 20, 30],
       [1, 2, 3]])

열의 경우 :

>>> append(a, [[15],[15]], axis=1)
array([[10, 20, 30, 15],
       [1, 2, 3, 15]])

편집
물론, 다른 답변에서 언급했듯이 행렬 / 배열에서 처리 (예 : 반전)를 수행하지 않는 한 무언가를 추가 할 때마다 목록을 만들고 추가 한 다음 정렬.


답변

배열의 최종 크기를 모르는 경우 다음과 같이 배열의 크기를 늘릴 수 있습니다.

my_arr = numpy.zeros((0,5))
for i in range(3):
    my_arr=numpy.concatenate( ( my_arr, numpy.ones((1,5)) ) )
print(my_arr)

[[ 1.  1.  1.  1.  1.]  [ 1.  1.  1.  1.  1.]  [ 1.  1.  1.  1.  1.]]
  • 을주의 0첫 번째 줄에.
  • numpy.append또 다른 옵션입니다. 호출합니다 numpy.concatenate.

답변

0과 같은 모든 종류의 배열을 빌드하는 데 적용 할 수 있습니다.

a = range(5)
a = [i*0 for i in a]
print a
[0, 0, 0, 0, 0]