[python] 인덱스 배열을 1-hot 인코딩 된 numpy 배열로 변환

1d numpy 배열이 있다고 가정 해 봅시다.

a = array([1,0,3])

이것을 2d 1-hot 어레이로 인코딩하고 싶습니다.

b = array([[0,1,0,0], [1,0,0,0], [0,0,0,1]])

이 작업을 수행하는 빠른 방법이 있습니까? 의 a요소를 설정하기 위해 반복하는 것보다 빠릅니다 b.



답변

배열 a은 출력 배열에서 0이 아닌 요소의 열을 정의합니다. 또한 행을 정의한 다음 멋진 인덱싱을 사용해야합니다.

>>> a = np.array([1, 0, 3])
>>> b = np.zeros((a.size, a.max()+1))
>>> b[np.arange(a.size),a] = 1
>>> b
array([[ 0.,  1.,  0.,  0.],
       [ 1.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  1.]])


답변

>>> values = [1, 0, 3]
>>> n_values = np.max(values) + 1
>>> np.eye(n_values)[values]
array([[ 0.,  1.,  0.,  0.],
       [ 1.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  1.]])


답변

keras를 사용하는 경우이를위한 내장 유틸리티가 있습니다.

from keras.utils.np_utils import to_categorical   

categorical_labels = to_categorical(int_labels, num_classes=3)

그리고 @YXD의 답변 과 거의 동일합니다 ( source-code 참조 ).


답변

여기 내가 유용하다고 생각하는 것이 있습니다.

def one_hot(a, num_classes):
  return np.squeeze(np.eye(num_classes)[a.reshape(-1)])

여기 num_classes당신이 가지고있는 수업의 수를 나타냅니다. 따라서 (10000)a 모양의 벡터가있는 경우이 함수 는 벡터 를 (10000, C)로 변환합니다 . 주 제로 색인은, 즉 줄 것이다 .aone_hot(np.array([0, 1]), 2)[[1, 0], [0, 1]]

정확히 당신이 믿고 싶은 것.

추신 : 소스는 시퀀스 모델입니다-deeplearning.ai


답변

당신은 사용할 수 있습니다 sklearn.preprocessing.LabelBinarizer:

예:

import sklearn.preprocessing
a = [1,0,3]
label_binarizer = sklearn.preprocessing.LabelBinarizer()
label_binarizer.fit(range(max(a)+1))
b = label_binarizer.transform(a)
print('{0}'.format(b))

산출:

[[0 1 0 0]
 [1 0 0 0]
 [0 0 0 1]]

무엇보다도 sklearn.preprocessing.LabelBinarizer()출력 transform이 희소 하도록 초기화 할 수 있습니다 .


답변

numpy의 기능을 사용할 수도 있습니다 .

numpy.eye(number of classes)[vector containing the labels]


답변

다음은 1-D 벡터를 2D one-hot array로 변환하는 함수입니다.

#!/usr/bin/env python
import numpy as np

def convertToOneHot(vector, num_classes=None):
    """
    Converts an input 1-D vector of integers into an output
    2-D array of one-hot vectors, where an i'th input value
    of j will set a '1' in the i'th row, j'th column of the
    output array.

    Example:
        v = np.array((1, 0, 4))
        one_hot_v = convertToOneHot(v)
        print one_hot_v

        [[0 1 0 0 0]
         [1 0 0 0 0]
         [0 0 0 0 1]]
    """

    assert isinstance(vector, np.ndarray)
    assert len(vector) > 0

    if num_classes is None:
        num_classes = np.max(vector)+1
    else:
        assert num_classes > 0
        assert num_classes >= np.max(vector)

    result = np.zeros(shape=(len(vector), num_classes))
    result[np.arange(len(vector)), vector] = 1
    return result.astype(int)

다음은 사용법 예입니다.

>>> a = np.array([1, 0, 3])

>>> convertToOneHot(a)
array([[0, 1, 0, 0],
       [1, 0, 0, 0],
       [0, 0, 0, 1]])

>>> convertToOneHot(a, num_classes=10)
array([[0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
       [1, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 1, 0, 0, 0, 0, 0, 0]])