[machine-learning] 선형 회귀와 로지스틱 회귀의 차이점은 무엇입니까?

범주 형 (또는 이산 형) 결과 의 가치를 예측해야하는 경우 로지스틱 회귀를 사용 합니다. 우리는 선형 회귀 를 사용 하여 입력 값이 주어진 결과 값을 예측 한다고 생각 합니다.

그렇다면 두 방법론의 차이점은 무엇입니까?



답변

  • 확률로 선형 회귀 출력

    선형 회귀 출력을 확률로 사용하고 싶지만 출력이 음수이고 1보다 클 수 있지만 확률은 불가능하기 때문에 실수입니다. 회귀는 실제로 0보다 작거나 1보다 큰 확률을 생성 할 수 있으므로 로지스틱 회귀가 도입되었습니다.

    출처 : http://gerardnico.com/wiki/data_mining/simple_logistic_regression

    여기에 이미지 설명을 입력하십시오

  • 결과

    선형 회귀 분석에서 결과 (종속 변수)는 연속적입니다. 무한한 수의 값 중 하나를 가질 수 있습니다.

    로지스틱 회귀 분석에서 결과 (종속 변수)의 값은 제한되어 있습니다.

  • 종속 변수

    로지스틱 회귀는 반응 변수가 범주 형일 때 사용됩니다. 예를 들어, 예 / 아니오, 참 / 거짓, 빨강 / 녹색 / 파랑, 1/2/2/3/3/4 등

    선형 회귀는 반응 변수가 연속 일 때 사용됩니다. 예를 들어, 체중, 신장, 시간 등

  • 방정식

    선형 회귀는 Y = mX + C 형식의 방정식을 제공하며, 차수가 1 인 방정식을 의미합니다.

    그러나 로지스틱 회귀는 Y = e X + e -X 형식의 방정식을 제공합니다.

  • 계수 해석

    선형 회귀 분석에서 독립 변수의 계수 해석은 매우 간단합니다 (즉,이 변수의 단위 증가에 따라 다른 모든 변수를 일정하게 유지하면 종속 변수가 xxx 씩 증가 / 감소 할 것으로 예상 됨).

    그러나 로지스틱 회귀 분석에서 사용하는 패밀리 (이항, 포아송 등) 및 링크 (로그, 로짓, 역 로그 등)에 따라 해석이 다릅니다.

  • 오차 최소화 기술

    선형 회귀 분석에서는 일반적인 최소 제곱 법을 사용하여 오류를 최소화하고 가장 적합한 결과에 도달하는 반면, 로지스틱 회귀 분석에서는 솔루션에 도달 할 수있는 최대 가능성 방법을 사용 합니다.

    선형 회귀는 일반적으로 모형의 최소 제곱 오차를 데이터에 최소화함으로써 해결되므로 큰 오차는 2 차적으로 벌점 화됩니다.

    로지스틱 회귀는 그 반대입니다. 로지스틱 손실 기능을 사용하면 큰 오류가 무조건 상수로 벌칙이 부과됩니다.

    이것이 문제가되는 이유를 보려면 범주 형 {0, 1} 결과에 대한 선형 회귀를 고려하십시오. 모형이 결과가 38이라고 예측하면 진실이 1 일 때 아무것도 잃지 않습니다. 선형 회귀는 38을 줄이기 위해 노력할 것이며, 물류는 그다지 많지 않을 것입니다 2 .


답변

선형 회귀 분석에서 결과 (종속 변수)는 연속적입니다. 무한한 수의 값 중 하나를 가질 수 있습니다. 로지스틱 회귀 분석에서 결과 (종속 변수)의 값은 제한되어 있습니다.

예를 들어, X에 면적이 평방 피트이고 Y가 해당 주택의 판매가를 포함하는 경우 선형 회귀를 사용하여 판매가를 주택 크기의 함수로 예측할 수 있습니다. 가능한 판매 가격이 실제로하지 않을 수 있지만 하나를 , 선형 회귀 모델이 선택 될 것이다 이렇게 많은 수있는 값이 있습니다.

대신, 규모에 따라 집이 2 억 달러 이상을 판매 할 것인지 예측하려면 로지스틱 회귀를 사용합니다. 가능한 생산량은 예, 주택은 $ 200K 이상을 판매 할 것입니다. 또는 아니오, 주택은 그렇지 않습니다.


답변

이전 답변을 추가하십시오.

선형 회귀

주어진 요소 X에 대한 출력 값을 예측 / 추정하는 문제 (예 : f (x))를 해결하기위한 것입니다. 예측 결과는 값이 양수 또는 음수 일 수있는 연속 함수입니다. 이 경우 일반적으로 많은 예제 가있는 입력 데이터 세트와 각각에 대한 출력 값이 있습니다. 목표는 모델을이 데이터 세트 에 맞추는 것이므로 다른 / 보지 않은 새로운 요소에 대한 출력을 예측할 수 있습니다. 다음은 선을 점 집합에 맞추는 전형적인 예이지만 일반적으로 선형 회귀를 사용하여 더 복잡한 다항식도를 사용하여 더 복잡한 모형에 맞출 수 있습니다.

여기에 이미지 설명을 입력하십시오
문제 해결

Linea 회귀 분석은 다음 두 가지 방법으로 해결할 수 있습니다.

  1. 정규 방정식 (문제를 해결하는 직접적인 방법)
  2. 그라데이션 하강 (반복적 접근)

로지스틱 회귀

요소가 주어진 경우 분류 범주 문제 를 해결 하여 N 범주에서 동일하게 분류해야합니다. 일반적인 예로는 예를 들어 메일을 스팸으로 분류하거나 분류하지 않는 메일이 제공되거나 해당 카테고리에 속하는 차량 (자동차, 트럭, 밴 등)이 제공됩니다. 기본적으로 출력은 유한 한 descrete 값 세트입니다.

문제 해결

로지스틱 회귀 문제는 그라디언트 디센트를 사용해야 만 해결할 수 있습니다. 일반적으로 공식은 선형 회귀와 매우 유사하지만 유일한 차이점은 다른 가설 함수의 사용법입니다. 선형 회귀 분석에서 가설의 형식은 다음과 같습니다.

h(x) = theta_0 + theta_1*x_1 + theta_2*x_2 ..

여기서 theta는 우리가 맞추려고하는 모델이고 [1, x_1, x_2, ..]는 입력 벡터입니다. 로지스틱 회귀 분석에서 가설 함수는 다릅니다.

g(x) = 1 / (1 + e^-x)

여기에 이미지 설명을 입력하십시오

이 함수는 좋은 속성을 가지고 있습니다. 기본적으로 모든 값을 [0,1] 범위에 매핑합니다.이 값은 분류 중에 퍼포먼스를 처리하는 데 적합합니다. 예를 들어 이진 분류의 경우 g (X)는 양의 클래스에 속할 확률로 해석 될 수 있습니다. 이 경우 일반적으로 결정 경계 로 분리 된 다른 클래스가 있으며 기본적으로 다른 클래스 간의 분리를 결정 하는 곡선 입니다. 다음은 두 클래스로 구분 된 데이터 집합의 예입니다.

여기에 이미지 설명을 입력하십시오


답변

그것들은 해법에 대한 해답과 상당히 유사하지만, 다른 사람들이 말했듯이, 하나의 (물류 회귀)는 범주 “적합”(Y / N 또는 1/0)을 예측하기위한 것이고 다른 하나는 선형 회귀를 예측하기위한 것입니다. 가치.

암 Y / N (또는 확률)이 있는지 예측하려면 물류를 사용하십시오. 선형 회귀를 사용하기 위해 몇 년을 살 것인지 알고 싶다면!


답변

기본적인 차이점 :

선형 회귀는 기본적으로 회귀 모델로, 함수의 신중하지 않고 연속적인 출력을 제공합니다. 따라서이 접근법은 가치를 제공합니다. 예를 들어 : 주어진 x f (x)는 무엇입니까?

예를 들어 다양한 요인에 대한 훈련 세트와 훈련 후 부동산 가격이 주어지면 부동산 가격이 무엇인지 결정하는 데 필요한 요인을 제공 할 수 있습니다.

로지스틱 회귀는 기본적으로 이진 분류 알고리즘으로, 여기서 함수에 대해 신중한 값 출력이 제공됩니다. 예를 들어 : f (x)> threshold 인 경우 주어진 x에 대해 1로 분류하고 그렇지 않으면 0으로 분류합니다.

예를 들어 훈련 데이터로 뇌종양 크기가 주어지면 크기를 입력으로 사용하여 그것의 베닌인지 악성 종양인지를 결정할 수 있습니다. 따라서 출력은 0 또는 1로 신중합니다.

*이 함수는 기본적으로 가설 함수입니다.


답변

간단히 말해서, 선형 회귀는 가능한 연속적이고 무한한 값을 능가하는 회귀 알고리즘입니다. 로지스틱 회귀는 이진 분류기 알고리즘으로 간주되며 레이블에 속하는 입력의 ‘확률’을 출력합니다 (0 또는 1).


답변

회귀는 연속 변수를 의미하고 선형은 y와 x 사이에 선형 관계가 있음을 의미합니다. Ex = 수년간의 경험없이 급여를 예측하려고합니다. 따라서 여기서 급여는 독립 변수 (y)이고 경험의 년은 종속 변수 (x)입니다. y = b0 + b1 * x1
선형 회귀
관측치에 가장 적합한 피팅 라인을 제공하는 상수 b0 및 b1의 최적 값을 찾으려고합니다. x = 0에서 매우 큰 값까지 연속적인 값을 제공하는 선 방정식입니다. 이 선을 선형 회귀 모델이라고합니다.

로지스틱 회귀는 분류 기술의 한 유형입니다. 용어 회귀에 의해 잘못 오도되었습니다. 여기서 우리는 y = 0인지 1인지 예측합니다.

여기서 우리는 먼저 아래 공식에서 x가 주어진 p (y = 1) (wprobability of y = 1)을 찾아야합니다.

조사

확률 p는 아래 공식에 의해 y와 관련됩니다.

에스

예 = 우리는 1 일 때 암을 가질 확률이 50 % 이상인 종양과 0으로 암을 가질 가능성이 50 % 미만인 종양을 분류 할 수 있습니다.
5

여기서 빨간색 점은 0으로 예측되고 녹색 점은 1로 예측됩니다.