데이터 마이닝에서 분류와 클러스터링의 차이점이 무엇인지 설명 할 수 있습니까?
가능하다면 주요 아이디어를 이해하기 위해 두 가지 예를 제시하십시오.
답변
일반적으로 분류에는 사전 정의 된 클래스 세트가 있으며 새 오브젝트가 속하는 클래스를 알고 자합니다.
그룹 시도를 개체의 집합을 클러스터링과가 있는지 찾아 일부 개체 사이의 관계.
기계 학습의 맥락에서 분류는 감독 학습 이며 클러스터링은 감독되지 않은 학습 입니다.
또한 Wikipedia의 분류 및 클러스터링 을 살펴보십시오 .
답변
답변
데이터 마이닝 또는 기계 학습 담당자에게이 질문을 한 경우 감독 학습 및 비지도 학습이라는 용어를 사용하여 군집과 분류의 차이점을 설명합니다. 먼저 감독 및 감독되지 않은 키워드에 대해 설명하겠습니다.
지도 학습 :
바구니가 있고 신선한 과일로 채워져 있고 같은 유형의 과일을 한 곳에 배치하는 것이 임무라고 가정합니다. 과일이 사과, 바나나, 체리 및 포도라고 가정하십시오. 따라서 이전 작업에서 각 과일의 모양을 알 수 있으므로 한 장소에 동일한 유형의 과일을 쉽게 배열 할 수 있습니다. 여기서 이전 작업을 데이터 마이닝에서 훈련 된 데이터라고합니다. 그래서 당신은 이미 훈련 된 데이터로부터 사물을 배웁니다. 이것은 당신이 어떤 과일이 그렇게 특징이 있다면 그것은 각 과일마다 포도와 같은 포도라고 말하는 반응 변수 때문입니다.
이 유형의 데이터는 훈련 된 데이터에서 얻을 수 있습니다. 이러한 유형의 학습을지도 학습이라고합니다. 이 유형의 해결 문제는 분류에 따릅니다. 그래서 당신은 당신이 자신있게 일을 할 수 있도록 일들을 이미 배웁니다.
감독되지 않은 :
바구니가 있고 신선한 과일로 채워져 있고 동일한 유형의 과일을 한곳에 배치하는 것이 임무라고 가정하십시오.
이번에 당신은 그 과일에 대해 아무것도 몰라, 당신은 처음으로이 과일들을보고 있습니다. 그래서 당신은 어떻게 같은 종류의 과일을 배열 할 것입니까.
가장 먼저해야 할 일은 과일을 섭취하고 해당 과일의 물리적 특성을 선택하는 것입니다. 당신이 색깔을 sup다고 가정하십시오.
그런 다음 색을 기준으로 정렬 한 다음 그룹이 이와 같은 것입니다.
레드 컬러 그룹 : 사과 & 체리 과일.
녹색 색상 그룹 : 바나나 및 포도. 이제 다른 물리적 특성을 크기로 사용하므로 그룹은 이와 같은 것입니다.
붉은 색과 큰 크기 : 사과.
붉은 색과 작은 크기 : 체리 과일.
녹색과 큰 크기 : 바나나.
녹색과 작은 크기 : 포도. 일 끝 행복한 결말.
여기서 당신은 전에 아무것도 배우지 않았으며, 기차 데이터와 응답 변수가 없음을 의미합니다. 이러한 유형의 학습은 비지도 학습으로 알려져 있습니다. 클러스터링은 비지도 학습에 의해 제공됩니다.
답변
+ 분류 : 몇 가지 새로운 데이터가 주어지며, 새로운 레이블을 설정해야합니다.
예를 들어, 회사는 잠재 고객을 분류하려고합니다. 새로운 고객이 오면 고객이 자신의 제품을 구매할 것인지 아닌지를 결정해야합니다.
+ 클러스터링 : 누가 무엇을 샀는지 기록한 일련의 기록 거래가 제공됩니다.
클러스터링 기술을 사용하면 고객의 세분화를 알 수 있습니다.
답변
머신 러닝에 대해 많은 분들이 들었습니다. 수십 명의 사람들이 그것이 무엇인지 알 수도 있습니다. 그리고 여러분 중 일부는 기계 학습 알고리즘으로 작업했을 수도 있습니다. 어디로 가는지 아나? 많은 사람들이 지금부터 5 년 동안 절대적으로 필수적인 기술에 익숙하지 않습니다. Siri는 기계 학습입니다. 아마존의 알렉사는 머신 러닝입니다. 광고 및 쇼핑 품목 추천 시스템은 기계 학습입니다. 2 살짜리 소년의 간단한 비유로 기계 학습을 이해하려고합시다. 그냥 재미로 Kylo Ren이라고 불러
Kylo Ren이 코끼리를 보았다고 가정 해 봅시다. 그의 뇌는 그에게 무엇을 말할 것인가? (그는 Vader의 후임자라도 최소한의 사고 능력을 가지고 있음을 기억하십시오). 그의 뇌는 그에게 회색의 큰 움직이는 생물을 보았다고 말할 것입니다. 그는 다음에 고양이를보고 그의 뇌는 그에게 황금색의 작은 움직이는 생물이라고 말합니다. 마지막으로, 그는 다음에 가벼운 세이버를 보았고 그의 뇌는 그에게 그가 살 수있는 비 생물 개체라고 말해줍니다!
이 시점에서 그의 뇌는 세이버가 코끼리와 고양이와 다르다는 것을 알고 있습니다. 왜냐하면 세이버는 놀아야 할 것이기 때문에 스스로 움직이지 않기 때문입니다. Kylo가 움직일 수있는 의미가 무엇인지 모르더라도 그의 뇌는 이것을 많이 알아낼 수 있습니다. 이 간단한 현상을 클러스터링이라고합니다.
기계 학습은이 과정의 수학적 버전 일뿐입니다. 통계를 연구하는 많은 사람들은 뇌가 작용하는 것과 같은 방식으로 방정식을 만들 수 있다는 것을 깨달았습니다. 뇌는 비슷한 물체를 모을 수 있고 뇌는 실수로부터 배울 수 있고 뇌는 사물을 식별하는 법을 배울 수 있습니다.
이 모든 것을 통계로 표현할 수 있으며이 프로세스의 컴퓨터 기반 시뮬레이션을 기계 학습이라고합니다. 왜 컴퓨터 기반 시뮬레이션이 필요한가요? 컴퓨터는 인간의 두뇌보다 더 빠른 수학을 할 수 있기 때문입니다. 나는 기계 학습의 수학적 / 통계 부분에 들어가고 싶지만 먼저 몇 가지 개념을 지우지 않고는 그것에 뛰어 들기를 원하지 않습니다.
Kylo Ren으로 돌아 갑시다. Kylo가 세이버를 집어 들고 연주한다고 가정 해 봅시다. 그는 우연히 폭풍우 조종사를 때리고 폭풍우 조종사가 부상을 당합니다. 그는 무슨 일이 일어나고 있는지 이해하지 못하고 계속 재생합니다. 다음으로 그는 고양이를 때리고 고양이가 다쳤다. 이번에 Kylo는 자신이 나쁜 일을했다고 확신하고 다소주의를 기울입니다. 그러나 그의 나쁜 세이버 기술을 감안할 때, 그는 코끼리를 때리고 그는 곤경에 처해 있음을 절대적으로 확신합니다. 그 후 그는 매우 조심스럽게되고, 우리가 깨어 난 힘에서 보았을 때 아버지를 의도적으로 때리는 것입니다 !!
실수로부터 배우는이 전체 과정은 방정식으로 모방 될 수 있는데, 여기서 무언가 잘못한 느낌이 오류나 비용으로 표현됩니다. 세이버와 관련이없는 것을 식별하는이 프로세스를 분류라고합니다. 클러스터링 및 분류는 기계 학습의 절대 기본입니다. 그들 사이의 차이점을 보자.
Kylo는 그의 뇌가 가벼운 세이버가 스스로 움직일 수 없어서 다르다고 판단했기 때문에 동물과 가벼운 세이버를 구별했습니다. 결정은 존재하는 대상 (데이터)만을 기반으로하며 외부의 도움이나 조언은 제공되지 않았습니다. 이에 반해 Kylo는 물체에 부딪히는 일을 먼저 관찰하여 가벼운 세이버에주의하는 것이 중요하다는 점을 차별화했습니다. 결정은 세이버를 완전히 기반으로 한 것이 아니라 다른 객체에 대해 수행 할 수있는 작업에 기반한 것입니다. 요컨대, 여기에 도움이있었습니다.
이러한 학습 차이로 인해 클러스터링을 비지도 학습 방법이라고하고 분류를지도 학습 방법이라고합니다. 머신 러닝 세계에서는 매우 다르며 종종 존재하는 데이터의 종류에 따라 결정됩니다. 분류 된 데이터가 크면 레이블이있는 데이터 (또는 카일로의 경우 스톰 트루퍼, 코끼리, 고양이와 같이 학습에 도움이되는 것들)를 얻는 것이 쉽지 않은 경우가 많습니다. 반면에 레이블이없는 학습은 레이블 제목이 무엇인지 모르는 것과 같이 고유 한 단점이있을 수 있습니다. Kylo가 예나 도움없이 세이버를 조심스럽게 배우는 것을 배우면, 그것이 무엇을할지 모를 것입니다. 그는 그것이 수행 될 것으로 추정되지 않는다는 것을 알고있을 뿐이다. 그것은 일종의 절름발이 유사하지만 당신은 요점을 얻습니다!
이제 머신 러닝을 시작하고 있습니다. 분류 자체는 연속 숫자의 분류 또는 레이블의 분류 일 수 있습니다. 예를 들어, Kylo가 각 폭풍우 조종사의 높이를 분류해야한다면 높이가 5.0, 5.01, 5.011 등일 수 있기 때문에 많은 대답이있을 것입니다. 답변이 매우 제한적입니다. 실제로 그것들은 간단한 숫자로 표현 될 수 있습니다. 빨강은 0 일 수 있고 파랑은 1 일 수 있으며 녹색은 2 일 수 있습니다.
기본 수학을 알고 있다면 0,1,2와 5.1,5.01,5.011이 다르고 각각 이산 및 연속 번호라고합니다. 불연속 숫자의 분류를 로지스틱 회귀라고하고 연속 숫자의 분류를 회귀라고합니다. 로지스틱 회귀는 범주 분류라고도하므로이 용어를 다른 곳에서 읽을 때 혼동하지 마십시오
이것은 기계 학습에 대한 매우 기본적인 소개였습니다. 다음 포스트에서 통계적 측면에 대해 살펴 보겠습니다. 수정이 필요한 경우 알려주십시오. 🙂
답변
저는 데이터 마이닝에 새로 온 사람이지만 교과서에 따르면 CLASSICIATION은지도 학습과 감독되지 않은 학습 클러스터링으로 간주됩니다. 지도 학습과 비지도 학습의 차이점은 여기 에서 찾을 수 있습니다 .
답변
분류
예제 학습 을 기반으로 미리 정의 된 클래스 를 새로운 관찰에 할당 합니다.
머신 러닝의 주요 작업 중 하나입니다.
클러스터링 (또는 클러스터 분석)
“감독되지 않은 분류”로 널리 해고되었지만 상당히 다릅니다.
많은 기계 학습자가 가르쳐 줄 내용과 달리 “클래스”를 객체에 할당하는 것이 아니라 미리 정의하지 않은 것입니다. 이것은 너무 많은 분류를 한 사람들에 대한 매우 제한된 견해입니다. 망치 (분류기)가있는 경우 의 전형적인 예는 모든 것이 당신에게 손톱 (분류 문제)처럼 보입니다 . 그러나 분류 사람들이 클러스터링을 중단하지 않는 이유이기도합니다.
대신, 그것을 구조 발견 으로 고려하십시오 . 클러스터링 작업은 데이터에서 이전에 몰랐던 구조 (예 : 그룹)를 찾는 것 입니다. 새로운 것을 배우 면 클러스터링에 성공했습니다 . 이미 알고있는 구조 만 가지고 있으면 실패했습니다.
클러스터 분석은 데이터 마이닝의 핵심 작업입니다 (머신 러닝의 추악한 오리 새끼이므로 클러스터링을 해제하는 머신 러닝 사용자의 말을 듣지 마십시오).
“비지도 학습”은 다소 옥시 모론입니다
이것은 문헌을 위아래로 반복했지만 감독되지 않은 학습은 블로시 입니다. 존재하지 않지만 “군사 정보”와 같은 옥시 모론입니다.
알고리즘은 예제를 통해 배우거나 ( “감독 학습”) 배우지 않습니다. 모든 클러스터링 방법이 “학습”인 경우 데이터 세트의 최소, 최대 및 평균 계산도 “비지도 학습”입니다. 그런 다음 계산에서 출력을 “학습”했습니다. 따라서 ‘비지도 학습’이라는 용어는 전혀 의미가 없으며 모든 것을 의미합니다.
그러나 일부 “비지도 학습”알고리즘은 최적화 범주에 속합니다. 예를 들어 k- 평균 은 최소 제곱 최적화입니다. 이러한 방법은 통계 전체에 적용되므로 “비지도 학습”이라는 레이블을 지정할 필요는 없지만 대신 “최적화 문제”라고 부르는 것이 좋습니다. 더 정확하고 의미가 있습니다. 최적화와 관련이없고 머신 러닝 패러다임에 잘 맞지 않는 많은 클러스터링 알고리즘이 있습니다. 그러니 우산 아래에 “감독되지 않은 학습”이라는 압박을 멈추십시오.
클러스터링과 관련된 “학습”이 있지만 배우는 프로그램은 아닙니다. 자신의 데이터 세트에 대해 새로운 것을 배우는 것은 사용자입니다.