[image-processing] “세분화”및 ”장면 라벨링”과 비교하여 “의미 적 세분화”는 무엇입니까?

Question 1

의미 론적 세분화는 단지 Pleonasm입니까 아니면 “의미 론적 세분화”와 “세그멘테이션”사이에 차이가 있습니까? “장면 라벨링”또는 “장면 파싱”과 다른 점이 있습니까?

픽셀 수준과 픽셀 단위 분할의 차이점은 무엇입니까?

(측면 질문 : 이런 종류의 픽셀 단위 주석이있는 경우 무료로 물체 감지를받을 수 있습니까, 아니면 아직 할 일이 있습니까?)

정의에 대한 소스를 제공하십시오.

“의미 적 분할”을 사용하는 소스

Jonathan Long, Evan Shelhamer, Trevor Darrell : 시맨틱 분할을위한 완전 컨볼 루션 네트워크 . CVPR, 2015 및 PAMI, 2016
홍승훈, 노현우, 한보 형 : “반 감독 시맨틱 분할을위한 분리 된 심층 신경망.” arXiv 사전 인쇄 arXiv : 1506.04924 , 2015.
V. Lempitsky, A. Vedaldi 및 A. Zisserman : 시맨틱 분할을위한 파일론 모델. 신경 정보 처리 시스템의 발전, 2011 년.

“장면 라벨링”을 사용하는 출처

Clement Farabet, Camille Couprie, Laurent Najman, Yann LeCun : 장면 라벨링을위한 계층 적 특징 학습 . 패턴 분석 및 기계 지능, 2013 년.

“픽셀 수준”을 사용하는 소스

Pinheiro, Pedro O. 및 Ronan Collobert : “컨볼 루션 네트워크를 사용한 이미지 수준에서 픽셀 수준 레이블링으로.” 2015 년 컴퓨터 비전 및 패턴 인식에 관한 IEEE 컨퍼런스 회보. ( http://arxiv.org/abs/1411.6228 참조 )

“픽셀 단위”를 사용하는 소스

Li, Hongsheng, Rui Zhao 및 Xiaogang Wang : “픽셀 단위 분류를위한 컨볼 루션 신경망의 매우 효율적인 순방향 및 역방향 전파.” arXiv 프리 프린트 arXiv : 1412.4526 , 2014.

Google Ngram

최근에는 “장면 라벨링”보다 “의미 적 분할”이 더 많이 사용되는 것 같습니다.

Question 2

“분할” 은 이미지를 여러 “일관된”부분으로 분할하는 것이지만 이러한 부분이 무엇을 나타내는 지 이해하려는 시도가 없습니다 . 가장 유명한 작품 중 하나 (첫 번째는 아님)는 Shi and Malik “Normalized Cuts and Image Segmentation”PAMI 2000 입니다. 이러한 작업은 경계의 색상, 질감 및 부드러움과 같은 저수준 단서의 관점에서 “일관성”을 정의하려고 시도합니다. 이 작품들은 게슈탈트 이론으로 거슬러 올라갈 수 있습니다 .

반면에 “의미 분할” 시도는 의미 론적 의미있는 부분으로 이미지를 분할하는, 그리고 미리 결정 클래스 중 하나에 각 부분을 분류 할 수 있습니다. 전체 이미지 / 세그먼트가 아닌 각 픽셀을 분류하여 동일한 목표를 달성 할 수도 있습니다. 이 경우 픽셀 단위 분류를 수행하여 최종 결과는 동일하지만 경로는 약간 다릅니다.

따라서 “의미 적 분할”, “장면 레이블링”및 “픽셀 단위 분류”는 기본적으로 이미지에서 각 픽셀의 역할을 의미 론적으로 이해하는 동일한 목표를 달성하려고한다고 말할 수 있습니다. 그 목표에 도달하기 위해 많은 경로를 택할 수 있으며 이러한 경로는 용어에 약간의 뉘앙스로 이어집니다.

Question 3

객체 감지, 객체 인식, 객체 분할, 이미지 분할 및 시맨틱 이미지 분할에 대한 많은 논문을 읽었으며 여기에 사실이 아닐 수있는 내 결론이 있습니다.

객체 인식 : 주어진 이미지에서 모든 객체 (제한된 객체 클래스는 데이터 세트에 따라 다름)를 감지하고 경계 상자로 지역화하고 경계 상자에 레이블을 지정해야합니다. 아래 이미지에서 최첨단 개체 인식 상태의 간단한 출력을 볼 수 있습니다.

물체 인식

객체 감지 : 객체 인식과 비슷하지만이 작업에서는 객체 경계 상자와 비 객체 경계 상자를 의미하는 두 가지 유형의 객체 분류 만 있습니다. 예를 들어 자동차 감지 : 경계 상자가있는 지정된 이미지에서 모든 자동차를 감지해야합니다.

물체 감지

객체 분할 : 객체 인식과 마찬가지로 이미지의 모든 객체를 인식하지만 출력에는 이미지의 픽셀을 분류하는이 객체가 표시되어야합니다.

개체 분할

이미지 분할 : 이미지 분할에서는 이미지의 영역을 분할합니다. 출력은 서로 일치하는 이미지의 세그먼트 및 영역에 레이블을 지정하지 않습니다. 동일한 세그먼트에 있어야합니다. 이미지에서 슈퍼 픽셀을 추출하는 것이이 작업 또는 전경-배경 분할의 예입니다.

이미지 분할

시맨틱 분할 : 시맨틱 분할에서는 각 픽셀에 객체 클래스 (Car, Person, Dog, …) 및 비 객체 (Water, Sky, Road, …)로 레이블을 지정해야합니다. 즉, 의미 론적 분할에서 이미지의 각 영역에 레이블을 지정합니다.

의미 세분화

픽셀 수준 및 픽셀 단위 레이블링은 기본적으로 이미지 분할 또는 의미 론적 분할이 동일하다고 생각합니다. 이 링크 에서 귀하의 질문에 동일하게 답변했습니다 .

Question 4

이전 답변은 정말 훌륭합니다. 몇 가지 추가 사항을 더 지적하고 싶습니다.

개체 분할

이것이 연구 커뮤니티에서 선호되지 않는 이유 중 하나는 문제가 모호하기 때문입니다. 객체 분할은 단순히 이미지에서 하나 또는 적은 수의 객체를 찾고 그 주위에 경계를 그리는 것을 의미하며, 대부분의 경우 여전히 이것이 의미한다고 가정 할 수 있습니다. 그러나 그것은 또한 개체 일 수 있는 Blob의 세분화 , 배경에서 개체의 세분화를 의미하는 데 사용되기 시작했습니다. (더 일반적으로 배경 빼기 또는 배경 분할 또는 전경 감지라고 함), 어떤 경우에는 경계 상자를 사용하여 객체 인식과 상호 교환하여 사용하기도합니다 (이는 객체 인식에 대한 심층 신경망 접근 방식의 출현으로 빠르게 중단되었지만, 사전에 객체 인식도 가능할 수 있습니다. 단순히 전체 이미지에 개체를 포함하는 레이블을 지정하는 것을 의미합니다.)

“세분화”를 “의미 적”으로 만드는 것은 무엇입니까?

Simpy, 각 세그먼트 또는 각 픽셀의 딥 메소드의 경우 카테고리에 따라 클래스 레이블이 제공됩니다. 일반적으로 분할은 일부 규칙에 따라 이미지를 분할하는 것입니다. 예를 들어, 매우 높은 수준의 Meanshift 분할은 이미지 에너지의 변화에 따라 데이터를 분할합니다. 그래프 컷기반 세분화는 유사하게 학습되지 않고 나머지 이미지와 분리 된 각 이미지의 속성에서 직접 파생됩니다. 보다 최근의 (신경망 기반) 방법은 레이블이 지정된 픽셀을 사용하여 특정 클래스와 관련된 로컬 특징을 식별 한 다음 해당 픽셀에 대해 가장 높은 신뢰도를 갖는 클래스를 기준으로 각 픽셀을 분류합니다. 이런 식으로 “픽셀 레이블링”은 실제로 작업에 대한보다 정직한 이름이며 “세분화”구성 요소가 등장합니다.

인스턴스 분할

개체 분할의 가장 어렵고 관련성이 높으며 원래 의미 인 “인스턴스 분할”은 동일한 유형인지 여부에 관계없이 장면 내의 개별 개체를 분할하는 것을 의미합니다. 그러나 이것이 그렇게 어려운 이유 중 하나는 비전 관점 (그리고 어떤면에서는 철학적 관점)에서 “객체”인스턴스를 만드는 것이 완전히 명확하지 않기 때문입니다. 신체 부위가 물체입니까? 이러한 “부분 개체”는 인스턴스 분할 알고리즘에 의해 전혀 분할되어야합니까? 전체에서 분리되어 보이는 경우에만 분할되어야합니까? 복합 물체는 두 물체가 명확하게 연결되어 있어야하지만 분리 가능한 물체는 하나 또는 두 개 여야합니다 (바위가 제대로 만들어지지 않은 경우 막대기 위에 도끼, 망치 또는 막대기와 바위 만 붙어 있습니까?). 또한 인스턴스를 구별하는 방법을 명확하게합니다. 유언장은 부착 된 다른 벽과 별개의 인스턴스입니까? 인스턴스는 어떤 순서로 계산되어야합니까? 그들이 나타나는대로? 관점에 근접? 이러한 어려움에도 불구하고, 물체의 분할은 여전히 큰 문제입니다. 인간으로서 우리는 “계급 레이블”에 관계없이 항상 물체와 상호 작용하기 때문입니다. 그래서 일부 데이터 세트는이 문제를 해결하려고 시도하지만, 아직 문제에 대해 많은 관심을 기울이지 않는 주된 이유는 충분히 정의되지 않았기 때문입니다.

장면 구문 분석 / 장면 레이블 지정

Scene Parsing은 씬 라벨링에 대한 엄격한 세분화 접근 방식으로, 자체 모호성 문제도 있습니다. 역사적으로 장면 레이블링은 전체 “장면”(이미지)을 세그먼트로 나누고 모든 클래스 레이블을 부여하는 것을 의미했습니다. 그러나 명시 적으로 분할하지 않고 이미지 영역에 클래스 레이블을 부여하는데도 사용되었습니다. 분할과 관련하여 “의미 적 분할” 은 전체 장면을 분할하는 것을 의미 하지 않습니다 . 의미 론적 세분화의 경우 알고리즘은 알고있는 객체 만 세분화하도록되어 있으며 레이블이없는 픽셀에 레이블을 지정하면 손실 함수에 의해 불이익을받습니다. 예를 들어 MS-COCO 데이터 세트는 일부 개체 만 분할되는 의미 론적 분할을위한 데이터 세트입니다.