medical image & AI
Pattern recognition and Machine learning - Bayesian decision theory(1) 본문
Pattern recognition and Machine learning - Bayesian decision theory(1)
hyunwooLee 2020. 6. 19. 18:09- Bayesian decision theory
- Bayesian decision theory?
* 통계적으로 패턴인식을 수행할 때에 가장 기본이되는 이론
* probability and costs를 이용한 이론이다. 이때, 한쪽이 좋아지면 다른 한쪽은 나빠지는 tradeoffs에 대하여 정량화하는데에 기반이되는 이론이라고 할 수 있다.
* tradeoffs 라는 개념을 생각할 때에 cost와 연관지어서 생각한다. 예를들어 A를 B라고 잘못 판단할 때의 cost와 B를 A 라고 잘못 판단할 때의 cost는 서로 다르다. 이 사이의 tradeoff를 생각해야 한다.
- Basic concepts
- Fish problem (Example)
- State of nature (이벤트 or 집합) : w = w1 for sea bass, w = w2 for salmon
- A priori probability (사전확률) : P(w1), P(w2) --> domain knowledge와 경험에서 만들어진 확률이다. 만약 바다에서 sea bass와 salmon 밖에 잡히지 않는다고 가정한다면, P(w1) + P(w2) = 1
- Class-conditional probability density function (확률밀도함수), likelihood function : p(x|w1), p(x|w2) --> 특정한 집합에서 어떠한 measurement vector가 얼마만큼의 확률을 가지고있는지...
- Class-conditional pdf


* histogram을 굉장히 촘촘하게 그리면 class conditional pdf에 대한 근사적인 값을 얻는다
-
Decision rule : 패턴인식을 수행할 때 가장 중요한 도구
- 사전확률(priori probabilities)만 알고있다고 가정하였을 때 : 만약 P(w1)>P(w2) 일 때 w1라고 결정할 수 있다.
- 하지만 이렇게 사전확률만 보고 decision하는 경우는 유용하지 않다.
- measurement를 거치고 decision rule을 세우는 것이 유용하다. 예를들어 어떠한 input에 대하여 measurement를 하고 어떤 값이 나왔다. 그 값을보고 조건부확률 식을 세워 decision rule을 세울 수 있는 것이다. (ex : p(w1|x) > p(w2|x) 일 때에 w1를 결정)
- 하지만... 우리가 알고있는 값들은 P(w1), P(w2), p(x|w1), p(x|w2) 이다. 여기서 p(x|w1),p(x|w2)가 의미하는 바는 인풋 x를 w1또는 w2라고 가정하였을 때 만들 수 있는 x의 조건부확률밀도함수이다.
- Bayes theorem

* 여기서 알 수 있는 사실은 서로다른 조건을 교환하여 표현할 수 있다는 것이다.
* 따라서 위에서의 p(w1|x) 를 p(x|w1)로 교환시킬 수 있다.
- Bayes decision rule : when we know the likelihood functions

* Bayes theorem을 이용하여 다음과 같이 decision rule을 만들 수 있게된다.
* 사전확률을 이용하여 우리가 구하고자 하는 식을 세울 수 있다.
- Bayesian decision theory - in general, (일반적으로 bayesian decision theory는?)
* 둘 이상의 feature들이 있다.
* 셋 이상의 classes 가 있다. (more than two state of nature)
* 단순히 state of nature(class)를 결정하는 것이 아니라, 만약 틀린 결정을 하였을 때 얼마만큼의 loss를 가지고있는지, loss fucntion을 만들 수 있다.
- More than two states of nature(2개보다 많은 class)

* class가 여러개일 경우에 p(x)는 보이는 것과 같이 조건부확률에 각 class확률을 곱해서 더하는 것으로 input에 대한 전체 확률을 구할 수 있는 것이다.
- loss function
* loss 라는 것은 classification에서 오류가 생겼을 때 그에따라 얼마만큼의 대가를 치뤄야 하느냐 이다. cost의 개념

* Expected loss(R) 에 대한 이론적인 수식이다. 어떠한 인풋에 대하여 특정한 action을 취했을 때의 리스크이다.
* 람다가 의미하는 바는, 특정한 class에 속했다고 가정했을 때에 특정 action에 대한 risk이다. 그 옆에 posterior probability(사후확률)이 곱해짐으로써 input에 대한 특성이 들어간다.
- Decision rule
* Overall risk를 최소화 할 수 있는 decision을 하는 것이 목표이다.
* 이때, overall risk는 다음과 같이 표현될 수 있다.

* 위 식이 의미하는 바는 모든 input에 대하여 특정한 action(사용자 선택)에 대한 risk이다.
* 여기서 알파(x)가 의미하는 바는, 특정 input에 대한 action(고정)이다.
* 우리는
식을 이용하여 특정 input에 대하여 최소의 loss가 되는 action을 선택한다.

- Bayesian decision: two-class classification problem
* Bayesian decision rule에 대하여 본격적으로 알아보자.
* 먼저, "bayesian classifier"는 total average(overall) risk를 최소화 하도록 하는 classifier이다.
* 만약 두가지의 class가 있다고 가정한다면, action도 2가지이다. input에 대한 각 action의 risk는, 아래와 같은 식으로 나타낼 수 있다. 이는 위의 식에서 서메이션을 풀어쓴 형태로 설명할 수 있다.

* decision rule은 결과적으로 이 두 risk를 비교함으로써 얻어진다.

* 여기서 P(w1|x)과 P(w2|x)는 posterior probability(사후확률)이기 때문에 앞서 언급된 bayesian theorem을 이용하여 우리가 알고있는 사전확률 식으로 바꾸도록 한다.

* 또한

이 조건을 만족하면 class w1에 속한다고 판단한다.
- Bayesian decision rule [Bayesian classifier]

* Bayesian classifier가 작동하는 전체적인 과정이다.
1. input pattern이 들어오면 이를 각 class에 대한 조건부확률밀도함수로 만든다.
2. 조건부확률밀도함수와 각 class에 대한 사전확률을 이용하여 우리가 구하고자하는 posterior probability를 각 class마다 구한다.
3. 모든 값을 비교하여 가장 큰 값을 가지고있는 class를 선택한다.
앞서 loss에 대한 설명을 실컷 했는데 막상 마무리에 loss에 대한게 없네??..