EM algorithm(PRML/cs229)

Pattern Recognition and Machine Learning 책과 웹의 여러 소스에서 EM 부분을 정리. 그리고 앤드류응 교수님이 cs229에서 설명해주신 친절한 직관도 같이 정리했다. 이 직관적 설명이 참 좋다. E step이 constructing lower bound / M step이 optimizing lower bound라는 것. 내 직관을 좀 더해보자면, stochastic gradient descent와 비교해서 바라보자면, constructing lower bound부분이 어떤 지점에서의 방향을 설정하고(SGD에서 미분값),… Continue reading EM algorithm(PRML/cs229)

Restricted Boltzmann Machine

Energy-based unsupervised-learning model 이라고 할 수 있는 RBM에 대한 내용 정리. Hidden layer와 Observation의 관계를 물리학에서 가져온 Energy-based로 설정하여 Energy(러프하게 additional necessary information정도?..)를 낮추는 방향으로 확률을 높이는 방향으로 학습을 시킨다.   Somewhat HMM과 비슷한 개념으로 latent layer를 두지만 Markov assumption같은 것을 두지는 않고 철저히 latent feature와 observation과의 관계만을 통해서 generative 모델을 설정한다. 큰 그림을 보자면,… Continue reading Restricted Boltzmann Machine

Variational Bayes Inference

A tutorial on VBI라는 강의자료를 토대로 정리한 내용. http://www.orchid.ac.uk/eprints/40/1/fox_vbtut.pdf   1_ introduction Variational Bayes is a particular variational method which aims : to find some approximate joint distribution Q(x;θ) over hidden variables x to approximate the true joint P(x), and defines ‘closeness’ as the KL divergence KL[Q(x;θ)||P(x)].   The mean-field form of VB assumes :… Continue reading Variational Bayes Inference

GMM (from PRML/cs229)

고통속에 열심히 보곤 했던 PRML 책에서 GMM부분을 정리해보았다.. GMM과 K-means의 차이점을 명확히 이해하면 얼추 GMM을 개념적으로 정리했다고 볼 수 있다. 조금더 직관을 더하기 위해 응교수님이 cs229에서 GMM에 대한 EM 알고리즘을 친절하게 설명해주신 부분을 추가한다.

Sampling-based models

카이스트 문일철 교수님 강의를 토대로 정리한 샘플링 기반 approximate inference 기법들. 정리하고 나니 무려 21페이지.. 가장 단순한 샘플링부터 시작해서 흐름을 따라서 Gibbs sampling까지 도달한다. 게다가 LDA를 collapsed Gibbs sampling으로 푸는 예제까지 정리하고 나면 대단원의 막을 내린다.(..) (참고로, 문교수님은 LDA의 optimization은 원래는 Gibbs sampling으로 풀지 않는다고 하셨지만, David Blei 강의에서도 collapsed Gibbs sampling이 언급된다.) 자, 떠나보자!

Gibbs sampling

깁스 샘플링의 개념에 관해 웹의 여러곳에서 intuition 및 적용 예시를 가져와서 합쳐보았다. 애초 이 방식이 도출된 흐름과 수식 derivation은 카이스트 문일철 교수님 강의를 토대로 연습장에 정리했던  Sampling-based model 정리 포스팅에서 자세한 내용을 볼 수 있다. 카하. 하지만 큰 그림과 직관은 이곳 정리가 꽤나 괜찮다 후훗.   explanation part 1/2 Let p(X1, . . . , Xn|e1,… Continue reading Gibbs sampling

Cross-entropy/softmax 정리

_cross-entropy cost function   Big picture in a nutshell (svm & cross-entropy loss) : 주의해서 봐야할 점은 weight matrix인데, 각 레이블에 대응하는 weight가 따로따로 있다. (그러므로 feature 갯수 by label class 갯수인 테이블이 된다.)   이 말은 각 샘플마다 (x0, x1, x2) 자기에게 맞는 클래스가 있을텐데 이를 제외한 클래스를 향하는 weight 값을 사용해서 얻은 loss를… Continue reading Cross-entropy/softmax 정리