Dance Dance Convolution 구현 부분

https://arxiv.org/abs/1703.06891 : 특정 음악 audio data에서 feature를 뽑아낸 후, 이에 어울리도록 Dance Dance Revolution의 step악보를 생성하는 모델. (구현부분만 살짝 정리해서 실제로 돌려보고자 한다.)       크게 2가지의 작업으로 나누어서 수행했다.   1) Step placement : deciding when to place steps RNN + CNN -> ingest spectrograms of low-level audio features   2) Step selection… Continue reading Dance Dance Convolution 구현 부분

Unsupervised representation learning with DCGAN (2016) : 논문 리뷰

  Supervised learning 문제에서 매우 효과적이었던 CNN을 이용해서  unsupervised learning을 진행해보려 했다. 우리는 Deep convolutional adversarial pair가 이미지에서 오브젝트의 작은 부분에서 scene전체에 이르는 hierarchy를 학습했다는 것을 보였다. 또한 우리는 이렇게 학습한 feature를 새로운 task에 적용해봄으로써, general한  image representation이 될 수 있음을 보였다.   1_ Introduction  Convolutional GAN의 architectural topology에 constraint를 설정하고 평가한다. (이 constraint들은 학습을 stable하게… Continue reading Unsupervised representation learning with DCGAN (2016) : 논문 리뷰

CrayonGrad

딥러닝 복습 겸 듣고 있는 강의 과제로 제출한 custom gradient descent method. Just a small idea... 깃헙에 간단히 SGD/Adagrad/Adam/Momentum/Nesterov/RMSProp/CrayonGrad을 비교 구현해놓았다. https://github.com/kunimi00/CrayonGrad/blob/master/CrayonGrad.ipynb   CrayonGrad Our object : deal wisely with unpredictable sizes of descending steps for all dimensions’ gradients to predict the most suitable direction to the (local) optima. Mostly, problem happens during the beginning… Continue reading CrayonGrad

Composing music with recurrent neural netwroks(번역)

원문: https://github.com/hexahedria/biaxial-rnn-music-composition           Reccurent Neural Networks   지금까지 배운 neural network는 feedforward network, 즉, input이 들어오면 한 방향으로 output을 내는 구조이다. (정보가 한 방향으로만 흐른다.) Recurrent neural network는 hidden layer의 각 layer 마다 얻은 output을 다음 layer의 추가적인 input으로 집어 넣는 것이다. Hidden layer의 각 노드들은, 바로 전 레이어의 output 뿐만… Continue reading Composing music with recurrent neural netwroks(번역)

ByteNet – Neural machine translation in linear time

Byte-net model from DeepMind's paper Neural Machine Translation in Linear Time. (Neural architecture for sequence processing) ByteNet은 두개의 CNN을 쌓은 것이다. 하나는 source sequence를 인코딩하고 하나는 디코딩하여 target sequence를 만들어낸다. Target network는 동적으로 ‘펼쳐진다.’ 다양한 길이의 아웃풋을 생성하기 위해서. ByteNet은 두가지 중요한 성질을 지닌다. - 수행시간이 시퀀스 길이에 대해 리니어 타임으로 증가하고, 시퀀스의 시간 해상도를… Continue reading ByteNet – Neural machine translation in linear time

Cross-entropy/softmax 정리

cross-entropy cost function   Big picture in a nutshell (svm vs cross-entropy loss) : 주의해서 봐야할 점은 weight matrix인데, 각 레이블에 대응하는 weight가 따로따로 있다. (그러므로 feature 갯수 by label class 갯수인 테이블이 된다.) 이 말은 각 샘플마다 (x0, x1, x2) 자기에게 맞는 클래스가 있을텐데 이를 제외한 클래스를 향하는 weight 값을 사용해서 얻은 loss를 구하고… Continue reading Cross-entropy/softmax 정리

Review on paper: Vggnet

그동안 네트워크를 디자인할 때 다양한 size의 filter를 적용하기는 했지만 Vggnet에서는 이것을 3x3 filter를 쌓는 방식의 hierarchy로 구축했다는 것이 핵심. 이전 레이어에서 좁게 본 결과를 조금씩 넓게 보는 식으로 구조를 잡았다는 게 중요 포인트 정도 같다. (참고로 ResNet은 아예 레이어를 100개 이상 쌓아버리는데 그것이 가능하도록 네트워크에 identity mapping을 한 것이 핵심이라고 할 수 있다. (original 이미지를… Continue reading Review on paper: Vggnet

DeepHear정리2/2

Harmonizing melodies with constrained prior sampling 원문 : http://126kr.com/article/8eonheg4pqd   우리는 이 neural net이 실제로 어떤 음악적 구조를 배웠다는 것을 보여주고 싶다. (화성, 리듬, 코드 진행) 이를 위한 한가지 방법은 뉴럴넷으로 하여금 학습되지 않은 새로운 문제를 풀도록 하는 것이다. : 멜로디가 주어졌을 때 harmonize하는 것. 이것이 가능하다면 우리 뉴럴넷이 음악의 실제 패턴을 encode한다는 것을 의미하며, 다른 음악적… Continue reading DeepHear정리2/2