(Pix2Pix) Image-to-image Translation with Conditional Adversarial Networks

  Image-to-image Translation with Conditional Adversarial Networks 논문 정리 :  https://arxiv.org/abs/1611.07004   목적: Conditional adversarial network를 image-to-image translation의 general-purpose solution으로 사용해보는 것. input image ⇒ output image의 맵핑 이 맵핑을 train하는데 필요한 loss function 자체를 학습 이 모델은 label map에서 photo synthesis edge map에서 object reconstruct colorizing image 문제들에 효과적이었음을 보였다. Mapping function을 더이상 hand-engineer하지 않고,… Continue reading (Pix2Pix) Image-to-image Translation with Conditional Adversarial Networks

Downbeat tracking using beat-synchronous features and RNN

ISMIR 2016 proceedings : Downbeat tracking using beat-synchronous features and RNN 논문 정리 http://www.cp.jku.at/research/papers/Krebs_etal_ISMIR_2016.pdf Downbeat를 찾아낸다는 것은 음악 hierarchy의 제일 기본을 찾아내는 일.   _개요 Beat-synchronous(타임 도메인에서 비트에 싱크가 맞추어진) 오디오 feature로부터 downbeat들의 위치를 찾아내는 시스템. 시그널의 여러 frequency들에서의 rhythmic content에 대한 sequential model(RNN)과 harmonic content에 대한 sequential model(RNN)에서의 activation 아웃풋들을 합친 후, dynamic Bayesian network로… Continue reading Downbeat tracking using beat-synchronous features and RNN

GAN tutorial 2016 정리(1)

GAN tutorial 2016 내용 정리. https://arxiv.org/abs/1701.00160 GAN tutorial 2017 (https://nips.cc/Conferences/2016/Schedule?showEvent=6202) 이 나온 마당에 이걸 정리해본다(..) _소개. Generative model들중 어떤 아이들은 density estimation을 통해 generate한다. (like variational inference autoencoder) 어떤 data-generating distribution(p_data)에서 트레이닝 데이터를 샘플링한 후, distribution의 estimation을 계산하는 것. 그니까 true(optimal한) density가 되기 원하는 p_model(x)를 estimate한다는 이야기. 예를 들어, 실제 이미지들을 가지고 학습한다면, 그 이미지들을 fit하도록… Continue reading GAN tutorial 2016 정리(1)

WaveNet/NSynth : deep audio generative models

WaveNet 논문과 WaveNet-style autoencoder를 사용하는 NSynth에 관한 정리. (NSynth는 따로 포스팅을 통해 자세히 작성할 것.)   _WaveNet Website : https://deepmind.com/blog/wavenet-generative-model-raw-audio/ Paper : https://arxiv.org/pdf/1609.03499.pdf   _NSynth Website : https://magenta.tensorflow.org/nsynth Paper : https://arxiv.org/abs/1704.01279   (* 베이스라인 모델과의 비교등을 통한 결과값 내용은 논문 참조.)   (* NSynth에 대한 자세한 내용은 따로 포스팅예정.)

ByteNet – Neural machine translation in linear time 논문번역(updated)

ByteNet model from DeepMind's paper Neural Machine Translation in Linear Time. (Neural architecture for sequence processing)   ByteNet은 두개의 CNN을 쌓은 것이다. (인코더/디코더) 하나는 source sequence를 인코딩하고 , 하나는 디코딩하여 target sequence를 만들어낸다. 다양한 길이의 아웃풋을 생성하기 위해서 Target network는 동적으로 ‘펼쳐진다.’ (dynamically unfolded over the representation from 인코더) ByteNet은 conv 레이어에 dilation 이라는 방법을… Continue reading ByteNet – Neural machine translation in linear time 논문번역(updated)

Dance Dance Convolution 구현 부분

https://arxiv.org/abs/1703.06891 특정 음악 audio data에서 feature를 뽑아낸 후, 이에 어울리도록 Dance Dance Revolution의 step악보를 생성하는 모델. (구현부분만 살짝 정리해서 실제로 돌려보고자 한다.)       크게 2가지의 작업으로 나누어서 수행했다.   1) Step placement : deciding when to place steps RNN + CNN -> ingest spectrograms of low-level audio features   2) Step selection :… Continue reading Dance Dance Convolution 구현 부분

Unsupervised representation learning with DCGAN (2016) : 논문 리뷰

  Supervised learning 문제에서 매우 효과적이었던 CNN을 이용해서  unsupervised learning을 진행해보려 했다. 우리는 Deep convolutional adversarial pair가 이미지에서 오브젝트의 작은 부분에서 scene전체에 이르는 hierarchy를 학습했다는 것을 보였다. 또한 우리는 이렇게 학습한 feature를 새로운 task에 적용해봄으로써, general한  image representation이 될 수 있음을 보였다.   1_ Introduction  Convolutional GAN의 architectural topology에 constraint를 설정하고 평가한다. (이 constraint들은 학습을 stable하게… Continue reading Unsupervised representation learning with DCGAN (2016) : 논문 리뷰

Composing music with recurrent neural netwroks(번역)

원문: https://github.com/hexahedria/biaxial-rnn-music-composition           Reccurent Neural Networks   지금까지 배운 neural network는 feedforward network, 즉, input이 들어오면 한 방향으로 output을 내는 구조이다. (정보가 한 방향으로만 흐른다.) Recurrent neural network는 hidden layer의 각 layer 마다 얻은 output을 다음 layer의 추가적인 input으로 집어 넣는 것이다. Hidden layer의 각 노드들은, 바로 전 레이어의 output 뿐만… Continue reading Composing music with recurrent neural netwroks(번역)