deep learning 3

SeqGan 논문 겉햝기

SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient Lantao Yu†, Weinan Zhang†, Jun Wang‡, Yong Yu††Shanghai Jiao Tong University, ‡University College London{yulantao,wnzhang,yyu}@apex.sjtu.edu.cn, j.wang@cs.ucl.ac.ukWeinan Zhang is the corresponding author. 초록 생성 모델의 새로운 개념으로 discriminator와 generator 의 개념을 사용하는 GAN이 탄생했다. 그리고 이는 real-valued data를 생성하는 데에 있어 상당한 성공을 했다. 그런데 이는 discr..

deep learning 2023.09.26

loss landscape에 대해 내가 이해한것

*제가 공부하고 이해한대로 적은 글입니다. 틀린부분이 매우 높은 확률로 있을 수 있습니다.* *지적은 정말 환영입니다.* loss landscape또는 loss surface라 하는 것은 말그대로 loss의 표면을 보여주는 것을 말합니다. deep learning에는 local optimum이라는 문제점이 있습니다. local optimum이 뭐냐면 현재 loss를 땅 위에서 구르는 공이라 생각해봅시다. 땅 에는 뭉툭한/뾰족한, 얕은/깊은 구덩이들이 있습니다. 저희는 이 공이 뭉툳하고 깊은 구덩이로 가길 원합니다. (high generalization, low loss) 하지만 이 공이 얕거나 뾰족한 무튼 저희가 가장 바라는 구덩이가 아닌 다른 구덩이에 빠져버리는걸 local optimum이라 합니다. ..

deep learning 2023.08.17

transformer 논문리뷰

최근 chatgpt가 나오며 떠들썩하던데 그런 chatgpt의 model architecture인 transformer에 대해 알아봅시다. 먼저 andrew ng님의 연구 논문 읽는 법에 대해 알아보고 갑시다. 한 글자 한 글자 다 읽는 것은 최악의 전략이다. 제목, 초록, 도표를 읽어라. 특히 딥러닝 분야에선 대부분 도표에 논문이 요약되어 있는 경우가 많다. 그다음 서론과 결론 도표를 다시 봐라. 그다음 논문을 위부터 아래로 쭉 읽어라 하지만 수식은 패스, 또 중요하지 않은 것 같은 부분도 패스 저자가 뭘 하려는지 생각해라 해당 논문의 접근법의 핵심이 뭔지 생각해라 너가 해당 논문에 나온 걸 어떻게 사용할 수 있는지 생각해라 다른 어떤 논문을 더 읽어볼지 생각해라 이제 본격적으로 논문을 읽어봅시다. t..

deep learning 2023.01.27