- Counting
- maths
- Discrete
- probability theory
- math
- Dim
- Computer science
- CP
- sinchon icpc
- probability
- 패스트캠퍼스 #포트폴리오 #직장인자기계발 #환급챌린지 #포트폴리오챌린지 #패스트캠퍼스후기 #초격차패키지 #오공완
- cs-theory
- laplace
- Axis
- randn
- #패스트캠퍼스 #패캠챌린지 #수강료0원챌린지 #패캠챌린지 #직장인인강 #직장인자기계발 #패캠인강후기 #패스트캠퍼스후기 #환급챌린지 #본인이선택한강의명
- SUAPC
- dims
- pytorch
- argmax
목록전체 글 (39)
Piico의 일상

오늘 공부한 내용은 Ch. 7-5, 7-6입니다: - Ch.7-5 Batch normalization 실습 - Ch.7-6 The Loss Landscapes Problem Batch normalization에 대해선 벌써 많이 이야기했으니 실습을 바로 해봅시다. 1. Batch normalization 실습... 과연 어떻게 우리가 배운 내용들을 발견했는가? 실습내용은 왼쪽 노트에 기제 했습니다. BN ReLU화 vanilla ReLU는 차이가 거의 없고 둘 다 vanishing gradient문제를 "해결" 한다. BN Sigmoid 또한 효과가 좋다. 하지만 Sigmoid는 loss과 accuracy의 선이 뒤집힐 정도로 random guess인 수준이다. 알고리즘을 공부할 땐 중간에 array도 ..

오늘 공부한 내용은 Ch. 7-4입니다: - Ch. 7-4 Batch normalization, 직관적으로 이해하기 딥러닝 면접에 오신 걸 환영합니다. 자, 첫 번째 문제 나갑니다... MLP model을 돌리는데 weights and biases의 변동이 거의 없고 gradient도 바닥을 기어 다니고 있습니다. Training loss도 역시 안 좋습니다. 이 현상을 뭐라 부르나요? 이 현상에 대한 해결책도 말씀해 주세요. 7-1, 7-2, 7-3 이 현상은 Vanishing gradient입니다. Vanishing gradient의 증상 중 parameters (특히 앞쪽)의 update가 둔해지고 gradient도 작습니다 (gradient가 적으면 parameter도 update가 많을 수 없음..

오늘 공부한 내용은 Ch.7-3입니다, vanishing gradients의 실습. 어제는 Ch 7-1, 7-2를 통해 the vanishing gradient problem과 possible improvements to eliminate vanishing gradients도 배웠습니다. 오늘은 실습을 통해 어제 배운 부분에 대해 확인을 할 수 있었습니다. 1. Vanishing gradients review Vanishing gradients는 backpropagation때 gradient descent에서 어떻게 보면 제일 중요한 초기 weights and biases까지 영향력이 없다는 문제가 있는데요... 이는 작은 gradients를 많이 많이 multiply 하기 때문에 일어나는 문제입니다. ..

오늘 공부한 내용은 Ch.6-3, 7-1, 7-2입니다: - Ch. 6-3 Beautiful insights for ANN - Ch. 7-1 Vanishing gradients - Ch. 7-2 Vanishing gradients 해결 방안 - ReLU Chapter 6을 통해 우리는 인공신경망의 한계를 알아보았습니다. Universal approximation theorem을 통해 사실상 한계가 없다는 것을 알게 되었고 그 증명도 적당히 이해를 했습니다. 물론 이 증명과 성능과 효율을 높이는 데에는 완전 별개였죠? Unit step function은 애초에 미분도 불가능해서 실습 때에는 sigmoid로 대체했습니다. 그리고 실습수업에서 layer수와 node수의 trade-off를 봤습니다. 하지만 7..

오늘 공부한 내용은 Ch.6-1, 6-2입니다. Ch 6-1은 이론파트고 6-2는 실습 파트입니다. - Universal Approximation Theorem - 왜 우리는 weights and biases구조를 쓰는가요? - 왜 DNN을 쓰는가요? - Input이 하나 이상이여도 Universal approximation theorem이 적용되나요? Universal approximation theorem은 인공신경망의 한계가 없다는 이론적인 증명입니다. 이게 무슨 뜻이냐면 hidden layer가 한 층만 있어도 인공신경망은 모든 input에 대한 fitting이 가능 하다는 뜻입니다. 여기서 theoretically perfect fitting이란 function을 완벽하게 추측을 할 수 있는 것..

오늘 공부한 내용은 Ch.1-21, 정보 이론 기초입니다: - Bits? Source-coding? Entropy? - Cross-entropy, KL-divergence and mutual information 드디어 수학 파트를 마무리하는 날이 오는군요. 강의를 듣기 전에는 수학을 이렇게 까지 알아야 할까 라는 생각을 많이 했지만 사실 몰라도 되지만 그렇게 되면 뒤에 가서 복잡한 문제를 풀어야 할 때 자기만의 독창적인 답안을 못 찾을 수도 있습니다. 딥러닝 같은 경우는 하도 많은 분야의 수학에서 끌어 오기도 하지만 수학과 딥러닝의 기술적인 부분을 연동시키지 않으면 새로운 개발을 하려 해도 그 근본인 수학을 알고 있지 않기 때문에 변형되고 최적화한 답안을 찾는데에 많은 고난을 겪을 수 있습니다. 그래서..
오늘 공부한 내용은 Ch. 5-4, 5-5입니다: - Bernoulli & Gaussian분포 그들의 MLE 어떻게 되나? - NLL (negative log likelihood)란? - Softmax를 이용한 다중분류 지금 까지 배운 수학 파트를 드디어 활용하는 인공신경망 속의 MLE을 공부해 보겠습니다. 이번에는 Gaussian, Bernoulli, Multinoulli에 대해서 알아보고 차이다 알아볼 것입니다. Negative log likelihood의 정의도 알아보겠습니다. 마지막으로 Softmax를 배우는 부분에서 cross entropy가 나오는데 그 부분은 내일 공부해 보겠습니다. 1. Bernoulli & Gaussian분포 그들의 MLE어떻게 되나? Gaussian, 또는 normal ..