공부 정리 ( 강의 )/딥러닝 기초 다지기

    4.2. Sequential Models - Transformer

    강의 소개 [주의!] 해당 강의는 매우 어려울 수 있습니다. 이번 강의에서는 지난 강의에서 배운 Sequential model의 한계점과 이를 해결 하기 위해 등장한 Transformer에 대해 배웁니다. Transformer는 Encoder와 Decoder로 구성되어있지만 강의에서는 Encoder와 Multi Head Attention 에 대해 좀 더 집중적으로 배웁니다. * 강의에서 Multi-head attention과 Multi-headed attention 은 동일한 의미입니다! ######### 강의를 듣기에 앞서 벌써부터 어렵다고 경고를 준다. 조금 긴장되지만 주된 자연어 처리의 모델인 만큼 한번 빡세게 보도록 하겠다!! ######### Transformer는 이전 강의에서 배운 RNN 과..

    4.1. Sequential Models - RNN

    > Sequential Models 시퀀셜 모델을 처리하는데 있어 가장 어려운 점? 우리가 얻고싶은건 하나의 라벨인 경우가 많음. 내가 하는 말이 무엇이다. 라는걸 라벨하려는건데. 그러나 Sequential Models은 정의상 데이터의 길이가 언제 끝날지 모름. 그래서 받아 들여야할 입력의 차원의 수를 알수가 없음. → 즉 몇개의 입력이 들어오든 동작할 수 있어야함. 기본적 시퀀설 모델은 입력이 여러개 들어왔을때 다음번 들어올 입력을 예측하는것. 과거에 들어왔던 입력을 고려할게 서서히 늘어남. - 과거에 몇개의 입력만 보는거 = Fix the past timespan 가장 쉬운 모델이 Markov model (first-order autoregressive model) 가장 큰 특징 : 내가 가정을 하..

    3.3. Computer Vision Applications

    > Semantic segmentation 어떤 이미지가 있을 때 어떤 픽셀마다 어떤 라벨에 속하는지 분류하는것. . Fully Convolutional Network란 덴스 레이어를없애고 싶은거. 우리가 아웃풋이 1000단짜리가 나오면 1000단짜리가 아니라 convolution layer로 바꾸자는 거임. 이 덴스 레이어를 없애는 과정을 콘볼루션라이제이션 이라 부르고 이거의 가장 큰 장점은 덴스 레이어가 없어진것. 궁극적으로 보면 인풋과 아웃풋이 동일함. 왜 이런 짓을 할까? - Fully Convolutional Network는 인풋에 상관없이 돌아간다. 아웃풋이 커지게 되면 그에따라 뒷단 네트워크가 커지게 된다. 원래는 분류만 했던것이 이미지가 커지면 히트맵이 나올 수있음.!! Transformi..

    3.2. Modern CNN - 1x1 convolution의 중요성

    강의 소개 ILSVRC라는 Visual Recognition Challenge와 대회에서 수상을 했던 5개 Network 들의 주요 아이디어와 구조에 대해 배웁니다. Network list AlexNet 최초로 Deep Learning을 이용하여 ILSVRC에서 수상. VGGNet 3x3 Convolution을 이용하여 Receptive field는 유지하면서 더 깊은 네트워크를 구성. Receptive field 참고 자료 GoogLeNet Inception blocks 을 제안. ResNet Residual connection(Skip connection)이라는 구조를 제안. h(x) = f(x) + x 의 구조 DenseNet Resnet과 비슷한 아이디어지만 Addition이 아닌 Concaten..

    3.1. CNN - Convolution은 무엇인가?

    # 9분 Stride = 매 픽셀마다 필터를 옮기는 것 padding # 13: 50 파라미터 숫자 계산하기 3x3 필터로 128개의 채널을 하면 1개가 나오므로 이 필터가 64개 필요함! 깊이는 깊어지며 파라미터 수는 감소되며 학습은 더 잘하게되어감!! 추세따라 1x1 Convolution ★ 꼭 알아둘것 왜함? 채널 줄이기 컨볼루션 깊이를 늘리면서 파라미터수를 줄임! 대표적 : bottleneck architecture

    2.3. Regularization - 오버피팅 막기 # 나중필요

    1. Early Stopping 오버피팅전에 일찍 멈추기 ( val error 높아지기 전에 ) 2. Parameter Norm Penalty 3. Data augmentation 4. Noise robustness 5. Label smoothing 6. Dropout 7. Batch normalization

    2.2. Gradient Descent Methods # 여기서부터 개념 잡고 들었음.

    > Gradient Descent Methods 3가지가 있습니다. - Stochastic gradient descent = Update with the gradient computed from a single sample. 확률적 경사 하강법 - Mini-batch gradient descent = Update with the gradient computed from a subset of data. 미니배치 경사 하강법 - Batch gradient descent = Update with the gradient computed from the whole data. 배치 경사하강 > Batch-size Matters 1. Gradient descent W(new) = W + 러닝레이트*기울기 러닝레이트 ..

    2.1. 최적화의 주요 용어 이해 (Optimization)

    > Gradient Descent First-order iterative optimization algorithm for finding a local minimum of a differentiable function. 1차 미분 값만 사용하게 되고, 계속 반복적으로 최적화 시키고, 로컬 미니넘으로 간다. > Important Concepts in Optimization - Generalization How well the learned model will behave on unseen data. 일반화 성능을 높이는게 우리의 목적. 일반적으로 학습을 시키게 되면, 트레이닝에러는 줄지만, 테스트 에러는 오히려 늘어남. 이 네트워크의 성능이 학습데이터와 비슷하게 나올 것이다. >> Generalization..