본문 바로가기

ML engineer/DL(Deep Learing)5

[DL] 비선형 활성화 함수, 과적합, 최적화 목차 1. 비선형 활성화 함수와 필요성 2. 과대적합(overfitting) 과 과소적합(underfitting) 1. 비선형 활성화 함수와 필요성 (1) 활성화 함수 앞선 파트에서 지속적으로 등장했던 딥러닝에서 중요한 활성함수에 대해 정리하고자 한다. 활성함수는 선형 함수와 다른 비선형함수라는 것이 가장 중요한 특징이다. 이러한 비선형함수를 사용하는 이유는 바로 선형이 아닌 분포에 대해 구분하고자 함이다. 만약 활성화 함수마저 선형함수가 되면 문제는 z = WX+b, activation(z)와 같이 활성 함수를 합성함수의 형태로 사용하게 되는데 활성함수가 선형함수라면 $f(f(f(z))) = w(w)(wx)$ 와 같은 형태로 $out = w^{3}x$와 같은 결과적으로 선형함수의 형태로 나오게 된다. .. 2023. 5. 13.
[DL] 퍼셉트론과 역전파 목차 1. 단일 퍼셉트론(Single-Layer Perceptron) 2. 다층 퍼셉트론(Multi-Layer Perceptron, MLP) 3. 역전파 알고리즘(Backpropagation) 1. 단일 퍼셉트론(Single-Layer Perceptron) 1.1 단일 퍼셉트론 개념 및 구조 퍼셉트론은 뇌를 구성하는 신경 세포 뉴런의 동작을 기반해서 블라블라.. 는 흔한이야기 이다. 이 내용은 대충 건너뛰고 퍼셉트론의 구조와 개념에 대해 이야기 해보자 퍼셉트론은 다수의 입력을 받아 노드(뉴런)에 보내지는 경우 각각 고유한 가중치(Weight)가 곱해지게 된다. 이때 가중치가 클수록 해당 신호가 그만큼 더 중요함을 의미한다. $w_{1}x_{1} + w_{2}x_{2} +... +w_{n}x_{n}$ 이 .. 2023. 5. 9.
[DL] 소프트맥스 회귀 목차 1. 원-핫 인코딩(One-Hot Encoding) 2. 소프트 맥스 회귀(Softmax Regression)란? 3. 비용 함수(Cost function) 4. 소프트맥스 회귀와 딥러닝 1. 원-핫 인코딩(One-Hot Encoding) (1) 원-핫 인코딩(One-Hot Encoding)이란? 선택해야 하는 선택지의 개수만큼 차원을 가지면서, 각 선택지의 인덱스에 해당하는 원소에 1, 나머지는 0의 값을 가지도록 하는 방법이다. 예를 들어, 4개의 클래스가 있을 때 원-핫 인코딩 방식은 아래와 같다. 클래스 0: [1, 0, 0, 0] 클래스 1: [0, 1, 0, 0] 클래스 2: [0, 0, 1, 0] 클래스 3: [0, 0, 0, 1] 선택지는 4개 이므로 벡터들은 모두 4차원의 벡터가 되.. 2023. 5. 7.
[DL] 로지스틱 회귀(Logistic Regression) 목차 1. 로지스틱 회귀란? 2. 활성화 함수(actication function)의 등장 3. 비용함수(cost function) 4. 모델 평가 1. 로지스틱 회귀란? 로지스틱 회귀(Logistic Regression, 이하 LR)은 이진 분류(binary classification) 문제를 해결하기 위한 통계적 모델링 기법이다. 즉, 이 메일이 spam or ham 을 확인하거나, 시험을 봤는데 pass or non-pass 를 결정하는 이진분류를 해결하기 위한 대표적인 알고리즘이 로지스틱 회귀(LR)이다. (알고리즘의 이름은 회귀(regression) 이지만, 분류(classification)에 사용할 수 있다.) 공부시간에 대한 점 Pass/Fail 을 고려해보자. x1(hours) y(scor.. 2023. 5. 3.
[DL] 합성곱 신경망(CNN) CNN (이미지 분류) 1. CNN 이란 CNN(합성곱 신경망) 동물의 시각 피질 안의 신경세포(뉴런)들은 일정 범위 안의 자극에만 활성화 되는 ‘근접 수용 영역’(local receptive field)을 가지며 이 수용 영역들이 서로 겹쳐져 전체 시야를 이룬 다는 것에 착안하여 특정 국소 영역에 속하는 노드들의 연결로 이루어진 획기적인 인공신경망을 고안 하였다. 이것이 바로 합성곱 신경면(Convolutinal Neural Network, CNN) 이다. CNN은 1) ‘필터링’(특성추출단계) 과 2) ‘분류’(완전 연결 계층) 과정을 거쳐 출력하게 된다. 필터링 단계 : 데이터를 분류하는데 성능을 좋게 할 ‘무언가’ 즉, feature map을 만드는 과정이다 분류 단계 : 위 단계에서 만들어진 f.. 2023. 4. 19.