AI Research Portfolio Post

주제: 1-1 퍼셉트론과 활성함수

분류: foundations

타입: concept

난이도: 입문

선수지식: 있음 - 벡터, 행렬곱, y = Wx + b

신경망의 가장 기본 단위는 퍼셉트론입니다. 퍼셉트론은 입력 벡터를 받아 선형 변환을 수행한 뒤 비선형 함수를 통과시켜 출력 값을 만듭니다.

a = s i g m a (W x + b)

퍼셉트론은 아래 두 단계로 이루어집니다.

입력 x
  -> 선형 계산 z = Wx + b
  -> 활성함수 a = sigma(z)
  -> 출력 a

즉 퍼셉트론은 선형 변환 + 비선형 변환으로 구성됩니다.

선형 계산만으로는 복잡한 패턴을 표현하기 어렵습니다. 활성함수가 들어가야 신경망이 복잡한 함수 형태를 학습할 수 있습니다.

활성함수가 없다면 여러 층을 쌓아도 결국 하나의 선형 변환과 동일해집니다.

퍼셉트론의 첫 단계는 선형 연산입니다.

z = W x + b

(k x d)(d x 1) -> (k x 1)

선형 계산 결과 z를 비선형 함수에 통과시킵니다.

a = s i g m a (z)

비선형성이 없으면 깊은 신경망도 하나의 선형식으로 합쳐집니다.

W2(Wx + b) + b2
= (W2W)x + (W2b + b2)

활성함수가 없으면 깊은 신경망의 표현력이 크게 떨어집니다.

s i g m a (x) = 1 / (1 + e^{(} - x))

R e L U (x) = m a x (0, x)

G E L U (x) = x * P h i (x)