3-1 MNIST 인식률 계산을 위한 Covariance Softmax 알고리듬


MNIST 수시숫자 인식률 향상을 위해서 Covariance항을 고려한 Softmax 공식을 사용하도록 한다. MNIST 입력데이타가 1X784 이므로 직접 activation 단계에서 hypothesis를 784X10 으로 최종 처리하여 Softmax 에 입력하자.

GradientDescentOptimizer를 사용하기로 하며 파라메터 설정은 다음과 같다.
learning rate = 0.1
alpha = 0.0 ∼2.0 , increment = 0.02

3.1 에서의 결과를 참조하면 α값 0.12∼0.2 사이에서 인식률 값이 95.5∼96.0 사이 값을 보여 준다.

noname01.png

한편 동일한 Covariant 알고리듬을 사용하되 hidden layer를 하나 추가한 뉴럴 네트워크를 구성해 보자. 앞서 고려했던 알고리듬은 1X785 입력 데이터에서 785X10 매트릭스를 사용하여 막바로 1X10 hypothesis를 계산하여 Softmax를 적용하였으나 뉴럴 네트워크에서는 중간에 hiden layer를 하나 추가한다. 즉 785X124 로 1차 처리하고 이어서 hidden layer에서 124X10 으로 처리 후 Softmax를 적용하기로 한다. 물론 124 라는 hidden layer 의 컬럼 수는 11∼784 사이의 적절한 값을 임의로 취할 수 있을 것이다. 하지만 그 값이 변동되더라도 인식률 계산에 그다지 큰 영향을 미치지는 않는다.

아래의 표는 SImple Network 와 뉴럴 네트워크의 계산 사례이다.

noname02.png

작도 결과를 보면 α≧0.1 이상 영역에서 96% 안팎의 인식률 값을 보여주며 뉴럴네트워크가 다소 높은 결과를 보여준다.
noname03.png

이와 같이 Covariance 항을 고려한 Softmax에서 Gradient Descent Optimizer를 사용하여 Lagrange’s multiplier α의 최적값을 0.2로 결정하였다. α값이 0.2를 넘어서면 고정된 상수 값의 learning rate = 0.1 로는 cost 계산이 불안정해진다. 따라서 컴퓨팅 과정에서 learning rate 값 자동 변경이 가능한 Optimizer 로서 AdamOptimizer를 사용하면 보다 넓은 법위의 α 값 영역에서 인식률 값을 조사할 수 있을 것이다.

마나마인로고.png


Comments 0