[논문 리뷰] Distilling the Knowledge in a Neural Network

소개

안녕하세요. 오늘은 딥러닝 모델의 경량화 방법 중 하나인 지식 증류(Knowledge Distillation)의 첫 논문인 Distilling the Knowledge in a Neural Network 에 대해서 리뷰하려고 합니다. 오늘은 논문 전체에 대한 리뷰는 아니고 논문의 핵심 아이디어를 수식으로 의의를 밝히는 부분에 대한 설명을 하려고 합니다.

2.1 "Matching logits is a special case of Distillation"

아래 설명 참고( 그림2 0.001은 z_i/T = 0.0001인게 아니라, 0과 0.0001 사이에서나 작용할 만큼 작은 공간이라 생각하는 것을 돕기 위해서 임의로 작성한 수입니다.)

이 단락에 식(2)와 식(3)이 소개되어 있습니다. 이 식(2)에서 식(3)으로 근사할 수 있다고 설명되어 있는데, 이에 대해 자세히 설명이 안되어 있었습니다. 설명을 하기에 앞서, 논문에선 "temperature(T)가 magnitude of the logits(z&v)보다 크기가 많이 클 때, 식(2)를 식(3)으로 근사할 수 있다"고 했습니다.

따라서 z&v<<T 임을 인지하시면 됩니다. 그러면 z/T 는 0과 근사할 것이고,

그림1의 e^x 그래프의 x=0과 매우 근접한 위치에서 distillation 계산들이 있을 것이라고 판단할 수 있습니다.

그래서 그림1의 x=0부근을 확대한 그림이 그림2입니다. 그렇게 되면 저 공간에서는 y=e^x의 기울기가 1이라고 근사할 수 있고, 이렇게 되면 e^(z/T) -1 = z/T, 정리해주면 식3과 같이 나옵니다.

글로 설명하기 애매해, 사진을 첨부했는데, 제가 잘못 이해한 부분이 있다면 언제든 댓글 부탁드립니다.

dbwp031의 블로그

[논문 리뷰] Distilling the Knowledge in a Neural Network

소개

2.1 "Matching logits is a special case of Distillation"

티스토리툴바