반응형
소개
안녕하세요. 오늘은 딥러닝 모델의 경량화 방법 중 하나인 지식 증류(Knowledge Distillation)의 첫 논문인 Distilling the Knowledge in a Neural Network 에 대해서 리뷰하려고 합니다. 오늘은 논문 전체에 대한 리뷰는 아니고 논문의 핵심 아이디어를 수식으로 의의를 밝히는 부분에 대한 설명을 하려고 합니다.
2.1 "Matching logits is a special case of Distillation"
이 단락에 식(2)와 식(3)이 소개되어 있습니다. 이 식(2)에서 식(3)으로 근사할 수 있다고 설명되어 있는데, 이에 대해 자세히 설명이 안되어 있었습니다. 설명을 하기에 앞서, 논문에선 "temperature(T)가 magnitude of the logits(z&v)보다 크기가 많이 클 때, 식(2)를 식(3)으로 근사할 수 있다"고 했습니다.
따라서 z&v<<T 임을 인지하시면 됩니다. 그러면 z/T 는 0과 근사할 것이고,
그림1의 e^x 그래프의 x=0과 매우 근접한 위치에서 distillation 계산들이 있을 것이라고 판단할 수 있습니다.
그래서 그림1의 x=0부근을 확대한 그림이 그림2입니다. 그렇게 되면 저 공간에서는 y=e^x의 기울기가 1이라고 근사할 수 있고, 이렇게 되면 e^(z/T) -1 = z/T, 정리해주면 식3과 같이 나옵니다.
글로 설명하기 애매해, 사진을 첨부했는데, 제가 잘못 이해한 부분이 있다면 언제든 댓글 부탁드립니다.
반응형