From f053c976418a6848ede8737e9495336198ae59fb Mon Sep 17 00:00:00 2001 From: jo0n-lab Date: Wed, 10 Aug 2022 01:18:31 +0900 Subject: [PATCH] chap.5 reupload --- docs/kr/5.vector-calculus/1.md | 146 -------- .../1.one-diemensional-derivative.md | 332 ++++++++++++++++++ docs/kr/5.vector-calculus/2.md | 35 -- .../2.multi-diemensional-derivative.md | 236 +++++++++++++ 4 files changed, 568 insertions(+), 181 deletions(-) delete mode 100644 docs/kr/5.vector-calculus/1.md create mode 100644 docs/kr/5.vector-calculus/1.one-diemensional-derivative.md delete mode 100644 docs/kr/5.vector-calculus/2.md create mode 100644 docs/kr/5.vector-calculus/2.multi-diemensional-derivative.md diff --git a/docs/kr/5.vector-calculus/1.md b/docs/kr/5.vector-calculus/1.md deleted file mode 100644 index 1231e6d..0000000 --- a/docs/kr/5.vector-calculus/1.md +++ /dev/null @@ -1,146 +0,0 @@ ---- -layout: default -title: 일차원 미분 -lang: kr -lang-ref: 5-1 -parent: 벡터 미적분학 -permalink: /kr/vector-calculus/5-1 -nav_order: 1 -writer: jo0n-lab, CSJasper ---- - -# 일차원 미분 -{: .no_toc } - - -기본적인 일차원 미분에 대해 알아본다. -{: .fs-5 .fw-300 } - - -{% include writer.html writer=page.writer lang=page.lang %} - ---- - -- 목차 - {: .text-gamma } - - 1. TOC - {:toc} - ---- - -## 미분의 정의 ---- - -\begin{equation} - \tag{1} - \frac{df}{dx}=f^\prime (x)=\lim \limits_{h\to 0} \frac{f(x+h)-f(x)}{h} -\end{equation} - - 👀 분모와 분자가 0으로 점근하는 것에 주목하자. 👀 - ---- - -위의 식은 미분의 정의이다. 우리가 아는 미분은 모두 저 식으로부터 기반한다. 즉, 이번 장에서 다루는 모든 내용 또한 위의 식으로부터 모두 유도할 수 있다. 5장의 전반을 위의 식으로부터의 유도를 통해 하나의 논리로 풀어나갈 것이다. - -## 일차원 일변수 미분 -다음의 예시를 확인하자. - ---- - -$$ -y=x^2\; (x\in \mathbb{R})\\ -\frac{dy}{dx}=? -$$ - ---- - -미분의 정의(1)을 활용하면, 다음을 얻는다. - ---- - -$$ - \frac{dy}{dx}=\lim \limits_{h \to 0} \frac{(x+h)^2-x^2}{h}=\lim \limits_{h \to 0}\frac{2xh+h^2}{h}=\lim \limits_{h \to 0} (2x+h)=2x -$$ - ---- - -$y$ 가 $x$만의 함수인 관계를 '$x$에 대한 일변수 함수 $y$' 라 하고 $y=f(x)$ 로 표현한다. - -## 일차원 일변수 연쇄법칙 -다음의 미분에 대해 생각해보자. - ---- - -$$ - f(x)=x^2,\;\;g(x)=(x+1)^2\\ - h(x)=g\circ f(x)=g(f(x))=(x^2+1)^2\\ - \frac{d}{dx}h(x)=\frac{d}{dx}g(f(x))=? -$$ - ---- - -함수 안에 함수가 들어가 있는 형태를 합성함수라고 한다.\\ -합성함수의 미분 또한 (1)을 적용해 유도할 수 있다. - ---- - -$$ - \begin{align} - \frac{d}{dx}g(f(x)) - &=\lim \limits_{h \to 0} \frac{g(f(x+h))-g(f(x))}{h}\\ - &=\lim \limits_{h \to 0} \frac{g(f(x+h))-g(f(x))}{f(x+h)-f(x)}\cdot\frac{f(x+h)-f(x)}{h}\\ - &=g^\prime(f(x))\cdot f^\prime(x)\\ - \end{align} -$$ - -$$ - g^\prime(x)=2(x+1),\;\;f^\prime(x)=2(x)\;\; \\ - \therefore \frac{d}{dx}g(f(x))=g^\prime(f(x))\cdot f^\prime(x)=2(2x+1)=4x+2 -$$ - ---- - -안쪽 함수에 대한 미분이 곱해지는 것을 확인할 수 있다.\\ -\begin{equation} -\frac{d}{dx}h(g(f(x)))=h^\prime(g(f(x)))\cdot g^\prime(f(x))\cdot f^\prime(x) -\end{equation} -와 같이 '( )' 이 하나 벗겨질 때마다 안쪽 함수의 미분을 곱하는 형태가 된다. - - 이처럼 합성된 함수의 개수에 따라 연쇄적으로 미분이 이뤄지므로 "연쇄법칙" 이라고 한다. - -일반적으로 다음과 같이 주어진다. - ---- - -$$ - y=x^2\;\;\;x=3s+1\;\;\;s=t^3+1\\ - \frac{dy}{dt}=\frac{dy}{dx}\frac{dx}{ds}\frac{ds}{dt} - =2x\cdot 3\cdot 3t^2 -$$ - ---- - -이것도 합성함수 미분의 다른 형태일 뿐 같은 개념임을 숙지하자. - -## 일차원 다변수 미분(편미분) - -앞선 예시에서는 $y=f(x)$ 처럼, 함수가 하나의 변수에 의해 결정되는 일변수 함수에 대한 미분에 대해 알아보았다. -다음의 예시를 보자. - ---- - -$$ -C=x^2+y^2 -$$ - ---- - -위의 - - ---- - - -{% include category.html category=page.parent id=1 %} - diff --git a/docs/kr/5.vector-calculus/1.one-diemensional-derivative.md b/docs/kr/5.vector-calculus/1.one-diemensional-derivative.md new file mode 100644 index 0000000..1abb445 --- /dev/null +++ b/docs/kr/5.vector-calculus/1.one-diemensional-derivative.md @@ -0,0 +1,332 @@ +--- +layout: default +title: 일차원 미분 +lang: kr +lang-ref: 5-1 +parent: 벡터 미적분학 +permalink: /kr/vector-calculus/5-1 +nav_order: 1 +writer: jo0n-lab, CSJasper +--- + +# 일차원 미분 +{: .no_toc } + +이번 절에서는 일차원 미분에서 일어나는 다양한 현상을 미분 규칙과 미분 방법을 통해 알아본다. +{: .fs-5 .fw-300 } + + +{% include writer.html writer=page.writer lang=page.lang %} + +--- + +- 목차 + {: .text-gamma } + + 1. TOC + {:toc} + +--- + +## 미분의 정의(mathematical definition of derivative) +--- + +\begin{equation} +\tag{1} +\frac{df}{dx}=f^\prime (x)=\lim \limits_{h\to 0} \frac{f(x+h)-f(x)}{h} +\end{equation} + + 👀 분모와 분자가 0으로 점근하는 것에 주목하자. 👀 + +--- + +위의 식은 미분의 정의이다. 우리가 아는 미분은 모두 저 식으로부터 기반한다.\\ + 즉, 이번 장에서 다루는 모든 내용 또한 위의 식으로부터 모두 유도할 수 있다.\\ + 5장의 전반을 위의 식으로부터의 유도를 통해 하나의 논리로 풀어나갈 것이다. + +## 일변수 미분(univariate derivative) +다음의 예시를 확인하자. + +--- + +$$ +y=f(x)=x^2\; (x\in \mathbb{R})\\ +\frac{dy}{dx}=? +$$ + +--- + +$y$ 가 $x$만의 함수인 관계를 '$x$에 대한 일변수 함수 $y$' 라 하고 $y=f(x)$ 로 표현한다.\\ +미분의 정의$(1)$을 활용하면, 다음을 얻는다. + +--- + +$$ +\frac{dy}{dx}=\frac{df}{dx}=\lim \limits_{h \to 0} \frac{(x+h)^2-x^2}{h}=\lim \limits_{h \to 0}\frac{2xh+h^2}{h}=\lim\limits_{h \to 0} (2x+h)=2x +$$ + +--- + + + +## 곱미분 법칙(product rule) + +--- + +$$ +y=h(x)=f(x)\cdot g(x)\\ +f(x)=x^2,\;\;\;g(x)=(x+1)^2\\ +\frac{dy}{dx}=\frac{dh}{dx}=? +$$ + +--- + +$(1)$을 적용하면, + +--- + +$$ +\begin{align} +\frac{dy}{dx}=\frac{dh}{dx} +&=\lim \limits_{h \to 0} \frac{f(x+h)g(x+h)-f(x)g(x)}{h}\\ +&=\lim \limits_{h \to 0} \frac{f(x+h)g(x+h)-f(x+h)g(x)+f(x+h)g(x)-f(x)g(x)}{h}\\ +&=\lim \limits_{h \to 0} \frac{f(x+h)(g(x+h)-g(x))+g(x)(f(x+h)-f(x))}{h}\\ +&=\lim \limits_{h \to 0} \left(f(x+h)\frac{g(x+h)-g(x)}{h}+g(x)\frac{f(x+h)-f(x)}{h}\right)\\ +&=f(x)g^\prime(x)+f^\prime(x)g(x)\\ +\end{align} +$$ + +--- + +--- + +$$ +f^\prime(x)=2x,\;\;g^\prime(x)=2(x+1) +$$ + +$$ +\begin{align} +\therefore \frac{dh}{dx} +&=f(x)g^\prime(x)+f^\prime(x)g(x)\\ +&=x^2\cdot2(x+1)+2x(x+1)^2\\ +&=2x(x+1)(2x+1) +\end{align} +$$ + +--- + +곱연산의 대상이 되는 함수의 미분이 곱해지면서 합을 이루는 대칭성을 확인할 수 있다.\\ +즉, 곱셈의 결합법칙($f(x)g(x)=g(x)f(x)$)이 미분에 그대로 반영된 결과이다.\\ +$n$개의 곱연산으로 일반화하면 다음과 같다. + +$$ +\begin{align} +&\;\;\;\;\frac{d}{dx}f_1(x)f_2(x)f_3(x)\cdots f_n(x)\\ +&=f_1^\prime(x)f_2(x)f_3(x)\cdots f_n(x)\\ +&+f_1(x)f_2^\prime(x)f_3(x)\cdots f_n(x)\\ +&+f_1(x)f_2(x)f_3^\prime(x)\cdots f_n(x)\\ +&\;\;\;\;\;\;\;\;\;\;\;\;\;\;\vdots\\ +&+f_1(x)f_2(x)f_3(x)\cdots f_n^\prime(x) +\end{align} +$$ + + + + +## 연쇄 법칙(chain rule) +다음의 미분에 대해 생각해보자. + +--- + +$$ +f(x)=x^2,\;\;g(x)=(x+1)^2\\ +h(x)=g\circ f(x)=g(f(x))=(x^2+1)^2\\ +\frac{d}{dx}h(x)=\frac{d}{dx}g(f(x))=? +$$ + +--- + +함수 안에 함수가 들어가 있는 형태를 ```합성함수```라고 한다.\\ +```합성함수```의 미분 또한 $(1)$을 적용해 유도할 수 있다. + +--- + +$$ +\begin{align} +\frac{d}{dx}g(f(x)) +&=\lim \limits_{h \to 0} \frac{g(f(x+h))-g(f(x))}{h}\\ +&=\lim \limits_{h \to 0} \frac{g(f(x+h))-g(f(x))}{f(x+h)-f(x)}\cdot\frac{f(x+h)-f(x)}{h}\\ +&=g^\prime(f(x))\cdot f^\prime(x)\\ +\end{align} +$$ + +--- + +--- + +$$ +f^\prime(x)=2x,\;\;g^\prime(x)=2(x+1) \\ +\therefore \frac{d}{dx}g(f(x))=g^\prime(f(x))f^\prime(x)=2(2x+1)=4x+2 +$$ + +--- + +안쪽 함수에 대한 미분이 곱해지는 것을 확인할 수 있다.\\ +이를 $n$개의 합성을 이루는 합성함수로 일반화하면, + +$$ +\begin{align} +&\;\;\;\;\frac{d}{dx}f_1(f_2(f_3(\ldots(f_n(x))\ldots)))\\ +&=f_1^\prime(f_2(f_3(\ldots(f_n(x))\ldots)))f_2^\prime(f_3(\ldots(f_n(x))\ldots))f_3^\prime(\ldots(f_n(x))\ldots)\cdots f_n^\prime(x) +\end{align} +$$ + +와 같이 '( )' 이 하나 벗겨질 때마다 안쪽 함수의 미분을 곱하는 형태가 된다. + + 🔥 이처럼 합성된 함수의 개수에 따라 연쇄적으로 미분이 이뤄지므로 "연쇄법칙" 이라고 한다. + +합성수가 다음과 같이 주어지기도 한다. + +--- + +$$ +y=x^2\;\;\;x=3s+1\;\;\;s=t^3+1\\ +\frac{dy}{dt}=\frac{dy}{dx}\frac{dx}{ds}\frac{ds}{dt} +=2x\cdot 3\cdot 3t^2 +$$ + +--- + +이것도 합성함수 미분의 다른 형태일 뿐 같은 개념임을 숙지하자. + +## 편미분 법칙(partial derivative) + +$y=f(x)$, 함수가 하나의 변수에 의해 결정되는 일변수 함수에 대한 미분에 대해 알아보았다. +다음의 예시를 보자. + +--- + +$$ +C:f(x,y)=x^2+y^2 +$$ + +--- + +함수 $C:f(x,y)$ 가 변수 $x,y$ 에 의해 결정되는 것을 확인할 수 있다. +이같은 함수를 다변수 함수라고 한다.\\ +함수의 값을 결정하는 값이 2개 이므로, 미분 또한 2개의 변수에 의해 결정될 수 있음을 추론할 수 있다.\\ +아래를 통해 확인해보자. + +--- + +$$ +\begin{align} +\frac{\partial f}{\partial x}=f_x(x,y) +&=\lim \limits_{h \to 0} \frac{f(x+h,y)-f(x,y)}{h}\\ +&=\lim \limits_{h \to 0} \frac{((x+h)^2+y^2)-(x^2+y^2)}{h}=\lim \limits_{h \to 0} \frac{2xh+h^2}{h}=2x +\end{align} +$$ + +$$ +\begin{align} +\frac{\partial f}{\partial y}=f_y(x,y) +&=\lim \limits_{h \to 0} \frac{f(x,y+h)-f(x,y)}{h}\\ +&=\lim \limits_{h \to 0} \frac{(x^2+(y+h)^2)-(x^2+y^2)}{h}=\lim \limits_{h \to 0} \frac{2yh+h^2}{h}=2y +\end{align} +$$ + +--- + +선택된 변수로 미분하는 과정에서 배타적인(선택되지 않은) 변수는 모두 상수로 취급한다. + +이처럼 두개이상의 변수로 이뤄진 함수의 미분을 + + 🔥 변수를 하나 선택하여 미분한다는 뜻으로 편(偏)미분(partial derivative)이라고 한다. + +일변수 미분과는 다른 표현이 보이는데, $f_x(x,y), f_y(x,y)$ 처럼 선택된 변수를 하첨자로 명시하고,\\ +일변수 미분과 구분하기 위해 $\frac{d\;\;}{d\;\;}$ 가 아닌 $\frac{\partial\;\;}{\partial\;\;}$ 을 사용한다. + +--- + +## 일차원 미분 통합(연쇄+편미분 법칙) +앞선 개념들이 모두 포함된 예시를 살펴보자. + +--- + +$$ +C:f(x,y)=x^2+2xy+y^2\\ +x=r \cos \theta,\;y=r \sin \theta\\ +f(x,y)=f(r,\theta) +$$ + +--- + +--- + +$$ +\begin{align} +\frac{\partial f}{\partial r} +&=\frac{\partial f}{\partial x}\frac{\partial x}{\partial r}+\frac{\partial f}{\partial y}\frac{\partial y}{\partial r}\\ +&=(2x+2y)\cos\theta+(2x+2y)\sin\theta\\ +&=2r(\cos\theta+\sin\theta)(\cos\theta+\sin\theta)\\ +&=2r(\cos\theta+\sin\theta)^2\\ +&=2r(1+2\sin\theta\cos\theta)\\ + + +\frac{\partial f}{\partial \theta} +&=\frac{\partial f}{\partial x}\frac{\partial x}{\partial \theta}+\frac{\partial f}{\partial y}\frac{\partial y}{\partial \theta}\\ +&=(2x+2y)(-r\sin\theta)+(2x+2y)(r\cos\theta)\\ +&=2(x+y)r(-\sin\theta+\cos\theta)\\ +&=2r^2(\cos\theta+\sin\theta)(-\sin\theta+\cos\theta)\\ +&=2r^2(\cos^2\theta-\sin^2\theta) +\end{align} +$$ + +--- + +편미분 & 연쇄법칙이 적용된 첫번째 줄의 연산에서 의문이 들 수도 있을 것 같다. + +$$ +\begin{equation} +\frac{\partial f}{\partial r}=\frac{\partial f}{\partial x}\frac{\partial x}{\partial r}+\frac{\partial f}{\partial y}\frac{\partial y}{\partial r} +\end{equation} +$$ + + +>>$\frac{\partial f}{\partial x}$, $\frac{\partial f}{\partial y}$ +편미분은 분명 하나의 변수를 선택하는 것이라 했는데 왜 $x,y$ 모두 선택되었을까? + +이를 이해하기 위해서는, 최초 편미분 : $\frac{\partial f}{\partial r}$ 이 $r$ 에 대한 $f$ 의 편미분임을 알아야한다.\\ +$f$ 를 이루는 변수 $x,y$ 는 $x=x(r,\theta)$, $y=y(r,\theta)$ 와 같이 $r$ 에 대한 함수로 표현이 가능하므로,\\ +즉, $x$ 와 $y$ 는 모두 $r$에 대해 종속적(dependent)이므로,\\ +$f$ 의 $x, y$ 모두에 의한 미분이 타당함을 알 수 있다. 이를 식으로 보이면 더욱 자명하다. + +$$ +\begin{equation} +\frac{\partial f}{\partial r}=\frac{\partial f}{\partial x}\frac{\partial x}{\partial r}+\frac{\partial f}{\partial y}\frac{\partial y}{\partial r}\\ +x=x(r,\theta),\;\;y=y(r,\theta) +\end{equation} +$$ + +$$ +\begin{align} +f(x,y) +&=f(x(r,\theta),y(r,\theta))\\ +&=x^2(r,\theta)+2x(r,\theta)y(r,\theta)+y^2(r,\theta) +\end{align} +$$ + +$f(x,y)$ 는 $x(r,\theta),y(r,\theta)$ 을 내장함수로 가지는 합성함수이고,\\ +각각의 항들을 $r$ 에 대해서 편미분을 해야 하니, $x,y$ 모두에 의해 미분이 적용되는 것은 자명하다. + + + + + + +## 이번 절은... 다음 절은... +이번 절에서 다룬 것은 다차원 미분에 적용되는 개념에 대한 빌드업이라고 할 수 있다.\\ +다음 절에서는 해당 개념들을 다차원 벡터에 그대로 적용한 예시들을 살펴볼 것이다. + +{% include category.html category=page.parent id=1 %} + diff --git a/docs/kr/5.vector-calculus/2.md b/docs/kr/5.vector-calculus/2.md deleted file mode 100644 index 03396fb..0000000 --- a/docs/kr/5.vector-calculus/2.md +++ /dev/null @@ -1,35 +0,0 @@ ---- -layout: default -title: Sub-title-2 -lang: kr -lang-ref: 5-2 -parent: 벡터 미적분학 -permalink: /kr/vector-calculus/5-2 -nav_order: 2 -writer: ---- - -# Sub-title-2 -{: .no_toc } - - -Chapter 2 : sub-title -{: .fs-5 .fw-300 } - - -{% include writer.html writer=page.writer lang=page.lang %} - ---- - -- 목차 - {: .text-gamma } - - 1. TOC - {:toc} - ---- - - ---- - -{% include category.html category=page.parent id=2 %} diff --git a/docs/kr/5.vector-calculus/2.multi-diemensional-derivative.md b/docs/kr/5.vector-calculus/2.multi-diemensional-derivative.md new file mode 100644 index 0000000..36763b7 --- /dev/null +++ b/docs/kr/5.vector-calculus/2.multi-diemensional-derivative.md @@ -0,0 +1,236 @@ +--- +layout: default +title: 다차원 미분 +lang: kr +lang-ref: 5-2 +parent: 벡터 미적분학 +permalink: /kr/vector-calculus/5-2 +nav_order: 2 +writer: jo0n-lab, CSJasper +--- + +# 다차원 미분 +{: .no_toc } + + +이번 절에서는 다차원으로 확장된 미분을 5.1 절에서 제시된 방법을 통해 알아본다. +{: .fs-5 .fw-300 } + + +{% include writer.html writer=page.writer lang=page.lang %} + +--- + +- 목차 + {: .text-gamma } + + 1. TOC + {:toc} + +--- + +## 차원의 확장(스칼라 $\rightarrow$ 벡터) +5.1 절의 ```일차원```의 예시처럼, 상태를 하나의 차원으로 대표할 수 있는 값을 스칼라(scalar)라고 한다.\\ +반면, 공간상의 3차원 위치를 표현하기 위해 $x,y,z$ 축이 필요하듯, 상태를 표현하기 위해 다양한 차원이 요구되는 것을 벡터(vector)라고 한다. + +다음의 예시를 통해 스칼라와 벡터의 관계를 알아보자. + +--- + +$$ +X \in \mathbb{R}^n,\;\; Y=X^TX\\ +$$ + +$$ +X=\left[\begin{matrix} x_1 & x_2 & \cdots &x_n\end{matrix}\right]^T=x_1 \hat{x}_1+x_2 \hat{x}_2+ \cdots +x_n \hat{x}_n +$$ + +$$ +Y=\left[\begin{matrix}x_{1} & x_{2} & \cdots & x_{n}\end{matrix}\right] \left[\begin{matrix} x_{1}\\ x_{2}\\ \vdots \\ x_{n}\end{matrix}\right]=x_1^2+x_2^2+\cdots+x_n^2 +$$ + +--- + +$X$ 가 $n$ 차원 벡터($X \in \mathbb{R}^n$)임에도 불구하고, $Y$ 가 일차원 스칼라($Y \in \mathbb{R}$)로 도출되는 것이 흥미롭다. + + 🔥 이처럼 다변수 사이의 연산 후에는 기존의 차원에서 변형이 생길 수 있다(특히 곱연산). + +즉, 위의 경우에는 벡터와 벡터 사이의 곱연산 후에 결과값이 스칼라로 차원이 변환된 경우이다. + +## 벡터의 미분(gradient) + +벡터 미분은 gradient($grad(v)=\nabla v$) 라는 특수한 연산자에 의해 실현된다.\\ +이는 5.1 절에서 나눗셈을 통한 미분의 정의를 벡터에 적용할 수 없으므로 새로운 연산자를 정의한 것이다.(벡터의 나눗셈이 불가능한 이유는 후의 절에서 다룰 것이다.) +gradient 연산의 결과는 벡터를 이루는 차원 변수들에 대한 편미분을 열방향(col stream)으로 펼친 벡터이다. gradient 연산의 대상은 스칼라와 벡터가 모두 가능하다. + +--- + +$$ +\begin{align} +\frac{dY}{dX} +&=grad(Y)=\nabla Y\\ +&=\frac{\partial(x_1^2+\cdots+x_n^2)}{\partial x_1}\hat{x}_1+\frac{\partial(x_1^2+\cdots+x_n^2)}{\partial x_2}\hat{x}_2+\cdots+\frac{\partial (x_1^2+\cdots+x_n^2)}{\partial x_n}\hat{x}_n\\ +&=\sum_{i=1}^{n} \frac{\partial Y}{\partial x_i}\cdot \hat x_i +\end{align} +$$ + +$$ +\begin{align} +\frac{\partial Y}{\partial x_i}&=\frac{\partial (x_1^2+\cdots+x_i^2+\cdots+x_n^2)}{\partial x_i}\\ +&=\lim \limits_{h \to 0} \frac{ (x_1^2+\cdots+(x_i+h)^2+\cdots+x_n^2)-(x_1^2+\cdots+x_i^2+\cdots+x_n^2)}{h}\\ +&=\lim \limits_{h \to 0} \frac{(x_i+h)^2-x_i^2}{h}=2x_i +\end{align} +$$ + +--- + +--- + +$$ +\begin{align} +\frac{dY}{dX} +&=\sum_{i=1}^{n} \frac{\partial Y}{\partial x_i}\cdot \hat x_i=\sum_{i=1}^{n} 2x_i\cdot \hat x_i\\ +&=2x_1\cdot\hat x_1+2x_2\cdot\hat x_2+\cdots+2x_n\cdot\hat x_n\\ +&=2X^T=\left[\begin{matrix}2x_{1} & 2x_{2} & \cdots & 2x_{n}\end{matrix}\right] +\end{align} +$$ + +--- + + +여기서 확인해야할 것은, + + 🔥 gradient 의 결과가 행벡터, 즉 차원변수(x1,x2,...,xn) 에 대한 편미분을 열방향으로 펼친 행벡터 + +라는 것이다. + +또한, 앞선 곱연산의 차원 변화와 비슷하게, + + 🔥 차원변수에 의한 열방향 확장의 결과로 열방향(차원의 양끝단 .shape[-1] or .shape[0])으로 차원확장(차원변화) + +이 일어난다는 것이다. + + +## 곱미분 법칙(product rule) +gradient 연산에서도 곱미분 법칙이 적용된다. + +--- + +$$ +\begin{align} +\frac{dY}{dX} +&=\frac{d}{dX}X^TX\\ +&=\frac{dX^T}{dX}X+X^T\frac{dX}{dX}\\ +&=grad(X^T)X+X^T grad(X) +\end{align} +$$ + +--- +--- + +$$ +\begin{equation} +\tag{$1^{st}$ term} +\frac{dX^T}{dX}=\left[\begin{matrix} \frac{dX^T}{dx_1} & \frac{dX^T}{dx_2} & \frac{dX^T}{dx_3} & \cdots & \frac{dX^T}{dx_n}\end{matrix}\right]\\ +\end{equation} +$$ + +$$ +\begin{equation} +\frac{dx_1}{dX}=e_1=\left[\begin{matrix}1 & 0 & 0 & \cdots & 0 \end{matrix}\right]\\ +\frac{dx_2}{dX}=e_2=\left[\begin{matrix}0 & 1 & 0 & \cdots & 0 \end{matrix}\right]\\ +\frac{dx_3}{dX}=e_3=\left[\begin{matrix}0 & 0 & 1 & \cdots & 0 \end{matrix}\right]\\ +\;\;\;\;\;\;\;\;\;\;\vdots\\ +\frac{dx_n}{dX}=e_n=\left[\begin{matrix}0 & 0 & 0 & \cdots & 1 \end{matrix}\right]\\ +\left(e_i.\mathtt{shape=(1,n)}\right)\\ +\end{equation} +$$ + + + +$$ +\begin{equation} +\frac{dX^T}{dX} +=\left[\begin{matrix}e_1 & e_2 & e_3 & \cdots & e_n \end{matrix}\right]\\ +=\left[\begin{matrix}[1\;0\;0\ldots 0] & [0\;1\;0 \ldots 0] & [0\;0\;1 \ldots 0] & \cdots & [0\;0\;0 \ldots 1] \end{matrix}\right]\\ +\left(\frac{dX^T}{dX}.\mathtt{shape=(n,1,n)}\right) +\end{equation} +$$ + +$$ +\begin{align} +\therefore \frac{dX^T}{dX} +&=\left[\begin{matrix}e_1x_1 & e_2x_2 & e_3x_3 & \cdots & e_nx_n \end{matrix}\right]\\ +&=\left[\begin{matrix}x_1 & x_2 & x_3 & \cdots & x_n \end{matrix}\right]=X^T +\end{align} +$$ + +--- + +--- + +$$ +\begin{align} +\tag{$2^{nd}$ term} +\frac{dX}{dX} +&=\left[\begin{matrix}\frac{\partial X}{\partial x_1} & \frac{\partial X}{\partial x_2} & \frac{\partial X}{\partial x_3} & \cdots &\frac{\partial X}{\partial x_n}\end{matrix}\right]\\ +&=\left[\begin{matrix} e_1^T & e_2^T & e_3^T & \cdots & e_n^T \end{matrix}\right]\\ +&=\left[ {\begin{array}{cccc} +1 & 0 & \cdots & 0\\ +0 & 1 & \cdots & 0\\ +\vdots & \vdots & \ddots & \vdots\\ +0 & 0 & \cdots & 1\\ +\end{array} } \right]=E^{(n,n)} +\end{align} +$$ + + +$$ +\begin{equation} +\therefore \frac{dX}{dX}X^T=\left[\begin{matrix}x_{1} & x_{2} & \cdots & x_{n}\end{matrix}\right]=X^T +\end{equation} +$$ + +--- + +--- + +$$ +\begin{equation} +\therefore \frac{dY}{dX}=\frac{d}{dX}X^TX=\frac{dX^T}{dX}X+X^T\frac{dX}{dX}=X^T+X^T=2X^T +\end{equation} +$$ + +--- + +$1^{st},2^{nd}$ 에서 벡터가 열방향으로 확장되는 것을 확인할 수 있다. +>$\frac{dX^T}{dX}$ 경우,$\left(\frac{dX^T}{dX}\,:\,(1,n) \rightarrow (n,1,n) \right)$ + +>$\frac{dX}{dX}$ 경우, $\left(\frac{dX}{dX}\,:\,(n,1) \rightarrow (n,n) \right)$ + +## 더 알아보기 + +다차원의 벡터에서 상태를 대표하는 차원을 선택하는 것은 중요한 작업이 될 수 있다.\\ +데이터 전처리의 경우, 차원을 어떻게 설정하느냐에 따라 모델의 학습에서 큰 성능의 차이를 보이기도 한다.\\ +또한, 차원을 직교하게(orthogonal) 선택하여 나중의 작업에서 통제하기 용이하다. (coursera dls : C3W1L02) + +--- + + + + + + +{% include category.html category=page.parent id=2 %} + + + + + +