======Derivative / 导数======
//MITx: 18.01.1x Calculus 1A notes//
----

====导数是什么？====

在谈导数是什么之前，我们需要明白两个概念：//Avenge rate of change// 和 //Instantaneous rate of change//。

===Avenge rate of change===

假设在高速路上开车。第一个小时开了 100 $km$ 到 $A$ 收费站，第二个小时开了120 $km$ 处的收费站 $B$ 。从 $A$ 到 $B$，我们花了 ''2'' 个小时的时间。可以很容易的计算出，我们在这段时间内的平均速度是是 110 $km/h$。这个平均速度就是**距离之于时间**的 //Avenge rate of change// ，也就是说，这段时间内，相对于起始点，每小时我们的位置改变的 rate 是 110 $km$。
\\
\\
抽象一点来说， //Average rate of change// 是用来描述对象在一段范围内的改变情况。如果用 $\Delta$ 来表示改变，那么我们有：\\
\\
$$\frac{\Delta f(x)}{\Delta x} = \frac{f(b) - f(a)}{b-a}$$
\\
其中 $a$ 是改变范围的起点， $b$ 是改变范围的终点。
\\ \\
上面的公式实际上就是在说，如果存在着函数关系 $f(x)$，那么 $x$ 是可以描述某个区间的 $f(x)$ 的 average rate of change 的。
===Instantaneous rate of change===

还是高速路的例子。如果我们想知道某一刻我们的车速是多少，应该怎么办？
\\
\\
我们可以用求平均速度的方法来求这个瞬时速度的近似值。可以想象，如果我们用于求平均速度的两个时间点越靠近，那么我们求出来的近似值就越精确。不过再怎么精确那也是近似值，也属于 average rate of change 的范畴。
\\ \\
我们很容易想到一个方法：求在时间点 $a$ 时的瞬时速度，实际上就是在求当 $b$ 点无限接近于 $a$ 点时两点的平均速度，也就是求极限。因此，如果把求平均速度的公式作为一个函数，那么在 $a$ 点的瞬时速度，则是该函数从 $b$ 点到 $a$ 点的极限，记做：\\
\\
$$\displaystyle \lim _{b\rightarrow a} \frac{f(b) - f(a)}{b-a}$$
\\
平均速度实际上是距离至于时间的 //Average rate of change//，而瞬时速度实际上就是距离至于时间的 //Instantaneous rate of change//。
\\
\\
把以上的内容抽象出来，我们就可以得到一个结论：函数在某一点的极限，实际上就是函数在这个点的  //Instantaneous rate of change//。 我们用  //Instantaneous rate of change// 来表述函数在这一点的变化情况。而数学上则给出了 函数的 //Instantaneous rate of change// 一个定义：**导数** （//Derivative//）,记做：
\\
\\
$$\displaystyle f'(a) = \lim _{b\rightarrow a} \frac{f(b) - f(a)}{b-a}$$

===导数的正负===
导数是用来表示函数在某点变化的情况的，因此导数的正负则代表了函数在这一点变化的趋势。\\
\\
比如我们从屋顶，往上扔一个球，而这个球的瞬时速度可以表现为正，负，或者零，则有：
  * 速度为正表示球正在往上运动
  * 速度为负责表明球在往下运动
  * 而速度为 ''0'' 则表示了方向**准备开始变换的一种趋势**。

====导数的几何解释====

前面说到了导数的物理解释，现在我们来看看导数的几何解释。

===Secant Line===

为了更好的分析函数在某一点的 //Tangant Line// 的表达式，我们需要引入一个概念： //Secant Line// 。\\ \\ \\ 
{{ math:calculus:mooc:mit_1801x:a:004.png?400 |}}
\\ \\ \\ 
从图中可见，//Secant Line// 是函数上两个点之间的直线。如果再仔细一些，我们发现这条直线的 slope 很有意思：$p$ 点 之于 $q$ 点，在水平方向上移动了 $x_2 - x_1$ 的距离，而在 垂直方向是移动了 $f(x_2) - f(x_1)$ 的距离。通过 slope 的计算方式， //Secant Line// 的斜率可以表示为：\\
\\
$$\frac{f(x_2) - f(x_1)} {x_2 - x_1} = \frac{ \Delta{y}} { \Delta{x}}$$
\\
\\
这不就是我们先前说到的// Average rate of change// 的表达式吗? 因此，两点之间 //Secant Line// 的 slope, 就是 函数在这两点之间的 // Average rate of change// 的几何解释。

===当 Q 无限接近 P===

我们来看一看，如果 $Q$ 无限接近 $P$ 的时候，会出现什么情况：
{{ math:calculus:mooc:mit_1801x:a:004d.gif?400 |}}
可以明显的看出，当 $Q$ 无限接近 $P$ 的时候，两点之间 //Secant Line// 和 $P$ 点的// Tangant Line// 重合了。这说明：$P$ 点 //Tangent Line// 的斜率，与 $Q$ 无限接近 $P$ 时两点之间 //Secant Line// 的斜率相等，可以写成：\\
\\
$$\displaystyle \lim _{Q\rightarrow P} \frac{f(x_2) - f(x_1)} {x_2 - x_1} =\displaystyle \lim _{Q\rightarrow P} \frac{ \Delta{y}} { \Delta{x}}$$
\\
\\
而这恰恰就是我们前面学到的导数的表达式。因此，我们可以得出结论：导数的几何解释就是函数点 $a$ 处 //Tangent Line// 的<wrap em>**斜率**</wrap>。

==推理的大致过程==
<code>
希望求得某一点 a 的斜率
1. 构造另外一个点 b，以及这两点之间的连线(secant line)
2. 根据斜率的公式可以求得 secant line 的斜率
3. 将点 b 无限靠近点 a，发现 secant line 无限趋近于与 a 点的 tangent line 重合
4. 得出结论 secant line 的斜率表达式在 a 点的极限，就是 a 点 tangent line 的斜率
5. 上述的极限实际上是函数在 a 点的导数，因此 a 点的tangent line 的斜率 就是函数 a 点的导数
</code>
==三种表达方式==
有三种方式可以描述上述的变化过程：
  * 几何方式：a,b 两点的 secant line 的斜率，通过 $b$ 无限逼近 $a$，可以得到在 $a$ 点切线斜率
  * 符号方式：$\Delta f / \Delta x$ 通过 $b$ 无限逼近 $a$，可以得到 $f$ 在 $a$ 点的导数 
  * 物理方式：//average rate of change// 通过无限缩短两个测量点之间的距离，可以得到 //instantaneous rate of change//
==Tangent Line 与导数==

一个常见的例子就是当函数图像中存在的**角**（//corner//）的时候，也就是其左右导数不相等时，//Tangent line// 不存在。比如 $y = |x|$；当 $x=0$时，其左右导数不相等（因为其 //Tangent line// 不一样），函数的图像在 $x=0$处有一个角，因此该点不存在 //Tangent line//。**当** //Tangent Line// **不存在的时候，导数也是不存在的**。

反过来，通常情况下，只要 //Tangent Line// 存在，导数也会存在；除了一个比较特殊的情况：当 //Tangent Line// 与 X 轴垂直的时候， //Tangent Line// 存在，但其值是无穷大，因此导数并不存在。具体例子：$y=\sqrt[3]{x}$。

====导函数====

在导数的几何解释中，**函数在某点的导数**是表示函数在该点切线的斜率。那么把该函数中所有点的斜率作为自变量，则可以得到用这些斜率描述的一个函数：**一个描述斜率的变化的函数**。斜率表示了原函数在对应点变化的趋势，因此斜率的函数就是用来描述目标函数变化走势的函数，而斜率在这个函数里就是自变量 $x$。
\\
\\
导函数的定义如下：
\\
\\
>如果函数 $f(x)$ 在 $(a,b)$ 中每一点处都可导，则称 $f(x)$ 在 $(a,b)$ 上可导，则可建立 $f(x)$ 的导函数，记为 $f'(x)$。
<WRAP center round tip 100%>
导函数的图像中，magnitude 最大的地方都在主函数图像最陡峭的地方。
</WRAP>
<WRAP center round box 100%>
对于分段函数：
  * 连续：函数在某点不中断，也就是分段点坐标同时满足左右
  * 可微：函数在对应点左右极限存在且相等，且连续
</WRAP>

===用导数公式计算到导函数===

我们可以用 $\Delta x$ 来替换掉导数公式中两点之间的距离。因为这两点之间的距离应该是无限接近的，所以我们认为 $\Delta x -> 0$：
\\
\\
$$\displaystyle \lim _{Q\rightarrow P} \frac{f(b) - f(x)} {b - x} = \lim _{\Delta x \rightarrow 0} \frac{f(x + \Delta x) - f(x)} {\Delta x}$$
  - 由左边公式可知，$\displaystyle \lim _{b\rightarrow x} \frac{f(b) - f(x)} {b - x} $ 可表示为 $\displaystyle \lim _{b\rightarrow x} \frac{\Delta f} {\Delta x} $，也就是 $x_2，x_1$ 在 $Y$ 轴和 $X$ 轴上的变化
  - 由于 $b$ 可以写成 $x + \Delta x$，将其带入到 $f(b)$，即可得到右边的式子
  - 注意此时代表两点之间距离无限接近的条件不再是 $b \to x$，而是 $\Delta x \to 0$

===常量 / 线性函数的导数===

  * 对于**常量函数**来说，函数的图像是和 $x$ 轴 平行或者重合的一条**直线**：**斜率没有变化**且为 ''0''。所以常量函数的导数为 ''0''
  * 对于**线性函数**来说，函数的**斜率也是固定**的。所以线性函数的导数由所有斜率相等于自身的点组成，也就是**其导数等于自身函数的斜率**。

===复合函数的导数===

对于复合函数的导数，除了套用公式以外，我们还有一些性质。下面的性质被称为导数的线性度（//Linearity//）性质，就是说，导数可以**以线性组合的方式被拆分成子问题**来进行求解。
\\
\\
1. 如果 $g(x) = kf(x)$，$k$ 为常数，那么 $g'(x) = kf'(x)$
\\
\\
证明如下：
\\
\\

\begin{equation} \begin{split} 
\displaystyle g'(x) &= \lim _{\Delta x \rightarrow 0} \frac{g(x+ \Delta x) - g(x)}{\Delta x} &= \lim _{\Delta x \rightarrow 0} \frac{kf(x+ \Delta x) - kf(x)}{\Delta x}
\\&=  \lim _{\Delta x \rightarrow 0} k \frac{f(x+ \Delta x) - f(x)}{\Delta x} &=\lim k * \lim _{\Delta x \rightarrow 0}  \frac{f(x+ \Delta x) - f(x)}{\Delta x} &= kf'(x)
\end{split}\end{equation}

\\
\\
2. 如果 $h(x) = f(x) ± g(x)$, 那么 $h'(x) = f'(x) ± g'(x)$
\\
\\
证明如下（挑选加法证明）：
\\
\\
\begin{equation} \begin{split} 
\displaystyle h'(x) &= \lim _{\Delta x \rightarrow 0} \frac{h(x+ \Delta x) - h(x)}{\Delta x} 
\\&= \lim _{\Delta x \rightarrow 0} \frac{(f(x+ \Delta x) + g(x+ \Delta x)) - (f(x) + g(x))}{\Delta x}
\\ &= \lim _{\Delta x \rightarrow 0} \frac{(f(x+ \Delta x) - f(x)) + (g(x+ \Delta x) - g(x))}{\Delta x}
\\ &= \lim _{\Delta x \rightarrow 0} \frac{(f(x+ \Delta x) - f(x))}{\Delta x} + \lim _{\Delta x \rightarrow 0} \frac {(g(x+ \Delta x) - g(x))}{\Delta x} 
\\&=f'(x) + g'(x)
\end{split}\end{equation}
\\
\\
需要注意的是，在复合导数的求导中，//Differentiate// 永远要放到第一位；比如 $g(x) = -5x^2$，此时 $f(x) = x^2$，要先求其导数，在做乘积。

===Power rule===

导数公式很好用，但有时候不免太繁琐。//Power rule// 则能很好解决一大部分求导问题；其定义如下：
\\
\\
>If n is any fixed number, and  $f(x)=x^n$, then  $f′(x)=nx^{n−1}$.
\\
\\
这个公式也是很好推导的：
\\
\\
\[
\begin{equation*} \begin{split} 
\displaystyle f'(x) &= \lim _{b \rightarrow x} \frac{b^n - x^n}{b - x} 
\\&= \lim _{b \rightarrow x} \frac{(b-x)(b^{n-1} + b^{n-2}x +b^{n-3}x^2+...+b^2x^{n-3} + bx^{n-2} + x^{n-1})}{b - x} 
\\&= \lim _{b \rightarrow x} b^{n-1} + b^{n-2}x +b^{n-3}x^2+...+b^2x^{n-3} + bx^{n-2} + x^{n-1}
\\& =  nx^{n-1}
\end{split}\end{equation*}
\]
\\
\\

不过要注意的是 //Power rule// 有两个使用条件：
  - **指数**（//exponent// ) 必须是 **//fixed number//**（比如 $x^x$ 不行），当然可以是任意 //fixed number//
  - **底数**（//base//）必须是一个变量（比如 $2^x$ 不行），不能是带该变量的表达式（比如 $(cosx)^3$ 不行）

====Leibniz notation====

相对于牛顿提出的 $f'(x)$ 导数标记，戈特弗里德.莱布尼兹提出了一种更有效涵盖导数信息的标记，其优势在于直接反映了导数的意义：
\\
\\
$$\frac {dy}{dx}, \frac {df}{dx}, \frac {d}{dx}f, \frac {d}{dx}y$$
\\
该写法中，符号 $d$ 对应的是求改变量极限的运算，等价于 $\displaystyle \lim_{x\to0} \Delta $（也就是说其**输入**为变化量 $\Delta x$），也就是：
$$\frac{\Delta y}{\Delta x} \xrightarrow[\Delta x \to 0]{}  \frac{dy}{dx} = \frac{d}{dx} y$$
而上述四种写法都是等价的，如果函数的表达式过长，可以用到后面两种写法。
\\
\\
对于函数在点 $n$ 的导数，用莱布尼兹标记可以写作：
$$\left.\displaystyle \frac{df}{dx}\right|_{x=n}$$

====二阶导数====

我们可以用瞬时速度来表示距离和时间之间的改变情况；换而言之，瞬时速度是速度和时间关系的导数。那我们怎么来表示速度的变化情况呢？
\\
\\
当然是把速度看作一个函数，再对其求一次导数了。我们把**导数的导数，称之为二阶导数**。
\\
\\
牛顿记号的二阶导数可以记做：$f''(x) $，而莱布尼兹记号的二阶导数可以记做 $\frac{d^2f}{dx^2}$（也就是 $\frac{d}{dx}$ 对 $f$ 应用了两次）。该写法推广到 $n$ 阶导数时：
$$\text{for all integers}\ n ,\ \left( \frac{d}{dx} \right)^n = \frac{d^n}{dx^n}$$

===Concavity=== 

二阶导数的取值范围和导数的图像实际上是有关系的。我们来看看下图：
\\
\\
{{ math:calculus:mooc:mit_1801x:a:concave_down.jpg?400 |}}
\\
假设上图是一个函数导数的图像，可以看出的 $$\frac{dy}{dx}$ 变化趋势是：增加->增加变缓->为 ''0'' ->降低（变负）；也就是说，它从一个初始值开始，**一直在减少**。如果这个导数代表着速度，速度一直减少意味着什么呢？加速度为负。因此，我们可以得出一个结论：如果函数图像看上去像是上图橙色部分一样，我们称这样的图像为：//Concave down//，在这个区域中，总有 $\frac{dy^2}{dx^2}<0$
\\
\\
同理，我们来看看这个图的另一半：
\\
\\
{{ math:calculus:mooc:mit_1801x:a:concave_up.jpg?400 |}}
\\
可见的是，该导数的图像在后半段斜率变化的趋势是从负到正的。因此我们可以判断在这个区域内，$\frac{dy^2}{dx^2}>0$。我们称该二阶导数对应的导数图像为：//Concave up//。
\\
\\
这两个规则使我们可以更加方便的判断在某一点处，$f(x)$ 处于 //Concave up// 还是 //Concave down// 状态中，即 //Concavity//。而处于这两者变化中间的点，我们称之为 //Inflection points//。

===二阶导数为零===

当二阶导数为 ''0'' 的时候，意味着函数本身并不会有 //Concave up//  或者  //Concave down// 的状态。显而易见的是，此时的函数应该为一次函数（$f(x)=mx+b$）或者常量函数($g(x)=c$)。

===应用实例===

来看看下面这句话：
>Rate of Job Growth Slows.
我们知道导数是描述函数变化的，所以这里的 //Rate of Job// 是工作数量函数的导数 $f'(x)$。//Growth// 代表了工作的数量正在变多，因此可知 $f'(x)>0$。而 //Slows// 则描述了该变化有减缓的趋势，因此可以看出 //Slow// 是用于描述 $f'(x)$ 的变化的，因此它是工作数量函数的二阶导数，并且该二阶导数小于零。
\\
\\
二阶导数的一个重要应用就是加速度（//Acceleration//）。我们都知道速度描述了位置的变化，因此速度是位置的导数。而加速度描述了速度的变化，因此加速度是位置的二阶导数。

====三角函数的导数===

三角函数的导数是比较特别的。对于三角函数来说，只有 $sin(x)$ 与 $cos(x)$ 是连续的，因此三角函数的导数主要讨论这两个函数。

===主要推导过程===

对于所有函数，我们都可以利用导数的公式进行推导。
\\
\\
以推导 $sin(x)$ 的导数为示例，我们可以进行下列的推导：
\\
\\
$$
\begin{split}
\frac{d}{dx}sin(x) &= \lim _{\Delta x \rightarrow 0} \frac{sin(\Delta x + x) - sin(x)}{\Delta x} \\\\
&= \lim _{\Delta x \rightarrow 0} \frac{sin(x)cos(\Delta x) + cos(x)sin(\Delta x) - sin(x)}{\Delta x}   \\\\
&=\displaystyle \lim _{\Delta x \to 0} \left( \sin (x)\left(\frac{\cos (\Delta x) - 1}{\Delta x}\right) + \cos (x)\left( \frac{\sin (\Delta x)}{\Delta x}\right) \right)\\\\
&=\sin (x)\left( \lim _{\Delta x \to 0} \frac{\cos (\Delta x) - 1}{\Delta x}\right) + \cos (x)\left(\lim _{\Delta x \to 0} \frac{\sin (\Delta x)}{\Delta x}\right) 
\end{split}
$$
\\
\\
到此，当 $\Delta x \rightarrow 0$ 的时候，我们发现影响该导数值的部分，其实只有 $ \frac{\cos (\Delta x) - 1}{\Delta x}$ 和 $\frac{\sin (\Delta x)}{\Delta x}$ 这两个部分。因此，我们只需要求出这两个部分的极限，即可知道 $sin(x)$ 导数的结果了。
==单位圆方法求导==

对于 $\frac{\sin (\Delta x)}{\Delta x}$ 这种类型的函数，根据极限的定义，我们需要分别判定其分子和分母的增长速度来判断极限的大小。$sin$ 函数中的变量都可以用弧度 $\theta$ 表示，因此我们可以将 $\Delta
 x$ 替换为 $\theta$，从而得到下图：
\\
\\
{{ math:calculus:mooc:mit_1801x:a:sinx_de.svg |}}
\\
\\
通过上图我们可以发现，随着  $\theta$ 的变小， $sin(\theta)$ 也在随之变小，最后基本上与  $\theta$ 相等。很容易看出来的是，$\frac{\sin (\Delta x)}{\Delta x}$ 的极限是 ''1''。
\\
\\
接下来我们对 $\frac{\cos (\Delta x) - 1}{\Delta x}$ 做同样的处理，可以得到下图：
\\
\\
{{ math:calculus:mooc:mit_1801x:a:cosx_de.svg |}}
\\
\\
由于 $cos(\theta)$ 随着  $\theta$ 的变小 无限趋近于 ''1''，而单位圆的半径为 ''1''，因此 $(cos(\theta) - 1)$ 则无限趋近于 ''0''（**图中半径减掉蓝色的部分**）。而通过上图观察后发现， $\theta$ 的变化率远远比 $(cos(\theta) - 1)$ 慢（查看最后一个单位圆，红色的部分远远比单位圆半径减去蓝色的部分长）。通过上述的信息，很容易判断 $\frac{\cos (\theta) - 1}{\theta}$，即 $\frac{\cos (\Delta x) - 1}{\Delta x}$ 的极限是 ''0''。
\\
\\
将这两个结果带入 //6.1// 推导出的结果中进行计算，则可知：
\\
\\
$$\frac{d}{dx} \sin (x) = cos(x)$$
\\
同理易证：
\\
$$ \frac{d}{dx} \cos (x) = -sin(x)$$
<WRAP center round box 100%>
此处的 $\theta$ 是弧度，否则上述几何证明将失去意义。
</WRAP>
====有效数字====
有效数字（//Significant figures//）用于表示某个数字中，对其精度有意义的数字的位数有多少。有效数字的判定规则如下：
  * 所有**非零**位数都是有效数字。
  * 处于非零数字之间的 $0$ 都是有效数字。
  * 处于小数尾部的 $0$ 都是有效数字，比如 $32.000$ 的有效数字是 ''5'' 位。
  * 处于不是小数尾部的 $0$ 都不是有效数字，比如 $5400$ 的有效数字只有两位。
  * 处于小数第一个非零位之前的 $0$ 都不是有效数字，比如 $0.0003$ 只有 ''1'' 位有效数字。
  * 某些数进行运算，得到的结果超过了这些数本身的精度，那么结果中多出的精度位数不记做有效数字。
====Referneces====
  * [[https://zh.wikipedia.org/wiki/%E5%AF%BC%E6%95%B0%E5%88%97%E8%A1%A8|三角函数和反三角函数求导的公式及推导过程
]]
  *   summary PDFs： {{ math:calculus:mooc:mit_1801x:a:pdf_geom-summary.pdf |导数的几何解释}} | {{ math:calculus:mooc:mit_1801x:a:pdf_derivasfunct-summary.pdf |导函数}} | {{ math:calculus:mooc:mit_1801x:a:pdf_calculatingderivs-summary.pdf | 导数的计算}} | {{ math:calculus:mooc:mit_1801x:a:pdf_leibniz-summary.pdf |莱布尼兹标记}} | {{ math:calculus:mooc:mit_1801x:a:pdf_trig-summary.pdf |三角函数求导}}