变分力学 Variational Mechanics

从广义坐标、拉格朗日量和最小作用量原理推导欧拉-拉格朗日方程。

Sep 1, 2024约 12 分钟Simulationysysimon

变分力学 Variational Mechanics 和 矢量力学 Vectorial Mechanics 是物理学中两种不同的理论框架和方法，用于描述和分析物理系统的运动和力学行为，它们在本质上都是研究力学问题，但使用的工具和视角有所不同

矢量力学 Vectorial Mechanics

矢量力学，也称为 经典力学 或 牛顿力学，是物理学中最为传统和直观的力学描述方法，其核心思想是通过牛顿定律来描述物体的运动状态和相互作用，主要特点和方法包括:

牛顿第二定律: 在矢量力学中，物体的运动由牛顿第二定律描述：
$\mathbf{F} = m \mathbf{a}$
其中， $\mathbf{F}$ 是作用在物体上的合力， $m$ 是物体的质量， $\mathbf{a}$ 是物体的加速度
力和加速度的关系: 力被视为引起物体运动的原因，加速度是力作用的结果这个关系通过矢量方程直接描述，力和加速度都是矢量
运用矢量法则: 在矢量力学中，物理量如力、速度、加速度都以矢量形式存在，可以通过矢量的加法、减法和标量乘法等运算来分析力的平衡、动量变化等

变分力学 Variational Mechanics

变分力学 也称 分析力学 Analytical Mechanics 是基于变分法的一种更广泛和抽象的力学描述方法，它通过寻找某种作用量泛函的极值来确定系统的运动方程

具体来说，传统的 矢量力学 主要基于力和加速度这两个矢量量来描述物体的运动，而变分力学则基于两个基本的能量——动能和势能，通过这些能量的关系来描述系统的行为，在这种视角下，运动是使作用量泛函极小 (或极大) 的路径，这个过程涉及对一个泛函 (函数的函数) 的变分求解，从而得到系统的运动方程

e(f(x),\dot{f(t)},\cdots) \to \mathbb{R}

这里， $e$ 是一个 泛函 functional，它将函数作为输入，并返回实数 $\mathbb{R}$ 或复数(或者说标量)，在上面的例子中， $f(x), \dot{f}(t), \cdots$ 就是输入函数，而返回的实数通常代表的是某个与物理系统相关的重要量，如能量、作用量、或其他物理量的积分值

所以我们可以说，泛函 $e$ 代表了一种将时间函数 $f(t)$ 及其导数映射到一个实数的过程，这个实数通常表示的是系统在某个时间段内的作用量、能量或其他与物理系统相关的重要量

广义坐标系 Generalized Coordinates

在分析某些物理系统时，直角坐标系 可能并不是最佳选择，我们可能选择更为方便的坐标系来处理我们的系统，例如 极坐标 或者直接定义成任何方便描述系统状态的参数，例如角度、长度等

这就可以引出 广义坐标 Generalized Coordinates 的概念，它是根据问题的物理性质选取的合适变量，例如，在分析旋转运动时，选择角度作为广义坐标可能比选择笛卡尔坐标更自然和简便，因此，广义坐标是系统特定自由度的参数化表达，可能涉及具体的物理坐标，也可能涉及与坐标无关的其他参数，广义坐标记为 $\mathbf{q}(t)$

而解最终将表示在我们想要的坐标系 $\mathbf{x}(t)$ 中，它可以理解为在某个时刻的某个具体坐标系中表示的物体位置，这个 实际坐标系 有时也称为 位置矢量，一般是 笛卡尔直角坐标系

实际坐标系 和 广义坐标系 的关系是

\mathbf{x}(t) = f(\mathbf{q}(t))

函数 $f$ 描述了广义坐标和实际坐标之间的映射关系

有了 广义坐标，我们就可以定义 广义速度 Generalized Velocity，也就是 广义坐标 关于时间的导数，并且可以得到它和 实际速度 之间的关系

\frac{d\mathbf{x}}{d t} = \frac{d f}{d\mathbf{q}} \mathbf{\dot{q}}(t)

其中 $\mathbf{\dot{q}}(t)$ 是广义速度，而将它转换为实际速度 $\frac{d\mathbf{x}}{d t}$ 需要乘以 雅可比矩阵 Jacobian，即将 广义坐标 转换为 实际坐标 的映射函数 $f$ 对 广义坐标 的偏导数矩阵

我们可以看到，广义坐标 和 广义速度 实际上就是在 参数空间 中进行问题分析的工具，它们将物理系统的自由度抽象为参数，使得可以在一个更通用的、灵活的框架下进行分析，这种方法在解决复杂系统或具有多种约束的系统中特别有用

拉格朗日函数 Lagrangian

拉格朗日函数 也称 拉格朗日量 $L$ 是一个非常重要的物理量，在拉格朗日力学中用于描述系统的动力学行为

拉格朗日函数定义为系统的 动能 Kinetic Energy $T$ 减去 势能Potential Energy $V$

L = T - V

动能是与物体的运动速度相关的能量，对于一个质量为 $m$ 的质点，动能通常表示为

T = \frac{1}{2}m\mathbf{\dot{q}}^2(t)

$\mathbf{\dot{q}}^2(t)$ 是广义速度 (广义坐标 $\mathbf{q}$ 关于时间的导数)

势能是与物体位置相关的能量，通常与力场 (如重力场、电场) 相关，对于一个质点在高度 $h$ 处的重力势能，通常表示为

V = mgh

$g$ 是重力加速度， $h$ 是物体高度

拉格朗日函数是拉格朗日力学的核心，在这种框架下，系统的运动方程不是直接通过牛顿第二定律推导出来的，而是通过 最小作用量原理 来推导的

最小作用量原理 Principle of Least Action

在力学问题中，我们研究的目标是找到物体最终行进的路径，也就是位置函数 $\mathbf{x}(t)$ ，牛顿力学通过分析各种向量的手段来最终得到这个函数，而变分力学则通过分析能量来得到它

变分力学指出，作用量 Action 是物理系统改变其状态的原因，是指导致系统改变状态的量

拉格朗日量 $L$ 可以被看作是系统的 瞬时作用量 Instantaneous Action，它是系统在某一时刻的能量差 (动能减去势能)

L = T - V

作用量 Action 则是系统所有时刻的 拉格朗日量 之和，也就是

S = \int L \ dt = \int (T - V) \ dt

最小作用量原理 指出，系统最终走过的实际路径是使 作用量 $S$ 取极值（通常是最小值）的路径，换句话说，物理系统总是沿着这样一条路径 $\mathbf{x}(t)$ 运动，它使得从初始状态到最终状态的 作用量 $S$ 最小

注意，系统并不是在每一个时刻都走向使 拉格朗日量最小 的方向，而是整体上沿着使 作用量 (即 拉格朗日量 在时间上的积分) 最小的路径演化，系统的路径可能会经过一些 拉格朗日量 较大的状态，但只要最终的路径使得 作用量 $S$ 取极值，这条路径就是系统实际选择的路径
例如，在某些瞬间，动能可能会增加而势能减少，或者反之，这些变化在整体上可能会平衡，以确保作用量达到极值 (极大值或极小值)

我们来看一个例子，

如果我们知道系统在演化开始时刻 $t_1$ 的广义坐标 $\mathbf{q}_1$ ，以及在演化结束时刻 $t_2$ 的广义坐标 $\mathbf{q}_2$ ，那么在这两个广义坐标之间存在无数条可能的演化进行路径，我们需要找到系统最终会选择的哪一条，最小作用量原理 告诉我们，系统最终会选择使得 作用量 取极值（通常是最小值）的那条路径

作用量 是一个泛函，它将广义坐标 $\mathbf{q}(t)$ 函数以及其时间导数函数 $\mathbf{\dot{q}}(t)$ (广义速度函数) 映射为一个标量

泛函将函数作为输入，并返回一个标量的映射，可以认为是 函数的函数

具体来说 作用量 $S$ 是

S(\mathbf{q}(t), \mathbf{\dot{q}}(t)) = \int_{t_1}^{t_2} L(\mathbf{q}(t), \mathbf{\dot{q}}(t)) \ dt = \int_{t_1}^{t_2} T(\mathbf{q}(t), \mathbf{\dot{q}}(t)) - V(\mathbf{q}(t), \mathbf{\dot{q}}(t)) \ dt

我们需要找到使得泛函 作用量 $S$ 取极值的输入函数 $\mathbf{q}$ (及其导函数)

我们类比函数的极值问题，在函数的 非极值点 $x_1$ 附近引入微小扰动

\lim_{\delta x \to 0} f(x_1 + \delta x)

我们对它进行 泰勒展开

\lim_{\delta x \to 0} f(x_1 + \delta x) = f(x_1) + f'(x_1)\delta x + \text{高阶无穷小}

由于在非极值 $x_1$ 附近，所以一阶导数 $f'(x_1)$ 不为零，输入值扰动 $\delta x$ 所带来输出值的变化是 $f'(x_1)\delta x$ ，这个变化与输入扰动 $\delta x$ 呈线性关系，且系数是函数在该 非极值点 的导数 $f'(x_1)$

如果我们在函数的 极值点 $x_0$ 附近进行扰动，则函数在该 极值点 的导数 $f'(x_0)$ 为零

\begin{align*} \lim_{\delta x \to 0} f(x_0 + \delta x) &= f(x_0) + 0 + \text{高阶无穷小} \\ \lim_{\delta x \to 0} f(x_0 + \delta x) &= f(x_0) \end{align*}

也就是说，在 极值点 附近进行趋于零的微小扰动，得到的结果将是和未进行扰动时一样的函数值，那么如果一个 输入变量 能使得函数满足上述扰动性质，则该 输入变量 就是函数的 极值点

我们可以将这个性质推广应用于泛函，泛函的输入值不再是普通变量，而是函数，如果一个 输入函数 能使得泛函满足进行趋于零的微小扰动时，得到的结果将是和未进行扰动时一样的泛函值，那么这个 输入函数 就是该泛函的极值，由于我们研究的泛函是 作用量，所以这可以表述为

\begin{align*} S(\mathbf{q}(t), \mathbf{\dot{q}}(t)) &= \int_{t_1}^{t_2} L(\mathbf{q}(t), \mathbf{\dot{q}}(t)) \ dt \\ S(\mathbf{q} + \delta\mathbf{q}, \mathbf{\dot{q}} + \delta\mathbf{\dot{q}} ) &= \int_{t_1}^{t_2} L(\mathbf{q} + \delta\mathbf{q}, \mathbf{\dot{q}} + \delta\mathbf{\dot{q}} ) \ dt \\ &\overbrace{ \approx \underbrace{ \int_{t_1}^{t_2} L(\mathbf{q}, \mathbf{\dot{q}}) \ dt }_{S(\mathbf{q}(t), \mathbf{\dot{q}}(t))} + \underbrace{ \int_{t_1}^{t_2} \frac{\partial L}{\partial\mathbf{q}}\delta \mathbf{q} + \frac{\partial L}{\partial\mathbf{\dot{q}}}\delta\mathbf{\dot{q}} \ dt }_{ \substack{ \delta S(\mathbf{q}(t), \mathbf{\dot{q}}(t)) \\ \\ \text{一阶变分} } } + \text{高阶变分} }^{\text{泰勒展开}} \end{align*}

在普通函数的情况下，极值点 的泰勒展开 一阶项 为零，同样的，在泛函的情况下，极值的泰勒展开的 一阶变分 为零，也就是

\begin{align*} \int_{t_1}^{t_2} \frac{\partial L}{\partial\mathbf{q}}\delta \mathbf{q} + \frac{\partial L}{\partial\mathbf{\dot{q}}}\delta\mathbf{\dot{q}} \ \ dt &= 0 \\ \int_{t_1}^{t_2} \frac{\partial L}{\partial\mathbf{q}}\delta \mathbf{q} \ dt + \int_{t_1}^{t_2} \frac{\partial L}{\partial\mathbf{\dot{q}}}\delta\mathbf{\dot{q}} \ dt &= 0 \end{align*}

这里，我们希望将 $\delta\mathbf{\dot{q}}$ 项转化为包含 $\delta\mathbf{q}$ 的项，我们需要对第二项

\int_{t_1}^{t_2} \frac{\partial L}{\partial\mathbf{\dot{q}}}\delta\mathbf{\dot{q}} \ dt

执行 分部积分

\int u \ dv = uv - \int v \ du

我们令

\begin{align*} u &= \frac{\partial L}{\partial\mathbf{\dot{q}}} \\ dv &= \delta\mathbf{\dot{q}} \ dt \end{align*}

则

\begin{align*} v &= \delta\mathbf{q} \\ du &= \frac{d}{dt} \left(\frac{\partial L}{\partial\mathbf{\dot{q}}}\right) \ dt \end{align*}

也就是说

\int_{t_1}^{t_2} \frac{\partial L}{\partial\mathbf{\dot{q}}}\delta\mathbf{\dot{q}} \ dt = \underbrace{ \left[ \frac{\partial L}{\partial\mathbf{\dot{q}}} \delta\mathbf{q} \right]^{t_2}_{t_1} }_{uv} - \underbrace{ \int_{t_1}^{t_2} \delta\mathbf{q} \ \ \frac{d}{dt} \left(\frac{\partial L}{\partial\mathbf{\dot{q}}}\right) \ dt }_{\int v \ du}

这里有一个 边界条件 项

\left[ \frac{\partial L}{\partial\mathbf{\dot{q}}} \delta\mathbf{q} \right]^{t_2}_{t_1}

对于我们研究的问题来说，在开始时刻 $t_1$ 的广义位置坐标 $q_1$ 和结束时刻 $t_2$ 的广义坐标位置 $q_2$ 是我们给出的，广义路径函数 (位置函数) $\mathbf{q}(t)$ 在这两个位置是固定不变的，也就是说在这两个时刻它们必须位于这两个位置，即在这两个位置的变分 $\delta\mathbf{q}$ 为零，不允许路径在这两个位置有任何变化

所以有

\begin{align*} \delta\mathbf{q} &= 0 \\ \left[ \frac{\partial L}{\partial\mathbf{\dot{q}}} \delta\mathbf{q} \right]^{t_2}_{t_1} &= 0 \end{align*}

则

\int_{t_1}^{t_2} \frac{\partial L}{\partial\mathbf{\dot{q}}}\delta\mathbf{\dot{q}} \ dt = 0 - \int_{t_1}^{t_2} \delta\mathbf{q} \ \ \frac{d}{dt} \left(\frac{\partial L}{\partial\mathbf{\dot{q}}}\right) \ dt

我们把它代回原式

\begin{align*} \int_{t_1}^{t_2} \frac{\partial L}{\partial\mathbf{q}}\delta \mathbf{q} \ dt - \int_{t_1}^{t_2} \delta\mathbf{q} \ \ \frac{d}{dt} \left(\frac{\partial L}{\partial\mathbf{\dot{q}}}\right) \ dt &= 0 \\ \int_{t_1}^{t_2} \frac{\partial L}{\partial\mathbf{q}}\delta \mathbf{q} - \delta\mathbf{q} \ \ \frac{d}{dt} \left(\frac{\partial L}{\partial\mathbf{\dot{q}}}\right) \ dt &= 0 \\ \int_{t_1}^{t_2} \left[\frac{\partial L}{\partial\mathbf{q}} - \frac{d}{dt} \left(\frac{\partial L}{\partial\mathbf{\dot{q}}}\right) \right] \delta\mathbf{q} \ \ dt &= 0 \\ \frac{\partial L}{\partial\mathbf{q}} - \frac{d}{dt} \left(\frac{\partial L}{\partial\mathbf{\dot{q}}}\right) &= 0 \end{align*}

我们得到 欧拉-拉格朗日方程 Euler-Lagrange Equation

\frac{\partial L}{\partial\mathbf{q}} = \frac{d}{dt} \frac{\partial L}{\partial\mathbf{\dot{q}}}

这是相当有名的微分方程，它告诉我们，如果我们可以找到一个路径函数 $\mathbf{q}(t)$ 满足这个方程，则这是一条物理上有效的路径