➕
本当は便利な相補性定理

2024/12/25に公開
数理最適化
線形計画問題
相補性定理
tech
この記事は数理最適化 Advent Calendar 2024の25日目の記事です．

 はじめに線形計画問題をはじめとする制約付き最適化問題には相補性 (complementarity) とよばれる性質があります．相補性は解の最適性条件を与えるものですが，実は主双対の枠組みを通して最適解「全体」を捉えることができるという非常に強力な帰結が存在します．本記事では，線形計画問題における相補性定理の説明とそれを用いて最適解全体を捉える方法，また組合せ最適化での例を紹介します．

 準備
 線形計画問題目的関数も制約もどちらも線形であるような最適化問題を線形計画問題 (linear programming[1]; LP) とよびます．とくに，mmm 次元ベクトル b∈Rmb \in \mathbb{R}^mb∈Rm，nnn 次元ベクトル c∈Rnc \in \mathbb{R}^nc∈Rn，m×nm \times nm×n 行列 A∈Rm×nA \in \mathbb{R}^{m \times n}A∈Rm×n によって定まる，x∈Rnx \in \R^nx∈Rnを変数とする以下の形式の問題 (P)
maximizec⊤xsubject toAx≤b,x≥0(P)\tag{P}
\begin{array}{ll}
  \text{maximize} & c^\top x \\
  \text{subject to} & Ax \le b, \\
                    & x \ge 0
\end{array}
maximizesubject to​c⊤xAx≤b,x≥0​(P)を不等式標準形 (standard inequality form) とよびます．ここで c⊤c^\topc⊤ は ccc の転置です．また，ベクトル u,v∈Rdu,v \in \mathbb{R}^du,v∈Rdに対する不等式 u≤vu \le vu≤v は，すべての i=1,…,di = 1, \dotsc, di=1,…,d について ui≤viu_i \le v_iui​≤vi​ であるという条件を意味すると約束します．解 x∈Rnx \in \R^nx∈Rn は問題 (P) の制約を満たすときに実行可能 (feasible)，そうでないときに実行不可能 (infeasible) であるといわれます．また，実行可能解がある（ない）ときに問題 (P) そのものを実行（不）可能といいます．実行可能解であって最大を達成するものを最適 (optimal) とよびます．実行可能解全体を実行可能領域 (feasible region) とよびます．LPの実行可能領域は各制約が表す半空間の共通部分として得られる多面体となります．
不等式標準形は以下で説明する双対問題も対称的な形式を持ち，またすべてのLPは適切に変数を導入したりすることで不等式標準形に変形することができるので，本稿では不等式標準形のLPを考えます．
なお，線形計画問題は楕円体法や内点法などの手法により多項式時間で解く（最適解を得る）ことができます．最も有名なのは単体法（シンプレックス法）かと思いますが，残念ながら単体法は多項式時間アルゴリズムではありません[2]．

 双対性双対性 (duality) は線形計画理論の一丁目一番地です．天下り的ですが，y∈Rmy \in \R^my∈Rm を変数とする以下のLP
minimizey⊤bsubject toy⊤A≥c⊤,y≥0(D)\tag{D}
\begin{array}{ll}
  \text{minimize} & y^\top b \\
  \text{subject to} & y^\top A \ge c^\top, \\
                    & y \ge 0
\end{array}
minimizesubject to​y⊤by⊤A≥c⊤,y≥0​(D)を問題 (P) の双対問題 (dual problem) とよびます．最大化と最小化が入れ替わっていることに注意してください．双対問題 (D) に対して，(P) を (D) の主問題 (primal problem) とよびます．
OPT(P)\mathrm{OPT}(\mathrm{P})OPT(P) と OPT(D)\mathrm{OPT}(\mathrm{D})OPT(D) をそれぞれ主・双対問題の最適値と定義します[3]．これらの量の間には以下の二種類の定理が成立します．
!

弱双対定理 (weak duality theorem): OPT(P)≤OPT(D)\mathrm{OPT}(\mathrm{P}) \le \mathrm{OPT}(\mathrm{D})OPT(P)≤OPT(D).

強双対定理 (strong duality theorem): OPT(P)=OPT(D)\mathrm{OPT}(\mathrm{P}) = \mathrm{OPT}(\mathrm{D})OPT(P)=OPT(D).

弱双対定理は以下のように簡単に示すことができます．主問題と双対問題のどちらかが実行不可能のときは自明[4]です．x∈Rnx \in \R^nx∈Rn，y∈Rmy \in \R^my∈Rm をそれぞれ主・双対問題の任意の実行可能解としたときに，

y⊤A≥c⊤y^\top A \ge c^\topy⊤A≥c⊤ かつ x≥0x \ge 0x≥0 より c⊤x≤y⊤Axc^\top x \le y^\top A xc⊤x≤y⊤Ax

Ax≤bAx \le bAx≤b かつ y≥0y \ge 0y≥0 より y⊤Ax≤y⊤by^\top A x \le y^\top by⊤Ax≤y⊤b
より，
OPT(P)≤c⊤x≤y⊤Ax≤y⊤b≤OPT(D)(1)\tag{1}
\mathrm{OPT}(\mathrm{P}) \le c^\top x \le y^\top A x \le y^\top b \le \mathrm{OPT}(\mathrm{D})
OPT(P)≤c⊤x≤y⊤Ax≤y⊤b≤OPT(D)(1)となります．一方，強双対定理を示すには非自明な議論[5]が必要となりますので，この記事では認めることとします．

 相補性いよいよ本記事の主題である相補性について説明します．xxx と yyy をそれぞれ主・双対問題の実行可能解とします．もし xxx と yyy がともに最適解であれば，強双対定理から c⊤x=y⊤bc^\top x = y^\top bc⊤x=y⊤b となりますが，特に式 (1) より c⊤x=y⊤Ax=y⊤bc^\top x = y^\top A x = y^\top bc⊤x=y⊤Ax=y⊤b となります．さて，c⊤x=y⊤Axc^\top x = y^\top A xc⊤x=y⊤Ax が何を意味するか考えてみましょう．移項すると (y⊤A−c⊤)x=0(y^\top A - c^\top)x = 0(y⊤A−c⊤)x=0 です．総和記号を使って書き下すと
∑i=1n((y⊤A)i−ci)xi=0(2)\tag{2}
\sum_{i=1}^n ((y^\top A)_i - c_i) x_i = 0
i=1∑n​((y⊤A)i​−ci​)xi​=0(2)となります．xxx と yyy の実行可能性から，任意の i=1,…,ni = 1, \dotsc, ni=1,…,n に対して xi≥0x_i \ge 0xi​≥0 かつ (y⊤A)i≥ci(y^\top A)_i \ge c_i(y⊤A)i​≥ci​ なので，((y⊤A)i−ci)xi≥0((y^\top A)_i - c_i) x_i \ge 0((y⊤A)i​−ci​)xi​≥0 となります．これらの i=1,…,ni = 1, \dotsc, ni=1,…,n に対する和が 0 ということは，すべての iii に対して ((y⊤A)i−ci)xi=0((y^\top A)_i - c_i) x_i = 0((y⊤A)i​−ci​)xi​=0 でなくてはならず，これはつまり xi=0x_i = 0xi​=0 または (y⊤A)i=ci(y^\top A)_i = c_i(y⊤A)i​=ci​ の少なくとも一方が成立するということを意味します．同様に y⊤Ax=y⊤by^\top A x = y^\top by⊤Ax=y⊤b からは，すべての j=1,…,mj = 1, \dotsc, mj=1,…,m に対して yj=0y_j = 0yj​=0 または (Ax)j=bj(Ax)_j = b_j(Ax)j​=bj​ の少なくとも一方が成立するという結論が得られます．
まとめると，実行可能解 x,yx, yx,y が最適ならば，条件
すべての i=1,…,ni = 1, \dotsc, ni=1,…,n に対し，xi=0x_i = 0xi​=0 または (y⊤A)i=ci(y^\top A)_i = c_i(y⊤A)i​=ci​
すべての j=1,…,mj = 1, \dotsc, mj=1,…,m に対し，yj=0y_j = 0yj​=0 または (Ax)j=bj(Ax)_j = b_j(Ax)j​=bj​
が成立します．これらの条件を相補性条件 (complementarity condition) とよびます．逆に，実行可能解 x,yx, yx,y が相補性条件を満たすならば c⊤x=y⊤Ax=y⊤bc^\top x = y^\top A x = y^\top bc⊤x=y⊤Ax=y⊤b を満たすことも分かります．すなわち，xxx と yyy の目的関数値が一致しているので，弱双対定理より，これらは最適解となります．したがって，次の定理が得られます．
!相補性定理 (complementarity theorem)：xxx と yyy をそれぞれ主・双対問題の実行可能解とする．xxx と yyy がそれぞれ主・双対問題の最適解であることと，相補性条件を満たすことは同値である．

 相補性定理と最適解集合以上で見たように，相補性定理はLPの双対定理の帰結として自然に得られ，その内容は最適性の必要十分条件を与えるものです．より一般の非線形凸計画問題の場合でも，Slater 条件などの適当な仮定のもとで同様の相補性条件が最適性の条件（の一部）を与えることが知られています（Karush–Kuhn–Tucker 条件）．この文脈では，相補性定理は最適解の候補の絞り込みや得られた解の最適性の確認に用いられるのが普通の使われ方だと思います．以下では，このような普通の使い方とはちょっと違った，LPの最適解全体を得るための使い方を説明します．
LPの最適解は一般に一意ではありません．最適解全体の集合は，LPの実行可能領域である多面体の一つの面を成します．これは以下のような幾何的なイメージを考えてもらうと納得できると思います．



つまり，最適解集合は，元の不等式制約に面を表す等式制約を追加することで記述できるはずです．特に，実行可能集合は各不等式制約が表す半空間の積空間であることから，最適解集合は主問題の制約をいくつか不等式から等式に修正したものになるはずです．この制約を得るにはどうすればよいか考えてみましょう．
ここで相補性定理が役に立ちます．双対問題の最適解 y∗y^*y∗ を任意に一つ固定します．相補性定理より，主問題の任意の実行可能解 xxx に対して，xxx が最適であることと，(x,y∗)(x, y^*)(x,y∗) に対して相補性条件が成立することが等価です．相補性条件をおもむろに以下のように書き換えてみましょう．

((y∗)⊤A)i>ci((y^*)^\top A)_i > c_i((y∗)⊤A)i​>ci​ であるすべての i=1,…,ni = 1, \dotsc, ni=1,…,n に対し xi=0x_i = 0xi​=0

yj∗>0y^*_j > 0yj∗​>0 であるすべての j=1,…,mj = 1, \dotsc, mj=1,…,m に対し (Ax)j=bj(Ax)_j = b_j(Ax)j​=bj​
なんということでしょう，これらは主問題のいくつかの制約の不等式を等式に変えたものではありませんか！　繰り返しますが，主問題の任意の実行可能解 xxx に対して，xxx が最適であることとこれらの等式制約が成立することが等価です．したがって，主問題の不等式制約 Ax≤bAx \le bAx≤b において，双対最適解 y∗y^*y∗ を好きに一つ選ぶと定まるこれらの制約を不等式から等式に変える（または単に Ax≤bAx \le bAx≤b に加える）と，それが最適解全体の集合を表す制約集合になっているわけです．
双対問題の最適解を一つ持ってくるだけで主問題の最適解全体を記述できてしまうと主張しているこの事実は個人的に驚愕に値すると思っています．なお，双対問題の最適解も一般に一意でないので，異なる双対最適解 y∗,z∗y^*, z^*y∗,z∗ から得られる等式制約は違うものになり得ますが，主問題の不等式制約 Ax≤bAx \le bAx≤b と合わせると定めている領域は同じものとなります．

 組合せ最適化における例最後に組合せ最適化での応用例を紹介します．G=(U,V;E)G = (U, V; E)G=(U,V;E) を（孤立点のない）二部グラフとします．辺部分集合 M⊆EM \subseteq EM⊆E はその中の相異なる任意の二辺が端点を共有しないときにマッチング (matching) とよばれます．辺重み w∈REw \in \R^Ew∈RE の和 w(M)≔∑e∈Mwew(M) \coloneqq \sum_{e \in M} w_ew(M):=∑e∈M​we​ を最大化するマッチング全体がどのような構造をもつか調べましょう．
GGG における重み www に関する最大重みマッチング問題は，以下の整数計画問題
maximizew⊤xsubject to∑v∈Vxuv≤1(u∈U),∑u∈Uxuv≤1(v∈V),xuv∈{0,1}(uv∈E)(IP)\tag{IP}
\begin{array}{lll}
  \text{maximize} & w^\top x \\
  \text{subject to} & \displaystyle \sum_{v \in V} x_{uv} \le 1 & (u \in U), \\
                    & \displaystyle \sum_{u \in U} x_{uv} \le 1 & (v \in V), \\
                    & x_{uv} \in \{0, 1\} & (uv \in E)
\end{array}
maximizesubject to​w⊤xv∈V∑​xuv​≤1u∈U∑​xuv​≤1xuv​∈{0,1}​(u∈U),(v∈V),(uv∈E)​(IP)として記述できます．ここで二値変数 xuvx_{uv}xuv​ の値は，辺 uv∈Euv \in Euv∈E をマッチングに採用するなら1，しないなら0に対応します．一番目と二番目の制約はそれぞれ U,VU, VU,V の各頂点まわりで辺を高々一本しか選ぶことができないことを表しています．この問題の係数行列は完全単模[6]なので，整数制約を緩和[7]した以下のLP
maximizew⊤xsubject to∑v∈Vxuv≤1(u∈U),∑u∈Uxuv≤1(v∈V),x≥0(LP)\tag{LP}
\begin{array}{lll}
  \text{maximize} & w^\top x \\
  \text{subject to} & \displaystyle \sum_{v \in V} x_{uv} \le 1 & (u \in U), \\
                    & \displaystyle \sum_{u \in U} x_{uv} \le 1 & (v \in V), \\
                    & x \ge 0
\end{array}
maximizesubject to​w⊤xv∈V∑​xuv​≤1u∈U∑​xuv​≤1x≥0​(u∈U),(v∈V),​(LP)は目的関数値を変化させない緩和となります（(IP) の実行可能解全体の凸包 = (LP) の実行可能領域）．(LP) の双対問題は s∈RU,t∈RVs \in \mathbb{R}^U, t \in \mathbb{R}^Vs∈RU,t∈RV を変数とする以下の問題
minimize∑u∈Usu+∑v∈Vtvsubject tosu+tv≥wuv(uv∈E),s,t≥0(DLP)\tag{DLP}
\begin{array}{ll}
  \text{minimize} & \displaystyle \sum_{u \in U} s_u + \sum_{v \in V} t_v \\
  \text{subject to} & \displaystyle s_u + t_v \ge w_{uv} \quad (uv \in E), \\
                    & s, t \ge 0
\end{array}
minimizesubject to​u∈U∑​su​+v∈V∑​tv​su​+tv​≥wuv​(uv∈E),s,t≥0​(DLP)です．
さて，相補性定理を使いましょう．(s∗,t∗)(s^*, t^*)(s∗,t∗) を双対最適解とします．相補性定理より，(LP) の実行可能解 xxx が最適であることと，

su∗+tv∗>wuvs_u^* + t_v^* > w_{uv}su∗​+tv∗​>wuv​ である任意の uv∈Euv \in Euv∈E に対し，xuv=0x_{uv} = 0xuv​=0

su∗>0s_u^* > 0su∗​>0 である任意の u∈Uu \in Uu∈U に対し，∑v∈Vxuv=1\sum_{v \in V} x_{uv} = 1∑v∈V​xuv​=1

tv∗>0t_v^* > 0tv∗​>0 である任意の v∈Vv \in Vv∈V に対し，∑u∈Uxuv=1\sum_{u \in U} x_{uv} = 1∑u∈U​xuv​=1
が成立することが等価です．つまり，
E+≔{uv∈E∣su∗+tu∗>wuv},U+≔{u∈U∣su∗>0},V+≔{v∈V∣tv∗>0}
E^+ \coloneqq \{uv \in E \mid s_u^* + t_u^* > w_{uv}\}, \quad U^+ \coloneqq \{u \in U \mid s_u^* > 0\}, \quad V^+ \coloneqq \{v \in V \mid t_v^* > 0\}
E+:={uv∈E∣su∗​+tu∗​>wuv​},U+:={u∈U∣su∗​>0},V+:={v∈V∣tv∗​>0}とおくと，(LP) の最適解全体は
∑v∈Vxuv≤1(u∈U∖U+),∑v∈Vxuv=1(u∈U+),∑u∈Uxuv≤1(v∈V∖V+),∑u∈Uxuv=1(v∈V+),xuv≥0(uv∈E∖E+),xuv=0(uv∈E+)(3)\tag{3}
\begin{array}{llll}
 \displaystyle \sum_{v \in V} x_{uv} \le 1 & (u \in U \setminus U^+), 
 & \displaystyle \sum_{v \in V} x_{uv} = 1 & (u \in U^+), \\
 \displaystyle \sum_{u \in U} x_{uv} \le 1 & (v \in V \setminus V^+), \quad
 & \displaystyle \sum_{u \in U} x_{uv} = 1 & (v \in V^+), \\
 x_{uv} \ge 0 & (uv \in E \setminus E^+), \quad
 & x_{uv} = 0 & (uv \in E^+)
\end{array}
v∈V∑​xuv​≤1u∈U∑​xuv​≤1xuv​≥0​(u∈U∖U+),(v∈V∖V+),(uv∈E∖E+),​v∈V∑​xuv​=1u∈U∑​xuv​=1xuv​=0​(u∈U+),(v∈V+),(uv∈E+)​(3)で記述される領域と一致します．(3) の係数行列は (IP) の制約のそれと変わっておらず完全単模なので，(IP) の最適解全体は (3) に整数制約 xuv∈{0,1}x_{uv} \in \{0, 1\}xuv​∈{0,1} を入れたものと一致します．
(3) は組合せ的には何を意味しているでしょうか？　まず ∑v∈Vxuv=1\sum_{v \in V} x_{uv} = 1∑v∈V​xuv​=1 (u∈U+)(u \in U^+)(u∈U+) は，U+U^+U+ に含まれる各頂点を被覆（頂点に接続する辺を選ぶ）しなければならないということを意味します．∑u∈Uxuv=1\sum_{u \in U} x_{uv} = 1∑u∈U​xuv​=1 (v∈V+)(v \in V^+)(v∈V+) も同様です．xuv=0x_{uv} = 0xuv​=0 (uv∈E+)(uv \in E^+)(uv∈E+) は，E+E^+E+ に含まれる辺は使用できないということを意味します．言い換えると，E∗≔E∖E+={uv∈E∣su∗+tu∗=wuv}E^* \coloneqq E \setminus E^+ = \{uv \in E \mid s_u^* + t_u^* = w_{uv}\}E∗:=E∖E+={uv∈E∣su∗​+tu∗​=wuv​} としたときに，最大重みマッチングに含まれる辺は，部分グラフ G∗≔(U,V;E∗)G^* \coloneqq (U, V; E^*)G∗:=(U,V;E∗) の辺でなくてはならないということを要請しています．G∗G^*G∗ をタイト部分グラフ (tight subgraph) とよぶことがあります．つまり，GGG の重み www に関する最大重みマッチング全体は，G∗G^*G∗ のマッチングであって，U+∪V+U^+ \cup V^+U+∪V+ の頂点を被覆するようなもの全体と一致するということがわかります．このように相補性定理を用いることで，二部グラフの最大重みマッチング全体の特徴づけを得ることができます．

 参考文献K. Murota. Computing the degree of determinants via combinatorial relaxation. SIAM Journal on Computing, 24(4):765–96, 1990.

脚注
linear programming は線形目的関数・線形制約であるような問題に対する最適化手法を意味する線形計画（法），各々具体的な問題のことは linear programming problem または linear program というのが正しいかもしれません．この辺の語句の意味や和語と英語の対応は自信がないです．この記事では全部LPと書いてごまかします． ↩︎
正確に述べると，任意のインスタンスに対して多項式時間で単体法の反復が終了するような枢軸変換規則は知られていません． ↩︎
主問題 (P) が実行不可能の場合は OPT(P)=−∞\mathrm{OPT}(\mathrm{P}) = -\inftyOPT(P)=−∞，非有界の（いくらでも大きい目的関数値をもつ実行可能解が存在する）場合は OPT(P)=+∞\mathrm{OPT}(\mathrm{P}) = +\inftyOPT(P)=+∞ とします．同様に双対問題 (D) が実行不可能の場合は OPT(D)=+∞\mathrm{OPT}(\mathrm{D}) = +\inftyOPT(D)=+∞，非有界の場合は OPT(D)=−∞\mathrm{OPT}(\mathrm{D}) = -\inftyOPT(D)=−∞ と定義します． ↩︎
OPT(P)=−∞\mathrm{OPT}(\mathrm{P}) = -\inftyOPT(P)=−∞ または OPT(D)=+∞\mathrm{OPT}(\mathrm{D}) = +\inftyOPT(D)=+∞ なので． ↩︎
Farkas の補題を利用するか，単体法などのLPに対する主双対アルゴリズムの正当性から示すのが主な証明手法です． ↩︎
任意の正方な小行列の行列式が {0,+1,−1}\{0, +1, -1\}{0,+1,−1} のいずれかであるような行列を完全単模 (totally unimodular) とよびます．完全単模行列を制約の係数とするLPは，最適解が存在するなら，最適解を整数にとれるということが知られています． ↩︎
xuv∈{0,1}x_{uv} \in \{0, 1\}xuv​∈{0,1} を 0≤xuv≤10 \le x_{uv} \le 10≤xuv​≤1 に置き換えます．xuv≤1x_{uv} \le 1xuv​≤1 が消えているように思うかもしれませんが，（孤立点がなければ）一番目と二番目の制約から従う冗長な制約になっているので，削除しました． ↩︎
Discussion

ログインするとコメントできます