Physics Lab. 2024のロゴ

アドカレ|21日目

情報幾何の紹介と統計物理への応用

情報幾何

情報幾何というのは文字通り情報理論を幾何(微分幾何)と結びつけることで確率分布の構造を幾何的に捉えることができるというものです。今回は情報幾何が統計物理に応用されている場面を紹介できたらいいなと思います。微分幾何の話は補足に回すことにしました。

双対アファイン座標系

各点の周りで計量gについて

g(θi,ηj)=δij

を満たす局所-アファイン座標系(θi)と局所-アファイン座標系(ηj)の組をとることができるような多様体Mを考えましょう。局所-アファイン座標系を簡単に言うと、各点周りにあるベクトルのみによる空間の座標系という意味です。(原点が存在しないのでベクトル空間ではない) と性質は同じだけど、それぞれを区別するための便宜上、片方にが加えられていると考えてください。以上の式は双対平坦な多様体において成り立つ性質となっています。このような2つの座標系の組{(θi),(ηj)}を双対アファイン座標系とよび、それぞれをθ-座標系,η-座標系ということにします。ここで省略記法を導入します。対応するベクトル場を

i:=θi,j:=θj

と書くことにします。

次のような関係式が成り立ちます。

双対アファイン座標系{(θi),(ηi)}に関する計量gの成分を

gij:=g(i,j),gij:=g(i,j)

とおくと、

gij=iηj=jηi,gij=iθj=jθi,gijgjk=δik

これらはヤコビ行列の関係を使って証明することが出来ます。

ポテンシャルとダイバージェンス

先ほど定義した双対アファイン座標系から以下の定理を証明することでポテンシャル関数というものを定義することが出来ます。

あるC級関数の組{ψ(θ1,...θn),φ(η1,...ηn)}が存在して

ηi=iψ,θi=iφ,ψ(θ1,...θn)+φ(η1,...,ηn)θiηi=0

が成り立つ。

証明 iηj=jηiであるので可積分条件よりηi=iψとなるポテンシャル関数ψの存在をいうことが出来ます。簡単に「可積分条件より」と書いたのですがこの部分は細かく話すと脱線気味になるので今回はスルーしようと思います。ポテンシャル関数φの存在も同様にいうことが出来ます。そして関数ψ+φθiηiを全微分すると

d(ψ+φθiηi)=dψ+dφ(dθi)ηiθi(dηi)=(iψ)dθi+(iφ)dηiηidθiθidηi=0

が成り立つので関数ψ+φθiηiは定数関数であることがわかります。そこでポテンシャル関数に登場する積分定数をうまく選ぶことで常に

ψ+φθiηi=0

となるように出来ます。

よって、gij=ijψ, gij=ijφと書け、gijgijも共に正定値対称行列なのでψφも共に狭義凸関数となります。この性質を使ってルジャンドル変換によりφψを関連付けることが出来ます。

定理

pMθ-座標とη-座標をそれぞれ

θ(p)=(θ1(p),...,θn(p)),η(p)=(η1(p),...,ηn(p))

と表すことにするとポテンシャル関数の組{ψ(θ1,...,θn),φ(η1,...,ηn)}は互いにルジャンドル変換

φ(η(p))=maxqM{θi(q)ηi(p)ψ(θ(q))}ψ(θ(p))=maxqM{ηi(q)θi(p)φ(η(q))}

で関連づけられる。

証明

pを固定し、関数qθi(q)ηi(p)ψ(θ(q))を微分してみると、

d(θi(q)ηi(p)ψ(θ(q)))=(ηi(p)iψ(θ(q)))dθi(q)=(ηi(p)ηi(q))dθi(q)

よって右辺の最大はすべてのiで\eta_i(p)=\eta_i(q),つまりp=qの時のみで達成されてその最大値は、ポテンシャルの存在することを示している式を使って

θi(p)ηi(p)ψ(θ(p))=φ(η(p))

となります。

もう片方の式も同様です。

以上の準備を経て、ダイバージェンスを定義します。

2点p,qMに対して定まる量

D(p||q):=ψ(θ(p))+ψ(η(q))θi(p)ηi(q)

ダイバージェンスとよびます。先ほどの証明よりD(p||q)0でかつp=qD(p||q)=0が成り立ちます。幾何的なイメージとしては D(p||q)pから見たときのqまでの遠さを表します。またここで双対として-ダイバージェンスD(p||q)も考えることができて、この場合θη,ψφが入れ替わるのでD(p||q)=D(q||p)となります。

ダイバージェンスを使って「一般化されたピタゴラスの定理」を構成することが出来ます。

M上に3点p,q,rをとります。もしpqを結ぶθ-座標系の直線の式とqrを結ぶ直線の式がqにおいて計量gに関して直交しているなら

D(p||q)+D(q||r)=D(p||r)

が成り立ちます。証明は今回は省きますがそこまで難しくはないです。またこの定理を使ってダイバージェンスの非負性を使ってD(q||r)0であることを考えると以下のことも言えます

曲面Sが与えられたとき、qからSへのダイバージェンスを

D(q||S)=minrSD(q||r)

と定義すると、これを最小にする点はpSにおいてpsqを結ぶ直線はSと直交する。

確率分布空間

話は変わって確率分布の話をしようと思います。

有限事象系Ωn={1,...,n}を使ってΩn上の確率分布全体の集合をn次元開単体として

Sn1:={p:ΩnR+;ωΩp(ω)=1}

と表します。これだけの話だとSnはただのn1次元多様体だと思われるかもしれませんが、この分布が確率分布であるという事実を用いて以下のような要請を課します。

nlとする。このとき、Sn1の確率分布の構造はSl1の確率分布の構造をSl1の部分多様体Mに制限することによりMに誘導される確率分布の構造と一致するべきである

今回はこの要請とそれから導かれる定理などについては詳しく述べませんが 、要請がかなり強いために、結論から言うと-ダイバージェンスを具体的に計算できて、

D(p||q)=ω=1np(ω)logp(ω)q(ω)

となります。この量はKL-ダイバージェンスと呼ばれています。

指数型分布族

Ω上の関数C(ω),F1(ω),...,Fk(ω), およびRkの領域Θ上を動くk次元パラメータθ=(θ1,...θk)Θを用いて

pθ(ω)=exp(C(ω)+i=1kθiFi(ω)ψ(θ))

と表される確率分布族M={pθ;θΘ}を指数型分布族と呼びます. ここでψ(θ)pθが確率分布となるように調整する規格化因子とします。

みなさんがよく知っている代表的な確率分布は大抵は指数型分布族に属しています. 例えば正規分布や多項分布なども指数型分布族に属しています。

ここで次の定理を紹介します。

指数型分布族Mに対し、

ηi:=Epθ[Fi]=ωΩpθ(ω)Fi(ω)

とおけば、η=(η1,...,ηk)Mの局所座標系を与える。そして{(θi),(ηi)}は双対アファイン座標系をなす。

証明は今回は省くことにします。

ここでη=(η1,...,ηk)を固定した時に定まる確率分布族

Γη:={q(ω)S;Eq[Fi]=ηi(i=1,...,k)}

を考えてみます。このとき以下の定理が成り立ちます。これも証明を省きます。

MΓnと共有点を持つならば、その点においてMΓnは直交する。

最大エントロピー原理

最後に物理の話をしようと思います。

指数型分布族の定義において、k=1とし、F1(ω)=H(ω)とおきます。そして、θ=0で一様分布u=(1n,...,1n)を通るという条件を加えた一次元の指数型分布族

pθ(ω)=eθH(ω)ψ(θ)

を考えます。ここで先ほどの定理より、各ηRに対し、

Γη={qS;Eq[H]=η}

pθ(ω)は共有点pθで直交します。 このことから先ほど紹介した一般化されたピタゴラスの定理より

pθ=argminqΓηD(u||q)=argminqΓηD(q||u) =argminqΓηωΩq(ω)logq(ω)u(ω)=argminqΓη{lognS(q)}=argmaxqΓηS(q)

を得ます。以上の式変形は今まで準備してきた内容を総動員しました。ここで

S(q):=ωΩq(ω)logq(ω)

は確率qのシャノンエントロピーです。 上記の事実は確率変数F1(ω)=H(ω)の期待値が一定という拘束条件のもとでシャノンエントロピーS(p)を最大にする確率分布qpθであることを言っています。ここで

logZ(θ):=ψ(θ),β:=θ

と書き直すと

argminq:Eq[H]=constS(q)=pβ(ω)=eβH(ω)ψ(β)=1Z(β)eβH(ω)

となり"ハミルトニアン"Hの期待値が一定という条件のもとでエントロピーが最大となる確率分布はカノ二カル分布であることがわかります。

終わりに

今回は情報幾何の一端を紹介したのですが、情報幾何の考え方は機械学習や統計物理などに広く活かされています。ぜひ興味があったらぜひ調べてみてください。

補足

双対アファイン接続を定義します。最初に情報幾何学は情報理論を幾何(微分幾何)と結びつけるという書き方をしましたが、厳密にいうと双対アファイン接続における微分幾何学のことを情報幾何学と言います。

アファイン接続を持つRiemann多様体(M,g)においてX,Y,ZC級ベクトル場とします。このとき

Xg(Y,Z)=g(XY,Z)+g(Y,XZ)

で定義されるアファイン接続を計量gに関するの双対アファイン接続と呼びます。また以上のようなアファイン接続のペア(,)が与えられたとき、3つ組(g,,)Mの双対構造といいます。さらにの両方に関して曲率も捩率も共に0の時、Mは双対平坦であるといいます。

参考文献

情報幾何学の基礎(本記事はほとんどこの本の内容を扱ってます)

情報幾何学の新展開