情報幾何の紹介と統計物理への応用
情報幾何
情報幾何というのは文字通り情報理論を幾何(微分幾何)と結びつけることで確率分布の構造を幾何的に捉えることができるというものです。今回は情報幾何が統計物理に応用されている場面を紹介できたらいいなと思います。微分幾何の話は補足に回すことにしました。
双対アファイン座標系
各点の周りで計量について
を満たす局所-アファイン座標系と局所-アファイン座標系の組をとることができるような多様体を考えましょう。局所-アファイン座標系を簡単に言うと、各点周りにあるベクトルのみによる空間の座標系という意味です。(原点が存在しないのでベクトル空間ではない)
はと性質は同じだけど、それぞれを区別するための便宜上、片方にが加えられていると考えてください。以上の式は双対平坦な多様体において成り立つ性質となっています。このような2つの座標系の組を双対アファイン座標系とよび、それぞれを-座標系,-座標系ということにします。ここで省略記法を導入します。対応するベクトル場を
と書くことにします。
次のような関係式が成り立ちます。
双対アファイン座標系に関する計量の成分を
とおくと、
これらはヤコビ行列の関係を使って証明することが出来ます。
ポテンシャルとダイバージェンス
先ほど定義した双対アファイン座標系から以下の定理を証明することでポテンシャル関数というものを定義することが出来ます。
ある級関数の組が存在して
が成り立つ。
証明
であるので可積分条件よりとなるポテンシャル関数の存在をいうことが出来ます。簡単に「可積分条件より」と書いたのですがこの部分は細かく話すと脱線気味になるので今回はスルーしようと思います。ポテンシャル関数の存在も同様にいうことが出来ます。そして関数を全微分すると
が成り立つので関数は定数関数であることがわかります。そこでポテンシャル関数に登場する積分定数をうまく選ぶことで常に
となるように出来ます。
よって、, と書け、もも共に正定値対称行列なのでもも共に狭義凸関数となります。この性質を使ってルジャンドル変換によりとを関連付けることが出来ます。
定理
点の-座標と-座標をそれぞれ
と表すことにするとポテンシャル関数の組は互いにルジャンドル変換
で関連づけられる。
証明
点を固定し、関数を微分してみると、
よって右辺の最大はすべてので\eta_i(p)=\eta_i(q),つまりの時のみで達成されてその最大値は、ポテンシャルの存在することを示している式を使って
となります。
もう片方の式も同様です。
以上の準備を経て、ダイバージェンスを定義します。
2点に対して定まる量
をダイバージェンスとよびます。先ほどの証明よりでかつが成り立ちます。幾何的なイメージとしては
はから見たときのまでの遠さを表します。またここで双対として-ダイバージェンスも考えることができて、この場合と,とが入れ替わるのでとなります。
ダイバージェンスを使って「一般化されたピタゴラスの定理」を構成することが出来ます。
上に3点をとります。もしとを結ぶ-座標系の直線の式ととを結ぶ直線の式がにおいて計量に関して直交しているなら
が成り立ちます。証明は今回は省きますがそこまで難しくはないです。またこの定理を使ってダイバージェンスの非負性を使ってであることを考えると以下のことも言えます
曲面が与えられたとき、からへのダイバージェンスを
と定義すると、これを最小にする点はにおいてとを結ぶ直線はと直交する。
確率分布空間
話は変わって確率分布の話をしようと思います。
有限事象系を使って上の確率分布全体の集合を次元開単体として
と表します。これだけの話だとはただの次元多様体だと思われるかもしれませんが、この分布が確率分布であるという事実を用いて以下のような要請を課します。
とする。このとき、の確率分布の構造はの確率分布の構造をの部分多様体に制限することによりに誘導される確率分布の構造と一致するべきである
今回はこの要請とそれから導かれる定理などについては詳しく述べませんが
、要請がかなり強いために、結論から言うと-ダイバージェンスを具体的に計算できて、
となります。この量はKL-ダイバージェンスと呼ばれています。
指数型分布族
上の関数, およびの領域上を動くk次元パラメータを用いて
と表される確率分布族を指数型分布族と呼びます. ここではが確率分布となるように調整する規格化因子とします。
みなさんがよく知っている代表的な確率分布は大抵は指数型分布族に属しています. 例えば正規分布や多項分布なども指数型分布族に属しています。
ここで次の定理を紹介します。
指数型分布族に対し、
とおけば、はの局所座標系を与える。そしては双対アファイン座標系をなす。
証明は今回は省くことにします。
ここでを固定した時に定まる確率分布族
を考えてみます。このとき以下の定理が成り立ちます。これも証明を省きます。
とと共有点を持つならば、その点においてとは直交する。
最大エントロピー原理
最後に物理の話をしようと思います。
指数型分布族の定義において、とし、とおきます。そして、で一様分布を通るという条件を加えた一次元の指数型分布族
を考えます。ここで先ほどの定理より、各に対し、
とは共有点で直交します。
このことから先ほど紹介した一般化されたピタゴラスの定理より
を得ます。以上の式変形は今まで準備してきた内容を総動員しました。ここで
は確率のシャノンエントロピーです。
上記の事実は確率変数の期待値が一定という拘束条件のもとでシャノンエントロピーを最大にする確率分布はであることを言っています。ここで
と書き直すと
となり"ハミルトニアン"Hの期待値が一定という条件のもとでエントロピーが最大となる確率分布はカノ二カル分布であることがわかります。
終わりに
今回は情報幾何の一端を紹介したのですが、情報幾何の考え方は機械学習や統計物理などに広く活かされています。ぜひ興味があったらぜひ調べてみてください。
補足
双対アファイン接続を定義します。最初に情報幾何学は情報理論を幾何(微分幾何)と結びつけるという書き方をしましたが、厳密にいうと双対アファイン接続における微分幾何学のことを情報幾何学と言います。
アファイン接続を持つRiemann多様体においてを級ベクトル場とします。このとき
で定義されるアファイン接続を計量に関するの双対アファイン接続と呼びます。また以上のようなアファイン接続のペアが与えられたとき、3つ組をの双対構造といいます。さらにとの両方に関して曲率も捩率も共に0の時、は双対平坦であるといいます。
参考文献
情報幾何学の基礎(本記事はほとんどこの本の内容を扱ってます)
情報幾何学の新展開