Figure 1
Matchstick Analogy — 三項の独立性
同一の編集コスト(EPC = 1)に対して、位相(Δβ₁)と情報(ΔH)は独立に変動する。
これはアナロジーではなく、geDIG の具体的インスタンスである。
F = EPC − λ (ΔH + γ · Δβ₁)
Case A
β₁ = 0
β₁ = 1
EPC 1 辺1本追加
Δβ₁ +1 ループ誕生
ΔH +0.4 経路選択肢↑
Aha! 洞察
Case B
β₁ = 0
β₁ = 0
EPC 1 辺1本追加
Δβ₁ 0 位相不変
ΔH +0.3 情報は増加
力仕事
Case C
β₁ = 1
β₁ = 0
EPC 1 辺1本削除
Δβ₁ −1 ループ消滅
ΔH −0.2 冗長性喪失
構造崩壊
KLダイバージェンスの盲点
全ケースで EPC = 1 だが、Δβ₁ は +1, 0, −1 に分岐する。 KLは測度(ΔH)しか見えないため、Case AとBを区別できない。 geDIG はこの三つを分解不能な原始量に還元する。
EPC — 計量
ΔH — 測度
Δβ₁ — 位相

Figure 2
Pruning Paradox — なぜ削ると性能が上がるのか
中央ハブノードの除去は編集コストを払うが、冗長なサイクルを3つ消し、
構造を位相的に必要十分な状態に還元する。F が下がる=効率が上がる。
Dense(剪定前)
A B C D hub V=5 E=8 β₁=4 冗長サイクル ×4
PRUNE
F ↓↓
Sparse(剪定後)
A B C D V=4 E=4 β₁=1 必要十分なサイクル ×1
構造変化
ノード 5 → 4(−1)
エッジ 8 → 4(−4)
EPC 5(1node + 4edges)
F 分解
Δβ₁ 4 → 1(−3 サイクル)
ΔH 不均一 → 均一(↓)
F 大幅に低下 ↓↓
なぜ「削る=性能向上」が起きるのか
Dense層は完全結合(K5的構造)であり、β₁が巨大。 大量の独立サイクルが存在するが、多くは同じ情報の冗長な経路

剪定でβ₁を下げると、冗長経路が消えて信号が明確な経路に集中する。 過学習は「冗長なサイクルが訓練データのノイズを記憶する」現象であり、 β₁を適切に下げればノイズの記憶容量が物理的に減る。

Lottery Ticket Hypothesis: 「当たりチケット」とは、β₁が最小限でありながら β₀ = 1(全体の接続性)を維持する部分グラフ。四角形がK5の中の当たりチケット。
グラフ ニューラルネット F の挙動
K5(完全結合) Dense層(全結合) β₁巨大、F高い、冗長
四角形(剪定後) Sparse層(剪定済み) β₁最小、F低い、効率的
木構造(β₁ = 0) 過剰剪定 冗長性ゼロ、脆弱
最適剪定の原理
β₁ = 0(木構造)まで削ると冗長性がなくなり脆弱になる。 β₁ ≫ 1(完全結合)は冗長すぎてノイズを記憶する。
最適な剪定は β₁ を「必要十分な冗長性」に調整する操作 であり、 それは F を最小化する部分グラフの探索と等価。
Fig. 2: K5グラフ(Dense層)から中央ハブノードを除去すると、β₁ が 4→1 に低下し F が大幅に下がる。 これは NN 剪定で性能が向上するメカニズムの位相的説明であり、Lottery Ticket Hypothesis の geDIG による再解釈を示す。