geDIG F-Decomposition: Visual Proofs

Figure 1

Matchstick Analogy — 三項の独立性

同一の編集コスト（EPC = 1）に対して、位相（Δβ₁）と情報（ΔH）は独立に変動する。
これはアナロジーではなく、geDIG の具体的インスタンスである。

F = EPC − λ (ΔH + γ · Δβ₁)

Case A

β₁ = 0

→

β₁ = 1

EPC 1 辺1本追加

Δβ₁ +1 ループ誕生

ΔH +0.4 経路選択肢↑

Aha! 洞察

Case B

β₁ = 0

→

β₁ = 0

EPC 1 辺1本追加

Δβ₁ 0 位相不変

ΔH +0.3 情報は増加

力仕事

Case C

β₁ = 1

→

β₁ = 0

EPC 1 辺1本削除

Δβ₁ −1 ループ消滅

ΔH −0.2 冗長性喪失

構造崩壊

KLダイバージェンスの盲点

全ケースで EPC = 1 だが、Δβ₁ は +1, 0, −1 に分岐する。 KLは測度（ΔH）しか見えないため、Case AとBを区別できない。 geDIG はこの三つを分解不能な原始量に還元する。

EPC — 計量

ΔH — 測度

Δβ₁ — 位相

Figure 2

Pruning Paradox — なぜ削ると性能が上がるのか

中央ハブノードの除去は編集コストを払うが、冗長なサイクルを3つ消し、
構造を位相的に必要十分な状態に還元する。F が下がる＝効率が上がる。

Dense（剪定前）

冗長サイクル ×4

PRUNE

→

F ↓↓

Sparse（剪定後）

必要十分なサイクル ×1

構造変化

ノード 5 → 4（−1）

エッジ 8 → 4（−4）

EPC 5（1node + 4edges）

F 分解

Δβ₁ 4 → 1（−3 サイクル）

ΔH 不均一 → 均一（↓）

F 大幅に低下 ↓↓

なぜ「削る＝性能向上」が起きるのか

Dense層は完全結合（K5的構造）であり、β₁が巨大。大量の独立サイクルが存在するが、多くは同じ情報の冗長な経路。

剪定でβ₁を下げると、冗長経路が消えて信号が明確な経路に集中する。 過学習は「冗長なサイクルが訓練データのノイズを記憶する」現象であり、 β₁を適切に下げればノイズの記憶容量が物理的に減る。

Lottery Ticket Hypothesis: 「当たりチケット」とは、β₁が最小限でありながら β₀ = 1（全体の接続性）を維持する部分グラフ。四角形がK5の中の当たりチケット。

グラフ	ニューラルネット	F の挙動
K5（完全結合）	Dense層（全結合）	β₁巨大、F高い、冗長
四角形（剪定後）	Sparse層（剪定済み）	β₁最小、F低い、効率的
木構造（β₁ = 0）	過剰剪定	冗長性ゼロ、脆弱

最適剪定の原理

β₁ = 0（木構造）まで削ると冗長性がなくなり脆弱になる。 β₁ ≫ 1（完全結合）は冗長すぎてノイズを記憶する。
最適な剪定は β₁ を「必要十分な冗長性」に調整する操作 であり、それは F を最小化する部分グラフの探索と等価。

Fig. 2: K5グラフ（Dense層）から中央ハブノードを除去すると、β₁ が 4→1 に低下し F が大幅に下がる。これは NN 剪定で性能が向上するメカニズムの位相的説明であり、Lottery Ticket Hypothesis の geDIG による再解釈を示す。