Research Summary

いま公開している標準 runtime が、どこまで分かっていて、どこから先は未証明か。

このページは、release 時点の default browser runtime を中心に、visual delta、broad confirm、transform 別の傾向を ひと目で確認できる形に整理した summary です。派手な claim を作るためではなく、何が確認できていて何がまだ課題として残っているかを 正直に共有するためのページです。

current browser default

learned runtime v5 public mode 名は `adaptive_keyed` を維持

mean Δ vs unprotected

+0.0004 broad confirm / same 139-image identity split

mean Δ vs adaptive_keyed_s36

+0.0012 以前の conservative default との比較

face-centered exploratory mean

+0.0160 顔まわりの exploratory では正の signal を確認

Release Verdict

現在の公開標準は、旧 browser 候補より改善しています。

指標
status confirm_competitive
mean Δ vs unprotected 0.000439
median Δ vs unprotected 0.000106
positive split rate 50.0%
mean Δ vs adaptive_keyed_s36 0.001211
mean Δ vs watermark_bundle_light_wm 0.000875
p05 / p10 -0.0057 / -0.0036

public product ではこの runtime を使っていますが、claim は browser-first の投稿前フィルタに限定しています。superiority や universal protection は まだ主張しません。

Interpretation

この結果から言えること

  • best browser candidate は、旧 APDM bridge と field bridge を broad confirm で上回りました。
  • face-centered exploratory signal は強く、identity 領域での disturbance は作れています。
  • 一方で broad confirm はまだ揺れがあり、条件によって強さが変わります。
  • だから public copy は「投稿前 workflow を整える browser studio」に止め、強い防御 claim を避けています。

Before / After / Diff

標準設定の見え方

Current standard runtime triptych
Before / After / Diff x14. 見た目の破綻を抑えつつ、画像全体へ薄く差分を入れる設計です。なるべく元の画像の見栄えを変えないために色の変化が少ない画像左側ではフィルターの色の変化が抑えられています。
PSNR 37.03 dB
SSIM 1.0000
ΔE2000 1.77
changed pixels 98.7%

PSNR は元画像との距離の目安です。高いほど、ぱっと見の差が小さい状態を意味します。

SSIM は構図や輪郭の似かたの目安です。1 に近いほど、形の崩れが少ないと読みやすい数値です。

ΔE2000 は色のズレの目安です。低いほど、色の違和感が小さい状態を意味します。

changed pixels は差分が入った画素の割合です。どのくらいの範囲に保護差分が広がっているかを見るための目安です。

Mechanism & Analysis

現行 runtime は、局所マスク付きの有界残差写像として実装されています。

現在の public default は、画像から明るさ・彩度・エッジ・テクスチャ・顔周辺の事前分布を読み取り、その情報を使って ごく小さい残差 を RGB に戻す設計です。ここで厳密に言えるのは、「どの特徴から差分を作るか」と 「差分量がどの上界の中に必ず収まるか」です。

1. 局所マスクの定義

各画素 i について、テクスチャ T_i、コントラスト C_i、平坦領域罰則 F_i、肌色罰則 S_i、色の逃がし R_i を計算し、局所マスクを

mi=clip ⁣(Ji(0.28+0.72Ti)(0.42+0.58Ci)(1αFi)(1βSi)+0.08Ri, 0, 1)m_i = \operatorname{clip}\!\left(J_i (0.28 + 0.72T_i)(0.42 + 0.58C_i)(1-\alpha F_i)(1-\beta S_i) + 0.08R_i,\ 0,\ 1\right)

で作ります。コード上で clip を使っているため、常に 0 ≤ m_i ≤ 1 です。

2. learned head の残差

learned runtime head は入力特徴 x_i から隠れ写像 h_k(i) を作り、luma / chroma 残差へ写します。

hk(i)=tanh ⁣(γ[(wkxi)+(Kkx)i+bk])h_k(i) = \tanh\!\left(\gamma\left[(w_k^\top x_i) + (K_k * x)_i + b_k\right]\right)
gi=σ(gatei+bg)((1ρm)+ρmmi)((1ρf)+ρffi)g_i = \sigma(\operatorname{gate}_i + b_g)\,\bigl((1-\rho_m)+\rho_m m_i\bigr)\,\bigl((1-\rho_f)+\rho_f f_i\bigr)
Δiraw=sgi[BLtanh(i), BCtanh(ai), BCtanh(bi)]\Delta_i^{\mathrm{raw}} = s\, g_i \left[\, B_L \tanh(\ell_i),\ B_C \tanh(a_i),\ B_C \tanh(b_i) \,\right]

tanhσ は有界なので、ここだけでも差分は必ず有限範囲に入ります。

3. 射影による上界保証

最終段では、global budget と local budget の 2 段で差分を必ず切り詰めます。

μi=clip ⁣(mi(0.46+0.54ji)(10.32qi), 0.07, 1)\mu_i = \operatorname{clip}\!\left(m_i(0.46 + 0.54j_i)(1 - 0.32q_i),\ 0.07,\ 1\right)
ΔL(i)MLsμi(10.5qi)|\Delta_L(i)| \le M_L\, s\, \mu_i\, (1 - 0.5q_i)
ΔA(i)2+ΔB(i)2MCsμi(10.22ri)\sqrt{\Delta_A(i)^2 + \Delta_B(i)^2} \le M_C\, s\, \mu_i\, (1 - 0.22r_i)

したがって、flat な領域や肌色寄りの領域では差分が自動的に細く抑えられます。

4. コード上で厳密に言える保証

  • 有界性: 各画素の luma / chroma 残差は、上の budget を超えません。
  • 決定性: 入力画像・設定・seed が同じなら、出力は同じです。
  • 局所適応: テクスチャ、顔周辺、平坦領域、肌色領域で差分量が系統的に変わります。

ここでの理論保証は「差分写像の上界」に関するものであり、特定の生成攻撃に対する成功率そのものを閉形式で証明したものではありません。

Case Study

保護あり・保護なしで、生成のまとまりがどう変わるか

下のグリッドは、同じ prompt 群を保護なし / 保護ありで並べた比較です。保護なしはまとまりやすく、保護ありは一部で揺れが増える、という読み方をしやすいように並べています。

Generation comparison grid for protected and unprotected images
参考記事のように「保護あり・保護なしで生成がどう変わるか」を見るためのケーススタディです。数式よりも、まず見た目の違いが分かるようにしています。

この比較では、保護後の方が、背景や細かな模様のまとまりが崩れやすくなっていることが見て取れます

By Transform

どの変換で残り、どこで落ちるか

Transform breakdown chart
identity は正、social_media もわずかに正、jpeg_resize が弱い。current browser default の改善余地が見える部分です。

Transform Table

transform ごとの broad confirm

transform mean Δ vs unprotected
identity +0.001232
social_media +0.000458
jpeg_resize -0.000372

broad confirm の transform 別平均です。marketing 用の cherry-pick ではなく、current default を選ぶときに見た slice をそのまま載せています。

By Family

identity family ごとのばらつき

family mean Δ vs unprotected
identity_confirm_c +0.005770
identity_confirm_a +0.000929
identity_confirm_d -0.001649
identity_confirm_b -0.003293

Plain Explanation

このモデルは、どんなものか

いまの標準保護は、絵を大きく壊してしまう強いフィルタではありません。むしろ、「見た目をできるだけ保ちながら、投稿前に少し整えておくための薄い保護フィルタ」に近いです。

たとえるなら、絵に分厚い鎧を着せるのではなく、見た目をあまり変えない薄い上着を着せるようなものです。だから公開画像としては使いやすい一方で、どんな条件でも強く守れるとはまだ言えません。

研究結果から分かるのは、このモデルは「ブラウザで完結すること」「画像を預からないこと」「見栄えを崩しにくいこと」を優先した設計だということです。強い防御の約束より、まず安心して使える投稿前スタジオとして成立させる方を優先しています。

つまり今の Saimaku は、魔法の完全防御ではありません。けれど、画像を預けたくない人が、見た目を確認しながら標準保護と透かしをまとめてかけられる、軽くて使いやすい道具としては十分意味があります。