このページはアーカイブです。current release verdict と公開上の claim boundary は /research を参照してください。

この記事は、emamori の検証記事が採っていた「LoRA とは何か」「保護で何が起きれば効いたと言えるか」「実際の生成結果をどう読むか」という流れを参考にしつつ、 Saimaku の現状の evidence を同じ問いに沿って書き直したものです。

AI学習からイラストを保護する「saimaku」の効果を検証する

AI 学習対策ツールで最初に知りたいのは、理論や数式よりも「結局どのくらい効くのか」です。とくに、同じキャラクターの画像を十数枚集めて LoRA を作るような使い方に対して、生成結果がどれだけ不安定になるかは、著作者にとって非常に重要です。

Saimaku はブラウザ内で低コストに動く runtime を前提にしているので、研究用の重い per-image 最適化とは性格が違います。だからこそ、見た目を壊しすぎないことと、学習しやすさをどこまで揺らせるかの両方を並べて読む必要があります。この記事では、東北ずん子のイラスト群を使って、その点をできるだけ正直に整理します。

結論 1

見た目の変化はかなり小さく抑えられています。白背景中心のキャライラストでも、背景を大きく汚さずに保護をかけられます。

結論 2

compact benchmark では `adaptive_keyed 100%` の resistance score 平均が `0.100429`、無加工が `0.100440` で、平均だけでは無加工を明確に超えていません。

結論 3

現時点の読み方は「低可視差分の投稿前フィルタ候補」です。強い personalization 耐性を普遍的に証明した段階ではありません。

LoRA とは何か

Stable Diffusion のような画像生成モデルは、すでに大量の画像で事前学習されています。その上に、特定のキャラクターや作風を少ない枚数で追加学習する方法のひとつが LoRA です。少ない計算コストで回せるため、個人でも扱いやすく、キャラクター模倣や作風寄せに使われやすいのが厄介な点です。

著作者目線では、「数十枚なくても、それっぽいキャラや雰囲気を再現できてしまう」ことが問題になります。なので防御側も、単に画像の特徴量を少しずらすだけではなく、最終的に学習後の生成がどう見えるかで評価しなければ意味がありません。

Saimaku で期待する効果

参考記事では、「保護が効いていれば、LoRA で生成した絵にノイズや破綻が増え、元キャラの安定再現が落ちるはずだ」という見方をしていました。 Saimaku でも、基本の考え方は同じです。ただし、Saimaku は browser-first runtime なので、見た目を激しく壊す方向ではなく、できるだけ自然に見せたまま学習側の安定性を崩すことを狙います。

髪色、目色、ヘアバンド、衣装といった記号的な属性の再現が不安定になるか。
同じ prompt でも、無加工より生成のまとまりが落ちるか。
その代わりに、公開画像としての見た目は壊しすぎていないか。

つまり、Saimaku の評価は「どれだけ派手に壊せたか」ではなく、「投稿物として使える見た目を保ちながら、どれだけ学習結果を揺らせたか」で見ます。

検証の準備

今回使うのは `imgs/zunko` に含まれる東北ずん子イラスト群です。全体では 61 枚あり、その中から制服、弓 + 和装、日常和装の 3 カテゴリを切り出して使っています。参考記事が 16 枚の同一キャラセットで実 LoRA を比較していたのに対し、こちらはカテゴリ別の compact benchmark と SD1.5 probe の両方を見る構成です。

データ: 東北ずん子イラスト群 61 枚
カテゴリ: 制服 / 弓 + 和装 / 日常和装
比較方法: 無加工、`adaptive_keyed 72%`、`adaptive_keyed 100%`、trade-off 用に `adaptive_keyed 36%`
見るもの: 保護前後の見た目、compact benchmark、strength trade-off、SD1.5 probe case

まずは保護後の見た目を見る

最初に確認すべきなのは、保護後の画像が公開物として成立するかです。ここで大きく見た目が崩れてしまうなら、たとえ benchmark が多少良くても運用には乗りません。各カテゴリの triptych は、元画像、保護後、差分強調をまとめたものです。

制服カテゴリ

zunko, 1girl, solo, full body, school uniform, white background, anime illustration

使用サンプル: zko (12).png, zko (28).png, zko (48).png, zko (51).png

弓 + 和装カテゴリ

zunko, 1girl, solo, full body, japanese clothes, bow and arrow, white background, anime illustration

使用サンプル: zko (11).png, zko (41).png, zko (46).png, zko (9).png

日常和装カテゴリ

zunko, 1girl, solo, full body, short kimono, white background, anime illustration

使用サンプル: zko (14).png, zko (31).png, zko (39).png, zko (40).png

見た目の傾向としては、白背景のような平坦部を大きく荒らさず、髪の縁や衣装の陰影寄りに差分を寄せています。これは Saimaku の方針どおりですが、同時に「見た目が控えめだからこそ、LoRA への効きも強すぎない可能性がある」という含みも持ちます。

compact benchmark の結果

参考記事が「実際に LoRA を作って出力を見る」ことを主軸にしていたのに対し、Saimaku 側ではそこに compact benchmark を重ねています。ここでは、見た目の差だけでなく、同一カテゴリ・複数条件で平均するとどうなるかを確認します。

method	PSNR mean	ΔE2000 mean	resistance score mean	resistance score std
無加工	99.00	0.000	0.100440	0.002080
adaptive_keyed 72%	40.87	0.703	0.100091	0.000190
adaptive_keyed 100%	38.81	0.862	0.100429	0.002076

ここで重要なのは、`adaptive_keyed 100%` の平均が `0.100429` で、無加工の `0.100440` にかなり近いことです。つまり、この compact 条件だけを見る限り、「Saimaku が無加工をはっきり上回った」とは言えません。`adaptive_keyed 72%` は PSNR `40.87 dB`、 ΔE2000 `0.703` と見た目寄りですが、score 平均は `0.100091` に留まります。

この読み方は大事です。見た目が自然だからといって効いているとは限らず、逆に数値が少し動いたからといって十分に効いたとも言えません。だからこそ、参考記事と同じく最終的な生成の見え方も別に確認します。

PSNR と resistance score の trade-off chart — PSNR と resistance score の trade-off。画質と揺らしやすさを同時に見ないと、強度の意味を読み違えます。

強度を上げれば良いわけではない

保護ツールは「強度を最大にすれば最も安全」と思われがちですが、実際にはそう単純ではありません。今回の trade-off を見ると、 `adaptive_keyed 36%` は PSNR `44.18 dB`、resistance score 平均 `0.100031` で、見た目はかなり保ちやすい一方、効きは控えめです。

method	PSNR mean	ΔE2000 mean	resistance score mean	resistance score std
adaptive_keyed 72%	40.87	0.703	0.100098	0.000205
adaptive_keyed 100%	38.81	0.862	0.102161	0.004694
adaptive_keyed 36%	44.18	0.466	0.100031	0.000083

`100%` は平均 score こそ上がっていますが、標準偏差も大きく、一貫して良いとは読めません。つまり Saimaku の現在の main method は、「強くすればするほど安定して良くなる」タイプではなく、見た目と効きのトレードオフを見ながら使う必要があります。

最後に、生成結果を直接見る

参考記事の価値は、最終的に生成された画像を読者自身が見て判断できる点にありました。Saimaku でも同じで、最終的には prompt を投げたときのまとまり方を見る必要があります。以下は SD1.5 probe case の比較グリッドです。

ここでは、一部の prompt で再現のまとまりが落ちて見える一方、すべての prompt で明確に崩れているわけではありません。つまり、Saimaku の current runtime は「生成結果を多少揺らすことはあるが、安定して大きく壊すところまでは行っていない」と読むのが妥当です。

何が言えて、何が言えないか

言えること: 見た目の違和感をかなり抑えた browser-first protection としては成立していること。
言えること: 無加工公開と全く同じではなく、compact benchmark と probe case の両方で差を観察できること。
言えないこと: どのモデル、どの LoRA 設定、どの attacker budget に対しても強く効くという一般化。
言えないこと: main method 単体で強い personalization 対策が完成したという断定。

ここは参考記事との違いでもあります。参考記事は Mist v2 で比較的はっきりしたノイズ増加を確認していましたが、Saimaku の現在の方法はもっと控えめで、そのぶん結論も mixed です。だからこそ、誇張せずに「いま何が見えていて、何がまだ不足か」を書く必要があります。

最終結論

Saimaku は、見た目を大きく壊さずに投稿前処理をかけたい著作者にとって、ブラウザ完結で扱いやすい選択肢です。ただし、参考記事のように「保護あり LoRA が明確に崩れた」と言い切れるほどの強い evidence は、現行の `adaptive_keyed` 単体ではまだ十分ではありません。したがって、今の正しい受け取り方は、完全防御ではなく低可視差分の投稿前フィルタです。

visible watermark、公開解像度、公開枚数の設計と組み合わせつつ、どの強度が自分の作品に合うかを確かめながら使うのが現実的です。研究の補足は Research、ブラウザでの実運用は Studio から確認できます。