金原ひとみや村上春樹は小説投稿サイトからデビューしようとしても安物のAIに阻止されるだろうという話

ウェブ小説サイトは色々ありますが、Pixivと「小説家になろう」のR18部門を除くと、カクヨムやエブリスタなど多分どこも曖昧な基準で「これは修正しないとR18扱いだから消すぞ」というメールを作者に送りつけていて、結構な問題となっています。

x.com
x.com

 

では、小説投稿サイトはどうやってこうした表現を検出しているのだろうか?

小説投稿サイトに入れるからR18の文章表現を検出するプログラムを作れと言われたら、どんなアルゴリズムをプログラマーは考えるだろうか。

おそらく性器や性行為を直截的に表す単語のリストを作り、それらがある範囲内で一定の閾値を越えて使用されているものを検出して報告するようにして、これでどうでしょうと提案する。

そのアルゴリズムが「正しい」のかどうかは誰にも判断出来ない。R18の文章表現は誰にも定義出来ないからだ。だから、納品された側も実際にR18として公開されているテキストを幾つも通してみて、良いのか悪いのかを判断するしかない。例えばR18を100本、R15を100本通して検出精度を確認するなど。

その種の試験に合格したものがサイトに実装される。誰も、自分たちが何を作っているのか理解していない。自分たちには判断出来ないものを判断するプログラムを「えいや」で作る。あとはそのプログラムを通るか通らないかが全ての基準だ。

本来ならば人間の編集者が最終的に可否を個別判断すべきだが。投稿小説でそんな責任を取りたい人間はいないだろう。かくしてよくわからないまま作ってみたアルゴリズムが最終的な性的表現の可否の判定者になる。

だが、このような発想のアルゴリズムには決定的な弱点がある。暗喩や言い換え表現を使われると検出精度は一気に落ちるからだ。ここで話は数年前に新井紀子が出して大当たりした本をめぐる議論と繋がる。東ロボくんというやつだ。

おそらくエブリスタもカクヨムも小説家になろうもアルファポリスも深層学習AI(BERTやGPT-3をベースにした)なんて立派なものは使っていなくて、せいぜいベクトルとクラスタ、コサイン類似、共起分析といった一昔前の技術なのではないか。

だから「何でこれがOKであれがダメなんだ」ということが起こる。

知る限りでは現在の最強レベルの言語処理AIでも小説の創作を「人間と同じレベルで」こなすことは出来ない。であれば、日本語のウェブ投稿小説のR18表現を高精度で検出し該当箇所を指摘するアルゴリズムは存在しないと考えて良いし、ましてや深層学習AIの言語処理機能が投稿サイトに実装されているとは思えない。

小説などほとんど読まない外注先のSIerのプログラマが考えたものを使っているのではないか。

金原ひとみも村上春樹も小説投稿サイトにそのまま小説をアップしたら削除対象だろう。

アップルやグーグルのアプリを出す際にR18表現があると審査を通らないからだという声も聞いたが、文学が安物のAIと巨大IT企業に踏んづけられる世界線は物悲しい。