近江龍一他「「ドメインにより意味が変化する単語に着目した 猥褻な表現のフィルタリング 」感想

近江龍一氏を筆頭著者とする、第31回人工知能学会全国大会の報告論文「ドメインにより意味が変化する単語に着目した 猥褻な表現のフィルタリング Study of Harmful Expressions Filtering Focusing on Word’s Meaning Depending on Document’s Domain and Context」を遅まきながら拝読しました。


以下、感想です。


著者らは「1 はじめに」の節の冒頭において、ウェブ上には有害な表現が溢れているとの命題を提示し、その例として「法に触れてしまうものや差別に関するものアダルト系暴力表現ギャンブルに関するもの出会い系グロテスクな表現」を挙げておられます。そしてこの節の最後に、有害な表現の一領域として猥褻という概念を提示し、「猥褻な表現の種類と特徴」を分析した上で、このような表現のフィルタリング機能に活用する手法を提案したいとしています。これが、この研究の目的です。


この節については、ワーディングが安易ではないかという指摘が各所で寄せられています。例えばこちら。http://anond.hatelabo.jp/20170528113521


確かにこれが私の専門分野(社会学・哲学)の雑誌論文であれば、まず何をもって有害とするのかの定義を示さねばなりません。その際、自ら一次資料を集めて論を構築するとそれだけで膨大な文字数を使ってしまうので、現実的には他の論文や公的文書のうち広く読まれて数多く引用されていて、新しめのものを選び、その中の「有害」概念を引用する形を採ります。


この研究では、誰々さんがこの論文で示した「有害」概念に則って議論を展開しますよ、と示すわけです。


その上で、猥褻概念のサンプル群としてPixivのR18指定の小説が妥当である理由を示し、サンプリングを行う。


この研究が上記の部分を端折っていることは事実です。私が指導担当であれば、「ここは整備しておかないと突っ込まれるよ」という注意喚起はしたでしょう。その際、どういった文献をどのように探せば良いかも併せて指導します。特に「猥褻」という語は(そもそも使う必要を私は感じませんが、あえて使う場合も)法律用語として使っているのか、そうでないのかを必ず示す必要があります。


ですが、発表者や指導教員の方々の専門領域を見るに、こうした人社系の研究の土地勘のようなものはお持ちでなくてもしょうがないと思いますし、学会報告というのは、そういう漏れ抜けを集合知によって洗い出して、研究を進化させるためにあるのですから、学会報告の段階でそこまで完璧なものが出来ていなくても、厳しい批判を浴びせるものではありません。この研究が先々、雑誌に投稿される、あるいは学位請求論文の一部になるのであれば、最終的な成果物においてそこが抜けていたら、査読者や指導教員の詰めが甘かったかなあとは思われるでしょうけれども。


とはいえですよ。


常識的に考えれば、自分の小学生の子供にヘイト表現やセックス、バイオレンスなどを平気で見せられるのか、この論文中に引用されたセックスの描写を読ませられるのかと問われた時、YESと答える人は極めて稀でしょう。では何故読ませられないのか。発達段階を考えた時に悪い影響を与える可能性があるから。違いますか じゃあこれはあなたにとっては青少年に対して有害でもなければ、辞書的な意味で猥褻でもないんですかと問われた時に、誰の前でも自信を持ってYESと言えますか


そのように考えた時、筆者たちの思考は、日本語を母語とする成人の話者ならば容易にトレース出来ると私は思います。いや自分は絶対にこれらのサンプル群は有害でも猥褻でもないと思うと主張するのは言論の自由、思想信条の自由ですが、社会において何を猥褻とし、何を有害とするのかという意見の統計を取ったら、それはおそらく極端な外れ値になるでしょう。


ですから、私は「有害」「猥褻」という言葉の拠って立つ根拠を出さなかったところは迂闊だったけれども、まあ実際これは有害で猥褻だよなあと同意するわけです(有害なものや猥褻なものがこの世に存在していけないという主張ではありません。私は有害なものも猥褻なものも大好きです。そうしたものが存在しない、許されない世界などあってはならないとも思っています。多くの成人男性がそうであるように)。


では、そうした表現をわざわざ検索エンジンに出ないPixivのR18領域から抽出する必要はあったのか。


これは私は妥当だと思います。AIを作るにはデータセット、教師データ、アルゴリズムが必要ですが、教師データは人間が準備してAIに提示してやらねばいけません。AIには価値判断は出来ないので、AIを作る人間が価値判断の教師役になって「これはアリ、これはナシ」ということを教えてやる必要がある。


この場合は猥褻表現の教師データを作りたいので、誰かが「未成年には見せられない」と判断したテクストを準備しなければいけません。その際、ウェブ上のテクストから近江氏が一方的に「これは18禁にされるべきテクスト」と判定したものを採集して、それで教師データを作ったら、その方が問題です。何故ならば、そこには近江氏個人の「これは18禁」という価値判断が強く入っているからです。


一方、PixivのR18領域には、書き手自身が「これは未成年には見せられない」と判断したテクストが存在しています。今回はそれを10人分です。つまり10人分のR18判断が平均されたものが教師データとなる。その先の工程であるサンプルテクストの4つのクラスへの分類のロジックはもっと精緻化すべきと感じましたが(具体的には文脈の猥褻性の判定ロジック、間接的な性的表現の判定ロジックが近江氏の主観に依存しすぎかなと)、それもやはり学会の集合知でより良いアイデアを出すのが真っ当なやり方です。


そんな教師データでAIを作ってフィルタリングをしても、そもそもPixivにログインしてR18領域にアクセスしないと読めないんだから意味ないんじゃないか、と思う向きもあるかもしれませんが、このフィルターの目的が、そうした自主ゾーニングをされていないけれども、同程度にセクシャルな文書(例えば個人ウェブサイトに検索ボット避けを入れずにアップされたアダルト小説など)を検出することと考えると、筋は通ります。


サンプル数10は少なすぎるだろうという指摘もありますが、分析対象となった文が7009フレーズというのは、修士1年の5月末の学会報告としては、まあそこまで叩くほどのものとは思いません。709フレーズだったら怒るけど。


近江氏がこの研究を今後も発展させていかれるとしたら、どうすべきか。


やり方は幾つかあると思いますよ。


一つはR18の小説のハードコピーを有償で購入し、それを使って教師データを作ること。論文を読んだ限りでは商業作家の作品(フランス書院文庫とか団鬼六先生とか)を使っても研究の目的は達成出来るような気がします。


もう一つは、素直に同人作家に協力依頼して、例えば30人の作家さんと協力して「R18の同人小説をフィルタリング出来るAI」を作るというやり方。この場合、研究目的はまさに「同好の士以外には見つけて欲しくない2次創作小説を検索エンジンから守るAIの開発」ということになりますね。それは結果的には同人作家の方々の希望する世界でもあると思うのですが、いかがでしょうか。