bohemia日記

おうちハックとか画像処理、DeepLearningなど

国の人工知能の権利や活用の方針を決める委員会を傍聴してきた

こんにちは。ぼへみあです。
先日は、新たな情報財検討委員会という、国のAIに対する方針を話し合う委員会の傍聴の募集があったので、応募してみたら当たったので、 霞ヶ関まで行ってきました。

新たな情報財検討委員会の開催について

ゴジラの対策会議が開かれてそうな会議室でした。
f:id:bohemian916:20161205151538j:plain

検討委員会の概要

この会議は人工知能の中でも特に、ディープラーニングを背景とした機械学習を用いた、産業界での利用が大きく期待出来る「弱いAI」について、国としてどういった方針をとるのかを取りまとめる委員会です。僕が参加したのは、第2回目でした。第1回の内容についてはこちらに資料がまとまっています。

第二回で話し合われた論点のうち、気になったものをまとめました。

人工知能は人間と同じ法律で判断してもいいのか?

まず、意見が割れていたのは、進歩が早すぎる人工知能に対して、どう国として対応すべきなのか、ということです。
既存の著作権法や特許法などに照らし合わせれば、企業や研究機関が人工知能を用いてビジネスを展開する際に微妙な点がいくつか存在します。機械学習を想定していない現行法下では、人工知能の国際競争に乗り遅れる可能性があります。

そこで、現行法の解釈を見直したり改正することで、うまくできないかと考えます。
しかし近年の深層学習領域の発展は著しく、見直したところですぐ技術動向が変化してしまうので、朝令暮改となってしまいます。

そこで、できるだけ技術動向に左右されないような新しい解釈や法律を制定し、中長期的に運用したいところです。

ある委員からはこういう意見が出ていました。

「現行法で人工知能を解釈しようとしているが、人間を前提とした法律で解釈するのはどこかで限界が来る。」
「人格と同様に、AIにも人工知能格を認め、人工知能専用の法律を作ることも並行して検討するべきだ。」

しかし、大きな議論が必要なものを変更する場合、それだけで時間がかかり、競争に乗り遅れてしまいます。 こうした先進的な法律を作ることも大事ですが、すでにアメリカに先を越されている現状では、現実的なアプローチでできるだけ早く、 機械学習に対する状況を改善させることが優先される、という論調が強いように思いました。

学習データセットの収集・配布について

機械学習を行わせるのに、データがなければ何も始まりません。多くの機械学習を始めたいと思っているエンジニアや研究者は、データセットがなくてなかなかできないということも多いと思います。

データがない以上は自分で集める必要があります。清水さんの記事にもある通り、収集については日本の法律ではとても寛容になっています。

d.hatena.ne.jp

簡単に僕の事例で説明します。 以前に、おそ松さんの顔の判別のために、アニメからスクリーンショットを撮りまくってデータセットを作りました。これについては、特に問題ありません。情報解析のための複製に当たるからです。

しかしながら、僕が「おそ松さんの研究を促進させるために、作ったデータセットを配布しよう」と思って配布してしまうと、違法になってしまいます。これは、例の著作権法47条の7に、譲渡は含まれていないからです。

深層学習の普及と発展には、データセットが誰でも簡単に手に入るという状況がとても重要です。
深層学習における一般物体認識の精度がここまで向上したのは、ImageNetと呼ばれる画像データセットを整備し、研究者なら誰でも入手可能な状態にしたからと言われています。

日本には、NIIが提供している情報学データリポジトリがあります。研究者なら申請すればゲットできます。

しかしアメリカでは、こうしたデータセットが自由にやり取りされているそうです。法律的にはNGかもしれませんが。
日本の企業は、法律をはみ出したグレーなことは躊躇ってしまう傾向があるので、こういうことには踏み出せません。 自由なデータセットの流通があれば、深層学習がもっと一般の人に広まると思います。

しかし著作物が含まれるデータセットをオープンにしてしまうと、それも問題があります。
ジブリの映画を、解析者用のデータセットです、といって配布する人が出てくるでしょう。
こうした中、委員会では、人工知能用の図書館構想で盛り上がっていました。
国会図書館にある書籍を、学習用にオンライン公開してしまうというものです。実現できたらすごいですね。

個人的には、作ったデータセットを簡単に共有できる仕組みがあると良いと思っています。 日本は、趣味でモノを作ったり、分析したりする人が多い、Maker文化やユーザー生成コンテンツ文化が強い国だと思います。
アイドルの顔を判別するデータセットを作ってらっしゃるid:sugyanさんや、
ごちうさの顔判別id:kivantiumさんなど、自分の好きなものでやってみたという人がちらほらいます。データセットの作成がネックになっているので、データセットが共有されれば、いろんなことを試す人も増えると思います。こうしたボトムアップな深層学習の普及は、日本にあっていると思います。

Everfilterの剽窃問題とAI生成物への著作権

厳密には、AI生成物の知財の検討は今回の範囲ではなく、次回に行われるそうなので、込み入った議論はされていません。 しかしながら軽く話していた中だけでも、興味を引かれる内容でした。

炎上していたEverfilterが早速議論に上がっていました。

d.hatena.ne.jp

今回問題になっていたEverfilterは、新海誠の作品を剽窃していたことが、人が検証することで発覚しました。
現状でAI生成物の権利が守られないことが問題とされていましたが、逆にAI生成物が権利侵害をするパターンがあることが発覚しました。

本問題では、完全にコピペだったので発覚しましたが、AIは発達していくにつれて
人間が作ったか人工知能が作ったか判別できない時代が想定されます。

そうなると、AI生成物が保護されていない状態だと、AIで作ったものを人間が作ったと主張し、人の創作物として世に出ることが考えられます。すると、人間の創作活動が萎縮されるという課題が想定されていました。

もうこれだけでSFのネタになりそうです。 なのでどこかの段階で、AI創作物を世に出す際には、その旨ががわかるようにマーキングすることが必要になってくるという認識でした。

感想

僕は、個人的にディープラーニングで遊んでブログを書いたりしてますが、仕事でもディープラーニングを使っています。
研究者向けにデータセットを提供する仕事や共同研究の推進、深層学習を用いたシステムの特許出願等も行ったことがあります。 ですので、今回話し合われていた、データセットの作成・収集・配布の問題、学習済みモデルの権利、成果物の取り扱いについては、 ほとんど経験していたことであったので、すっと頭に入ってきました。とても重要な議論だと感じました。

そして何より、人工知能が発展した未来で何が問題になるのか、という議論は、まるで SFの世界みたいなので、めっちゃ面白かったです。