Insight

経営研レポート

ChatGPTが投げかけたAI学習と著作権侵害の波紋

～今だからこそ確認しておきたい「AI学習における著作物利用」の国内法解釈～

2023.04.27

金融政策コンサルティングユニット
エグゼクティブスペシャリスト
三笠　武則

はじめに
1.国のAI戦略の想定を超えた生成系AIのインパクト
2.ChatGPT等の生成系AIに見る「学習用データの著作権問題」
3.世界に先駆けて「AI学習目的での著作物収集・利用」の活性化に踏み込んだ我が国の著作権法
4.日本の著作権法はどのようなケースで適用されるか
5.国内法で著作権侵害が認められるケースとは
6.国内法が認めるAI学習における著作物の利用を利用規約等で制限したらどうなるか
7.今後の展望

はじめに

本原稿の法解釈は令和3年度に経済産業省が開催した「新たな知財制度上の課題に関する研究会」における整理に基づいている。この整理の詳細や検討の経緯については、「令和３年度産業経済研究委託事業（海外におけるデザイン・ブランド保護等新たな知財制度上の課題に関する実態調査）調査報告書」*の別紙２「新たな知財制度上の課題に関する研究会報告書」を参照されたい。

* https://www.meti.go.jp/policy/economy/chizai/chiteki/pdf/reiwa3_itaku_designbrand.pdf

1.国のAI戦略の想定を超えた生成系AIのインパクト

Deep Learningが本格的に実用化された2012年頃からわずか10年間でAIの利活用は急速に進展してきた。まずはAIが「人間の機能／操作・知識・能力を補う、置き換える、自動化する」ことが実用化されたが、この時点では基本的にAIが生み出すものを人が予見できていたと言って良いだろう。

さらに近年では、我が国のAI戦略（AI戦略2022）に見られるように、AIを「激甚災害、パンデミック、サステナビリティ等の国家／地球規模の危機への対処」や「健康・医療・介護、農業、インフラ・防災、交通インフラ・物流、地方創生、ものづくり、安全保障等の我が国ならではの課題への対処」に戦略的に適用していくビジョンが提示されている。この段階では、特定の対象と目的のためにAIと人が協調することが想定されている。

このような状況の中で、ChatGPT、Stable Diffusion、Midjourney等に代表される生成系AIが急激な進展とともに登場して世界を席巻するに至った。生成系AIは全くオリジナルのデジタル画像・動画、オーディオ、テキストを創造性かつ現実性を持って生み出すものと定義されており、対象や目的・用途を限定することなく、人と同等／またはそれに近い創造・企画・アイデア提案・解説・総括を生み出すことができる。

このため、AIが生み出すものを必ずしも人が予見できない事態が生じ始めていると言えるだろう。この事態に大きな衝撃を受けた国際社会は、生成系AIの可能性を受け入れるべきか、その独走に歯止めを設けるべきかで活発な議論を展開しているところである。ある意味、生成系AIは国の戦略・ビジョンを目覚ましい速度で追い越してみせたと言っても良いのかも知れない。

2.ChatGPT等の生成系AIに見る「学習用データの著作権問題」

2.1 著作権法上の課題

生成系AIの学習済みモデルを作成するためには、大量のデータを収集しAIに学習させる必要がある。例えば、ChatGPTのような大規模言語モデルを作成するためには、大量の自然言語データを収集する必要があり、Midjourneyのような画像生成AIを作成するためには、大量の画像データを収集する必要がある。

そして、例えば、このような自然言語データや画像データは、「著作物」（著作権法2条1項1号）にあたるものも多いため、このようなデータを利用するためには、著作権法上の課題をクリアにしておく必要があるといえる。

また、クリエイターの中には、自分の著作物がAIの学習に利用され、その結果、精度を高めたAIにより自身の仕事を奪われることについて、危機感や課題意識を持つ者もいるのではないかと考えられ、ChatGPT等の生成系AIは、著作権法上の課題だけではなく、社会的な課題も提起しているといえる。

実際に米国では、アーティストがMidjouney等に対しAIの学習用に無断で著作物を利用されたとして集団訴訟を提起している。また、ChatGPTに対しては、ダウジョーンズがウォールストリート・ジャーナルの記事を無断で利用していると非難したほか、CNNも同様の抗議を行っており、ライセンス交渉の破綻によって訴訟に発展する危惧もあると言われている。

2.2 著作権侵害以外でも生じうる問題

生成系AIが生じうる法的問題は、著作権問題に限った訳ではない。本稿では取り扱わないが、国際社会では他にも色々な問題が指摘されている。まずは、プライバシー侵害への懸念がクローズアップされている。伊政府は3/31にChatGPTの使用を一時禁止して、GDPR（EUの一般データ保護規則）に照らしてプライバシー侵害がないかの調査を開始したが、仏、独等が同様の調査を行っていると言われている。

EU幹部が生成系AIの規制法の年内決定に言及したとの報道もある。米商務省、英当局、加当局も規制に向けた意見募集や苦情に対する調査を進めているとのことである。

プライバシー侵害の問題は次の２つの観点に分けて考える必要がある。

ChatGPTは個人情報を含むデータも用いてAI学習をしているという懸念があり、アウトプットがプライバシーを侵害する恐れがある
ChatGPTの利用時に入力した個人情報を含むデータがAI学習に使用され、アウトプットがプライバシーを侵害する恐れがある

ここでは詳細は省くが、GPT-4の技術文書、ChatGPTのプライバシーポリシー、APIデータ利用ポリシー等に基づくと、上記の懸念は必ずしも否定できないのが実状であると言える。

この他、ChatGPT利用時に営業秘密を入力すると、個人情報と同じように、その秘密が漏えいする懸念を否定できない。また、アウトプットが誤った内容を含んでいてこれが問題に発展する危惧や、アウトプットが差別などの人権侵害や偏見を助長する表現を含んでいて社会にインパクトを与える懸念なども指摘されている。教育現場における学生の不正も深刻に捉えられていると言えるだろう。

3.世界に先駆けて「AI学習目的での著作物収集・利用」の活性化に踏み込んだ我が国の著作権法

2.1のとおり、生成系AIを作成するために著作物を収集するにあたっては、著作権法上の課題をクリアにする必要がある。しかし、実は、この課題については、日本では、著作権法2018年改正により、ほとんどの部分がクリアにされている。

すなわち、著作権法2018年改正で、著作権法30条の4が改正され、情報解析のためであれば、基本的に著作物を自由に利用することができることとされている（著作権法30条の4第2号）。

表１　著作権法30条の４第2号

（著作物に表現された思想又は感情の享受を目的としない利用）

第三十条の四　著作物は、次に掲げる場合その他の当該著作物に表現された思想又は感情を自ら享受し又は他人に享受させることを目的としない場合には、その必要と認められる限度において、いずれの方法によるかを問わず、利用することができる。

ただし、当該著作物の種類及び用途並びに当該利用の態様に照らし著作権者の利益を不当に害することとなる場合は、この限りでない。

一　著作物の録音、録画その他の利用に係る技術の開発又は実用化のための試験の用に供する場合

二　情報解析（多数の著作物その他の大量の情報から、当該情報を構成する言語、音、影像その他の要素に係る情報を抽出し、比較、分類その他の解析を行うことをいう。第四十七条の五第一項第二号において同じ。）の用に供する場合

三　前二号に掲げる場合のほか、著作物の表現についての人の知覚による認識を伴うことなく当該著作物を電子計算機による情報処理の過程における利用その他の利用（プログラムの著作物にあっては、当該著作物の電子計算機における実行を除く。）に供する場合

著作権法30条の4は、営利目的の場合にも適用される点やあらゆる著作物の利用行為にも適用される点で、諸外国と比較しても、AI学習のための著作物の利用を広く認めている規定といえ、AIのモデル作りを活性化させるものといえる。

このように、AI学習のための著作物の利用を広く認めている日本の状況は、「機械学習パラダイス」ともいわれている。

4.日本の著作権法はどのようなケースで適用されるか

このように、日本の著作権法は、AIのモデル作りとの関係で、広く著作物の利用を認めているが、（外国の著作権法ではなく、）日本の著作権法がどのような場合に適用されるのか、という問題がある。これが準拠法の問題である。

著作権侵害が問題となる場合、一般的に、著作物が利用された地の法が準拠法として選択されると考えられている。このため、コンテンツを提供しているサイト等の運営者の所在地や、コンテンツが提供されているサイトのサーバーの所在地は、利用行為が行われた地とは関係がないので、これらが日本国内にあっても、それだけでは日本が利用行為地であるとはいえない。

例えば、著作物を利用したAI学習をどの国で実施しているか、その際に用いたサーバーがどの国に所在しているか等が考慮され、準拠法が決定されることになる。

5.国内法で著作権侵害が認められるケースとは

3．のとおり、我が国は、AI学習のための著作物の利用を広く認めているといえるが、著作権法30条の４柱書ただし書では、「ただし、当該著作物の種類及び用途並びに当該利用の態様に照らし著作権者の利益を不当に害することとなる場合は、この限りでない。」と規定されており（表1参照）、この規定に当てはまる場合は、例外的に著作権侵害が認められることになる。

法解釈においては、どのような場合に「著作権者の利益を不当に害することとなる場合」に該当するかがポイントになる。この点については、諸説指摘されているものの、「新たな知財制度上の課題に関する研究会（以後、「研究会」）」ではこのポイントを３つの観点から検討しており、基本的にはこの３つの観点すべてに合致すると判断されれば、「著作権者の利益を不当に害することとなる場合」に該当すると解釈できる可能性が高いと整理している。

表２　「著作権者の利益を不当に害することとなる場合」への該当性を判断する３つの観点

① 情報解析を行う者の用に供するために作成され（例えば、大量の情報を容易に情報解析に活用できる形で整理し）販売されているか

② データベースの著作物であるか

③ 情報解析目的で複製等する場合か

【「①情報解析を行う者の用に供するために作成され（例えば、大量の情報を容易に情報解析に活用できる形で整理し）販売されているか」への該当性についての解釈】

研究会の議論では、次のように指摘されている。

著作物にクレンジング・アノテーション等が施されている AI 学習用データセットについては、「情報解析を行う者の用に供するために作成され」たといえる可能性がある。従って、こうしたAI学習用データセットが有償で提供されていれば、上記条件に該当する可能性がある。
また、データベースが無償で提供されていても、別途広告収入を得ている場合には、当該データベースを複製のうえ自らのホームページに掲載し広告収入を得るときは、「著作権者の利益を不当に害する」といえる可能性がある。

【「②データベースの著作物であるか」への該当性についての解釈】

「データベースの著作物」については、「「情報の集合物」であり、「電子計算機を用いて検索することができるように体系的に構成したもの」のうち、「情報の選択」又は「情報の…体系的な構成」に「創作性」を有するもの」と定義されている（著作権法 2 条 1 項 10 号の 3、同法 12条の 2 第 1 項）。

ここでは、「情報の選択」又は「情報の体系的な構成」に創作性が表れているかが論点となる。「情報の選択」の創作性については、研究会の議論では次のように指摘されている。

効率的な学習のために、収集したデータから異常値を除外する等のクレンジング行為を行っている場合、「情報の選択」に創作性が認められる可能性がある。

一方、「情報の体系的な構成」の創作性については、研究会の議論では次のように指摘されている。

アノテーションは、アイデアを一義的に表現したものに過ぎず、「情報の体系的な構成」における創作性は一般的には認められない。しかし、各著作権者等から提供を受けた個々の著作物に対し、一定の手法・要素でアノテーションや属性情報を付すことにより、提供を受けた著作物（情報）を総体としてみたときに「情報の体系的な構成」が認められる可能性がある。当該アノテーション等の情報付加の手法が、ありふれたものでない場合には、「情報の体系的な構成」に創作性が認められる可能性がある。

オブジェクトデータベースについては、検索に資するように「情報を体系的に構成」しており、加えて当該「情報の体系的な構成」がありふれたものでない場合に、「情報の体系的な構成」に創作性が認められる可能性がある。

【「③情報解析目的で複製等する場合か」への該当性についての解釈】

コンテンツ提供サイト等を念頭においた場合、どのようなときに情報解析用のデータベースの著作物を「情報解析目的で複製等」したと言えるかについては、研究会での議論から次の点が指摘されている。

データベース全体をダウンロードしている場合に、ディープラーニング用に作成された AI 学習用データセットをディープラーニングに利用する場合には、情報解析用のデータベースの著作物を「情報解析目的で複製等」したといえる可能性がある。

なお、「情報解析目的で複製等」したと言える場合であっても、ルールベースに基づくプログラムを開発するために作成されたデータセットを、さらに加工した上でディープラーニングに利用する場合は、著作権者の本来的な利用市場と衝突していないため、「著作権者の利益を不当に害する」といえない可能性があることを付記しておく。

【ChatGPTのAI学習についての考察】

ChatGPTのAI学習に、仮に我が国の著作権法が適用されるとするならば、ChatGPTがAI学習で用いている収集データが上記①～③のすべてを満たしていれば「著作権者の利益を不当に害することとなる場合」に該当し、著作権侵害が認められる可能性が生じる。

①～③の条件に該当しうるケースを改めて記載してみると次のようになる。これらすべてが満足されるAI学習用収集データは決して多いとは言えないものの、全くないとも言い切れないのが実状と推察される。

著作物にクレンジング・アノテーション等が施されている AI 学習用データセットであって、有償で提供されている。

効率的な学習のために、収集したデータから異常値を除外する等のクレンジング行為を行っており、加えて各著作権者等から提供を受けた個々の著作物に対しありふれたものではない一定の手法・要素でアノテーションや属性情報を付与している。

ディープラーニング用に作成された AI 学習用データセット全体をダウンロードし、ディープラーニングに利用している。

6.国内法が認めるAI学習における著作物の利用を利用規約等で制限したらどうなるか

インターネットで公開されたコンテンツ提供サイト等では、提供している著作物をクローリング等で収集してAI学習に用いることを、利用規約等で禁止しているケースが見られる。

著作権法によってAI学習での利用が認められる（我が国の著作権法では著作権者の利益を不当に害することがない場合。詳しくは5.を参照。）

著作物の利用行為を契約により制限する場合、このような契約条項は「オーバーライド条項」と呼ばれている。オーバーライド条項が適用される場合、ChatGPT等のAI学習のために対象となる著作物を利用することで、損害賠償を請求される可能性が生じる。

そこで以下では、どのような場合にオーバーライド条項が有効に働くのかを考察する。具体的には、①契約が成立しており、②利用規約等の規定がAI学習のための「利用」を制限していると認められたことを前提として、オーバーライド条項の有効性が問われることになる（図1参照）。

6.1 コンテンツ提供サイト等で契約が成立する／しないケース

インターネットで公開されたコンテンツ提供サイト等が提示するオーバーライド条項を含むサイト利用規約は、一般には「定型約款」（民法548条の2第1項柱書）に該当することが多いが、これに該当せず利用者との契約に組み入れられるケースも存在している。

以下では、「定型約款」に該当するケース／しないケースのそれぞれについて、契約が成立するケース／しないケースに関する研究会の整理を紹介する。

(1)定型約款の場合

定型約款の場合は、定型取引合意（定型取引を行うことの合意）が認められるかがまず問われる（民法548条の2第1項柱書）。具体的には、コンテンツ提供サイト等からコンテンツをダウンロードする行為が定型取引合意に該当するのかが論点となる。

ここでは当事者による取引を行う意思が認定されることが必要であり、当事者の主観面または「客観的に認定できるか」が考慮される。

次に、コンテンツ提供サイト側があらかじめその定型約款を契約の内容とする旨を相手方に表示していることが必要となる（民法548条の2第1項2号）。研究会では、下記A)は「あらかじめその定型約款を契約の内容とする旨を相手方に表示している」といえ、B)はそうとはいえないと整理している。

A) コンテンツのダウンロードボタンの横に利用規約のリンクが掲載してある等、利用者が利用規約を容易に認識できるといえる場合

B) 利用規約が目立たない位置に掲示してある場合等、利用者が利用規約の存在を認識することが容易でないと考えられる場合

(2)定型約款に該当せず、利用規約が利用者との契約に組み入れられるケース

このケースでは、次の2点が満足されれば契約が成立すると考えられる（民法522条1項、経済産業省「電子商取引及び情報財取引等に関する準則」（令和2年8月））。

① 利用規約があらかじめ利用者に対して適切に開示されていること

② 利用者が利用規約の条件に従って取引を行う意思をもって取引を申し入れたと認定できること

研究会では、上記B)は①を満足しないと整理できるとしている。従って、契約を成立させるためにはA)のような表示態様が求められると考えられる。

一方②については、研究会では次のような考え方が指摘されている。

利用者側に利用規約の条件に従って取引を行う意思がないのであれば、当該利用規約に基づく契約は成立しない。

コンテンツや学習用データセットのダウンロードボタンの横にわかりやすく利用規約のリンクが掲載してあるなどの場合（上記 A）に該当）には、客観的に見て利用者による取引の申入れを認定でき、当該利用規約に基づく契約が成立する。

利用者に利用規約にしたがい取引を行う意思がない場合であっても、個別の事情により、利用者において契約が成立していないと主張することが信義則に反すると認められるようなときは、契約が成立していないとの主張を行うことができず、その結果、当該利用規約に基づく契約が成立したものとして扱われる。

6.2 規約上の「利用」等はどのように解釈されるのか

インターネット上のコンテンツ提供サイト等の利用規約に、次のような著作物の一切の利用等を禁止する定めがあるケースは、実態としてかなり多いものと推察される。

「本サイト上の一切のコンテンツをあらゆる態様で利用［使用］［複製］することを禁ずる」といった著作物の一切の利用等を禁止する契約条項

上記のような定めに対して当事者の意味付与が一致していれば、一致している意味付与にしたがって契約が解釈されるため、特段の問題は生じない。他方で、当事者の意味付与が一致していない場合には、これをどのように解釈するかという問題が生じる。この問題については、当事者の意味付与の正当性がポイントとなる。

ここで、上述のような「著作物の一切の利用等を禁止する契約条項」において、「AI学習等のための利用行為」が制限されているかいないかで当事者の意味付与が食い違っていると仮定しよう。このケースについて、研究会は「著作物の一切の利用等を禁止する契約条項が定められていたとしても、「AI 学習等のための利用行為」は制限されていないとの解釈について、相当程度、正当性が認められる」と整理している。

従って、コンテンツ提供側が利用規約で著作物の一切の利用等を禁じていたとしても、生成系AI側がコンテンツ提供サイト等でダウンロードした著作物をAI学習等で利用できると解釈することは、「相当程度正当性が認められる」可能性がある。

6.3 契約の有効性についての解釈のあり方

利用規約に基づく契約が成立しており、当該利用規約がAI学習のための利用を制限していると解釈される場合でも、次に、AI学習のための利用を制限する利用規約の有効性が問題となる。

すなわち、著作権法30条の4等の権利制限規定は、著作権法が利用者にあえて著作物の自由な利用を認めているともいえるが、このように著作権法上は自由に行うことができる行為を契約により制限する場合、そのような契約条項（オーバーライド条項）は無効になるのではないかということである。

オーバーライド条項を無効とする理屈の1つに、著作権法上の権利制限規定が強行規定にあたるため、オーバーライド条項は無効になるのではないかというものがある（民法91条反対解釈）。

強行規定とは、その規定と異なる内容の合意をした場合にそのような合意を無効とする規定なので、権利制限規定が強行規定であれば、これに反する合意をしても無効となる。もっとも、著作権法上の権利制限規定は、一般的には、強行規定であるとは考えられておらず、オーバーライド条項も直ちに無効であるとは考えられていない。

著作権法上の権利制限規定が強行規定であることを理由に、オーバーライド条項が無効とは考えられないとしても、権利制限規定の趣旨等の諸要素を総合的に考慮して、オーバーライド契約が公序良俗（民法90条）に反する場合には、そのような契約は無効となる。

そして、そもそも著作権法30条の4はイノベーションの促進等の公益目的の達成を目的として創設された規定であるにもかかわらず、オーバーライド契約を有効と考えると、このようなイノベーションの促進等を阻害し著作権法30条の4の目的を達成できなくなる。

このような点も考慮し、研究会では、AI学習のための著作物の利用を制限するオーバーライド条項は、その範囲において、公序良俗に反し無効とされる可能性が相当程度あると整理している。

6.4 利用規約による制限が有効と解釈されやすいケースとは

6.3のとおり、研究会では、AI学習のための著作物の利用を制限するオーバーライド条項が無効とされる可能性が相当程度あると整理しているが、研究会では、例えば、利用規約にAI学習等のための利用行為が禁止される旨が明確に規定されており、かつ、当該利用規約が利用者に明確に認識することができる態様で表示されている場合に、利用者が「同意」ボタンをクリックするなどの方法により当該利用規約に明示的に同意しているときに、当該利用行為の制限を無効と考えることは当事者間の信義・公平を害するおそれがあるとして、このような場合には、オーバーライド契約は有効と解釈されやすいのではないかとの整理も行っている。

7.今後の展望

著作権法との関係において、日本が「機械学習パラダイス」とも称されている中、今後も、ChatGPTのような生成系AIの精度向上のために多くの著作物が利用されることが想定される。

このような状況において、クリエイター目線に立てば、自己の著作物の利用を、利用規約等により制限することが1つの手段になることが想定され、研究会ではこの場合の帰結について一定の整理を試みているが、このような利用規約が有効と判断されるのか、どのような場合に有効と判断されるか等については、まだ明確な答えはなく、今後の実務の発展によるところが大きいといえる。

このような状況で、クリエイターとしては、例えば、クローリング防止や侵害検知支援のための技術的対策を講じていくことも必要になってくるだろう。今後、生成系AIの発展の後押しとクリエイターの保護とのバランスについては、立法的な解決も含め模索されることになると考えられ、引き続き動向を注視していく必要がある。

Profile

渡邉遼太郎

弁護士法人YMP　弁護士

2015年弁護士登録、東京八丁堀法律事務所入所。2019年経済産業省知的財産政策室に出向し、知的財産・不正競争防止法関連政策に従事。また、同省新規事業創造推進室の業務を兼任し、グレーゾーン解消制度・規制のサンドボックス制度等の運用に従事。2022年東京八丁堀法律事務所に復帰。2023年4月から弁護士法人YMPに参画し、知的財産関連法務、データ・AI関連法務、スタートアップ・新規事業支援等に従事。

三笠武則

株式会社ＮＴＴデータ経営研究所　エグゼクティブスペシャリスト

一般社団法人日本クラウド産業協会理事を兼務
不正競争防止法を中心とした知財法制の調査研究に従事。秘密の漏えい／内部不正対策、サイバーフィジカル融合分野のセキュリティ対策（サプライチェーンセキュリティを含む）、クラウドサービスのセキュリティ対策等にも精通。
経済産業省「令和３年度産業経済研究委託事業（海外におけるデザイン・ブランド保護等新たな知財制度上の課題に関する実態調査）」を受託して実施。

メールマガジンの登録