tak回答ポイント 100pt

機械学習用データ作成のための（web上の）データ収集をしたいと思います。

著作権法47条はもちろん、検索エンジンに限らず情報解析の方にも適応され、機械学習に用いるためのデータ複製も含まれるため、複製が可能です。
もちろんですが作成したデータは公開しない前提です。

データ作成にはどうしても人間が目で見て確認しなければならないため、不特定多数にそのデータ作成の業務を発注したいと思っているのですが、
しかしデータ生成のために必ずマルチメディアファイルを編集しなければならないので
これは必ず、著作物の改変に当たります。

それが違法となる可能性が高いのではないかと思うのですが

しかし
http://search.e-gov.go.jp/servlet/Public?ANKEN_TYPE=3&CLASSNAME=Pcm1090&KID=185000442&OBJCD=&GROUP
提出意見の概要及び意見に対する考え方の　ⅳ　情報検索サービス関係
に基づいて、
受注者が業務の一部を請け負い、人出で情報収集をしていると解釈するならば
受注者がweb上のコンテンツを編集して発注者に渡す事が合法であるとの解釈は出来ないでしょうか？

※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

ログインして回答する

みんなの回答

tak
2017/01/19 11:57:22

扱うデータはマルチメディアデータで
音声の一部を切り出したり、
画像（動画）の一部を切り出したり、変形したデータを受け取りたいです。

この質問へのコメント

椶櫚2017/01/17 21:58:49

「不特定多数」は違うような（特定少数と思われ）。

http://www.bunka.go.jp/chosakuken/naruhodo/outline/4.3.html

> （注）「公衆」とは？

以下参照。

検索エンジン（第四十七条の六）、解析（第四十七条の七）、
それぞれ別物で適用範囲も異なりますから、
検索エンジンに関する質問と回答は参考にしないほうがいいと思います。

著作権法47条の7、で検索すればこんな情報も見つかります。

http://www.jrrc.or.jp/topics/detail/20140829103825.html
> ～第２３回　テキスト・データ・マイニング～
tak2017/01/18 18:24:32

作業者が著作物を改変しても問題は無いという見解でしょうか？
椶櫚2017/01/19 06:39:28

扱うデータがどういう性質のもので（文字・画像・音声、それにサイズ）、
どのように改変するのかが分らないのでコメントのしようがなく、
先のコメントでは改変についてはあえて言及を避けました。
思いついた範囲だけでも解説すると以下のように長文になるのが避けられないからです＾＾；

例えば文章ですと、抽出されたデータのサイズが単語や熟語レベルまで細分化されたものであれば、
もうそれは権利の対象とはならない事実に過ぎないところまで分解されているでしょうから、
著作権など主張できるはずもなく、改変がどうのと気にする必要はありません。
でも、新聞の見出しにも著作権が発生しうるとした裁判所の判断もありますので、
十数文字を越えるような長めの文字列となると扱いに注意が必要になるでしょう。
しかしながら、改変と呼ぶものが実際には解析のプロセス上必用不可欠なノイズの除去
（一部収集データのデータベースからの抹消、あるいは「てにをは」の修正）
程度に過ぎないのであれば、まず問題なかろうかと思います。

あと、上の文化庁のリンクにも書かれていますけれども、
改変を禁じる同一性保持権は著作者人格権の条文であり、
>>
著作者が精神的に傷つけられないようにするための権利であり、創作者としての感情を守るためのものである

自分の意に反して無断で「改変」（変更・切除等）されない権利です
<<
と説明されているわけです。
改変したものを人目に晒さない（非公開な）のであれば、
著作者が精神的に傷つけられる事はまずありえませんし、
禁止されているのがあくまで「意に反し」（第20条）た改変である事も考慮するならば、
どこからどこまでの行為が許されるのかは自ずと明らかになると思うのですが。

※「意に反し」が問題になるのは例えばこういうケースです。
http://www.ishioroshi.com/biz/kaisetu/chosakuken/index/kenri_honan/
>>
しかも、パロディは、他者の著作物を茶化したり、批判・風刺の意味合いで使用することが多く、
<<

同一性保持権の侵害性-原則論及び適用除外-
http://www.kls-law.org/cce.055.2.html
椶櫚2017/01/19 20:12:34

画像や音声だとちょっとわからないですね。
この人の次の更新に期待ですか。

http://storialaw.jp/blog/author/kakinuma

2016/11/14のブログでは
>>
（３）　学習用データセットの作成行為が生データやその集合の著作権を侵害しないか

実はこの議論は世界でもまだ始まったばかりで、まだ定説というものがありません。

政府の知的財産戦略本部に設置された「新たな情報財検討委員会」（第１回は平成２８年１０月３１日に開催）でも、その点について議論がされることになっています。
【参考】
知的財産戦略本部新たな情報財検討委員会（第１回）議事次第
http://www.kantei.go.jp/jp/singi/titeki2/tyousakai/kensho_hyoka_kikaku/2017/johozai/dai1/gijisidai.html

次回は、今回の記事を踏まえて「人工知能(AI）、機械学習、深層学習と知的財産制度」を書きます！
<<
とあるものの、12/19の最新記事はWELQの問題になってしまいました。

「学習用データセットの作成行為が生データやその集合の著作権を侵害しないか」
との文言で検索したところ、以下のような資料も見つかりました。

オープンなデータ流通構造に向けた環境整備（経済産業省商務情報政策局）
http://www.meti.go.jp/committee/sankoushin/shojo/johokeizai/bunsan_senryaku_wg/pdf/007_s01_00.pdf
（34-35ページ参照）

結局のところ、まだ明確には解釈が定まっていないようです。

機械学習用データ作成のための（web上の）データ収集をしたいと思います。

みんなの回答

tak
2017/01/19 11:57:22

この質問へのコメント

この質問への反応（ブックマークコメント）

質問の情報

この質問のカテゴリ

この質問に含まれるキーワード

人気の質問

メニュー

PC版

機械学習用データ作成のための（web上の）データ収集をしたいと思います。

みんなの回答

tak 2017/01/19 11:57:22

この質問へのコメント

この質問への反応（ブックマークコメント）

質問の情報

この質問のカテゴリ

この質問に含まれるキーワード

人気の質問

メニュー

PC版

tak
2017/01/19 11:57:22