포스팅 작성 이유
공부를 하면 할수록 AI 모델을 만들 때 가장 중요한 게 데이터라고 해도 과언이 아님을 느꼈다.
좋은 AI 모델은 반드시 좋은 데이터로부터 나온다.
그래서 내가 풀고 싶은 문제를 푸는 모델을 만들기 위해서는 적절한 데이터가 있어야 하는데,
대부분의 경우 풀고 싶은 문제에 적합한 데이터가 없어서 새롭게 데이터를 제작해야 한다.
이때, 합법적으로 사용할 수 있는 데이터인지, 저작권에 위촉되지 않는 지 어떻게 판단할 지에 대한 궁금증이 생겼다.
데이터의 저작권
저작권(copyright)이란
사람의 생각이나 감정을 표현한 결과물(저작물)에 대하여 창작자에게 주는 권리로,
“창작성”이 있다면 별도의 등록절차없이 자연히 발생한다
저작권법 제1조 (목적)
- 이 법은 저작자의 권리와 이에 인접하는 권리를 보호하고 저작물의 공정한 이용을 도모함으로써 문화 및 관련 산업의 향상발전에 이바지함을 목적으로 한다
[저작권법에 의해 보호받지 못하는 저작물]
1. 헌법ㆍ법률ㆍ조약ㆍ명령ㆍ조례 및 규칙
2. 국가 또는 지방자치단체의 고시ㆍ공고ㆍ훈령 그 밖에 이와 유사한 것
3. 법원의 판결ㆍ결정ㆍ명령 및 심판이나 행정심판절차 그 밖에 이와 유사한 절차에 의한 의결ㆍ결정 등
4. 국가 또는 지방자치단체가 작성한 것으로서 제1호 내지 제3호에 규정된 것의 편집물 또는 번역물
5. 사실의 전달에 불과한 시사보도
데이터는 저작권의 대상인 저작물을 포함할 수 있으며, 이 경우 권리자의 동의 없이 이용하게 되면 저작권 침해의 문제가 발생할 수 있다. 한편, 데이터 마이닝은 최근 미래 산업의 핵심인 인공지능이나 빅데이터와 관련하여 필수 기술로 여겨지고 있어, 이에 대한 이용의 필요성이 매우 높다. 여기서 저작물인 데이터의 보호와 데이터의 이용이 충돌하게 되고, 이에 대한 조정이 필요하다. 최근 해외 많은 나라가 데이터 마이닝을 위한 저작권 침해 면책을 인정하고 있고, 우리도 이러한 추세에 따라 여러 시도가 이루어지고 있으나 여전히 저작권법에 AI 모델 개발을 고려하지 않은 부분이 많다.
저작권법 개정작업은 2020년 7월 1일부터 본격 추진되었다. 2006년 저작권법 전부개정 이후 15차례에 걸쳐 일부개정이 이루어졌으나, 그동안 쌍방향 온라인 기술 및 인공지능 등 기술의 발달로 누구나 저작물을 창작할 수 있게 되고, 대량의 저작물을 수시로 이용하는 콘텐츠 플랫폼이 저작물 이용의 주류로 떠오르는 등, 저작물 창작과 이용 전반에 걸쳐 누적된 환경 변화에 적합한 저작권 제도를 마련할 필요성이 제기되었기 때문이다.
2020년 7월 문화체육관광부는 빅데이터 분석 과정에서 저작물을 자유롭게 이용할 수 있는 면책 규정, 즉, AI 학습을 위한 분석이 저작권을 침해하려는 목적이 아니라면 저작권 침해로 보지 말아야 한다는 면책 규정을 추진하겠다는 의사를 밝혔다.
2021년 1월 15일 대한민국 국회에 도종환 의원이 대표발의한 저작권법 일부개정법률안이 발의되었다. 입법 논의 과정에서 개인정보, 프라이버시 등의 민감정보나 특정 연구에 관한 정보를 분석하여 그 결과를 부적절하게 이용하는 상황에 대한 논의가 필요해 보인다.
바. ‘데이터마이닝’ 과정의 저작물 이용 면책 규정 신설(안 제43조)
1) 인공지능ㆍ빅데이터 기술 등의 발전으로 저작물등이 포함된 대량의 정보를 활용할 필요성이 높아지고 그 분석과정에서 저작물등을 허락 없이 이용하는 경우도 늘어나고 있음. 이러한 경우 저작권 침해가 되는지에 대하여, 현행 ‘공정이용’ 조항이 적용된다는 견해가 있으나, 구체적인 경우에 해석이 달라질 수 있어, ‘공정이용’ 조항만으로는 불분명하다는 지적이 제기되어 왔음
2) 컴퓨터를 이용한 자동화된 정보분석 과정을 위한 저작물 이용에 대해서는 저작재산권이 제한되는 규정을 명시화하여, 인공지능ㆍ빅데이터 분석 과정에서의 저작권 침해의 경계선을 명확히 하여 그러한 행위에 대한 관련 산업계의 예측가능성을 높임. 아울러, 동 조항은 자동화된 정보분석 등 일정한 목적에 필요한 범위에서 적법하게 접근한 저작물에 대해서만 적용되도록 함으로써, 저작권자의 권익과 균형을 꾀하였음.
□ 개정안 규정 (신설)
제43조(정보분석을 위한 복제ㆍ전송) ① 컴퓨터를 이용한 자동화 분석기술을 통해 다수의 저작물을 포함한 대량의 정보를 분석(규칙, 구조, 경향, 상관관계 등의 정보를 추출하는 것)하여 추가적인 정보 또는 가치를 생성하기 위한 것으로 저작물에 표현된 사상이나 감정을 향유하지 아니하는 경우에는 필요한 한도 안에서 저작물을 복제ㆍ전송할 수 있다. 다만, 해당 저작물에 적법하게 접근할 수 있는 경우에 한정한다.② 제1항에 따라 만들어진 복제물은 정보분석을 위하여 필요한 한도에서 보관할 수 있다.
2021년 1월 18일에 국회 문화체육관광위원회에 회부되어 2021년 2월 24일에 다른 개정안들과 함께 위원회 회의 안건으로 상정되어 한 차례 회의가 진행되었다.
하지만 2022년 1월 기사에 따르면 여전히 문화업계와의 향후 이익 충돌, 면책 범위가 될 '비영리 연구 목적'에 대한 모호한 기준점 등 문제가 여전히 존재함을 확인할 수 있다.
합법적으로 데이터 사용하기
공정 이용 (Fair-use)
아래의 경우에 대해서는 저작권자의 허락을 받지 않고도 저작물을 이용할 수 있다
1) 교육, 등등
2) 재판절차 등에서의 복제
3) 정치적 연설 등의 이용
4) 학교 교육 목적 등에의 이용
5) 시사 보도를 위한 이용
6) 공표된 저작물의 이용
7) 영리를 목적으로 하지 않은 공연ㆍ방송
8) 사적 이용을 위한 복제
9) 도서관 등에서의 복제
10) 시험 문제로서의 복제
11) 시각장애인 등을 위한 복제
12) 방송사업가의 일시적 녹음ㆍ녹화
13) 미술ㆍ사진ㆍ건축저작물의 전시 또는 복제
14) 번역 등에 의한 이용
15) 시사적인 기사 및 논설의 복제
저작자와 협의하거나 라이센스를 활용하는 두 가지 방법이 있다.
1. 저작자와의 협의
저작권자를 아는 경우, 그 사람과 교섭해서 이용 방식에 대해 협의한다.
크게 (1) 저작물 이용의 허락을 받는 것, (2) 저작재산권을 양도받는 것 등의 방법이 있다
(1) 이용허락은 독점적/ 비독점적 이용허락으로 나뉜다.
- 독점적 이용허락의 경우, 저작자는 계약을 체결한 이용자에게 데이터 이용에 대한 “독점적”인 권리를 행사하는 것을 허락하는 것이다
- 비독점적 이용허락의 경우, 저작자는 계약을 체결한 이용자 외에도 데이터 이용 계약을 맺을 수 있다
(2) 양수받을 경우에는 모든 저작재산권 혹은 일부의 저작재산권을 양수받을 수 있으며, 일정한 기간을 정하여 양수받을 수도 있다.
2. 라이센스
일일이 계약을 맺는 게 비효율적이라면 라이센스를 활용할 수 있다.
라이센스란
저작자에게 이용 허가 요청을 하지 않아도 저작자가 제안한 특정 조건을 만족하면 이용이 가능하도록 만든 저작물에 대한 이용허락 규약이다.
라이센스를 발행하는 단체는 다양할 수 있다
- 가장 유명한 것은 Creative Commons 라는 비영리 단체에서 제공하는 CCL이 있다
- 국내에는 문화체육관광부에서 제공하는 공공누리가 있다
CCL 종류 살펴보기
CC-BY-NC-SA의 예시로는 나무위키가 있다.
비영리 목적으로, 동일한 라이센스를 적용한다면 나무위키 데이터를 크롤링해서 MRC 데이터셋 제작을 한 이후에 깃헙을 통해 배포하는 것도 가능하다.
CC-BY-ND의 예시로는 KorQuAD 질의응답쌍 데이터셋이 있다.
KorQuAD의 질문만 바꿔서 새롭게 MRC 데이터셋을 제작한 이후에 깃헙을 통해 배포하는 것이 가능하다
지문, 질문, 정답쌍을 변경하여 공개하는 것은 불가능하다.
+ NLP task를 위한 뉴스 데이터
뉴스 기사의 대부분은 Copyright [신문사] All rights reserced. 즉 저작권이 언론사에 있다.
따라서, 위키트리와 같이 CCL이 적용된 뉴스기사가 아니라면 반드시 문의해야 한다.
한국언론진흥재단에서 대부분 언론사의 저작권을 위탁해서 관리하기 때문에,
원하는 기사를 제공하는 언론사가 한국언론진흥재단에 저작권 위탁을 맡겼다면, 한국언론진흥재단에 문의하면 된다.
아니라면 직접 언론사에 컨텐츠 사용 범위와 계약 조건에 대해 문의하면 된다.
단, 뉴스 기사의 제목은 저작권법의 보호를 받지 못한다.
Q. 0원에 구매한 데이터를 내 마음대로 이용할 수 있을까?
A. 데이터 판매회원이 정한 이용약관에 따라 다르다.
KDX의 경우 기본적으로 아래의 가., 나., 다. 조항의 공통 이용범위 내에서만 사용 가능하다.
판매회원이 추가 조건을 더 걸었다면 공통 이용범위 외의 다른 이용도 불가능할 수 있다.
AI의 지식 재산권(지적 재산권)
지식 재산권(Intellectual property rights)이란
인간의 아이디어로 산출된 모든 영역을 포괄하는 넓은 의미이다.
저작권은 창착된 저작물에 부여하는 권리로, 지식 재산권의 한 형태가 저작권이라고 생각하면 된다.
쟁점 1: AI가 만든 작품을 저작권으로 인정받을 수 있는가?
쟁점 2: AI가 창작한 창작물에 대한 지식 재산권은 누가 소유해야 할까?
국가지식재산위원회는 인공지능(AI) 기술 발달로 증가하고 있는 AI 창작물에 대한 지식재산권 제도화 방향을 논의하기 위해 2020년부터 2년간 전문가 및 관계부처와 인공지능(AI)-IP 특별전문위원회 운영했다.
그리고 2022년 5월 31일 제 32차 국가지식재산위원회에서 지재위는 인공지능(AI)이 창작한 창작물의 저작권이 그 창작에 직간접적인 기여를 한 사람에게 돌아가게 하는 규정을 마련할 것이라고 밝혔다.
쟁점 3: 직간접 기여자를 어디까지 정의할 것인가?
추가적인 궁금증
Q. GPT-3가 생성한 데이터를 바탕으로 학습을 해도 될까?
GPT-3를 train할 때 사용한 데이터가 저작권법에 위반되는가에 따라 다를 것 같다.
Q. 요약 모델이 요약한 뉴스 기사의 저작권은 어떻게 될까?
- Extractive 요약의 경우는?
- Abstractive 요약의 경우는?
참고: [논문] 데이터 마이닝과 저작권 면책의 범위 및 한계, 2021/2/5 뉴스 , 의안정보시스템 , 정보통신신문 , [아주경제 뉴스],
'AI TECH > TIL' 카테고리의 다른 글
~week12 면접 준비 (0) | 2022.12.14 |
---|---|
week7,8 면접 준비 (0) | 2022.12.14 |
Contrastive Learning (0) | 2022.11.03 |
STS 대회 에러 해결법 (0) | 2022.11.02 |
Wandb Sweep (0) | 2022.11.02 |