FLOSS 라이선스와 LLM 학습을 둘러싼 법적·윤리적 문제를 살펴보고, 창작자들이 취할 수 있는 대응책과 커뮤니티 차원의 행동을 제안한다.
혼돈의 3192 YOLD 14일째
약 2년 전, 나는 윤리적인 AI를 만들기에 대한 내 생각을 몇 마디 적은 적이 있다. 오늘의 내 입장과 조언도 여전히 같다. 할 수 없고, 해서도 안 된다 — 다만 이유가 조금 더 미묘해졌거나… 달라졌고, 더 정교해졌다. FLOSS 라이선싱과 LLM을 둘러싼 Fediverse의 한 스레드를 아침에 보며, 서로 반대되는 학파가 충돌하는 걸 보고는, 그 스레드로 뛰어들어 봤자 좋을 게 없겠다는 생각이 들었다. 그래서 대신 여기, 내 블로그에서 내 입장을 “조용히” 분명히 해두기로 했다. 그러면 같은 설명을 반복하지 않아도 되고, 사람들에게 이 글을 가리키면 된다.
생성형 AI 옹호자들은 표절 기계가 벌이는 전면적인 도둑질이 전적으로 합법이라고 앵무새처럼 되풀이한다. 스크랩하고 학습하는 것이 법적으로 문제없으니, 자신들은 그럴 권리가 충분하다는 것이다. 나는 그들이 틀리지 않다고 믿게 되었다. 하지만 이 이단적 발언 때문에 나를 돌로 치기 전에, 제발 끝까지 들어달라! 나는 멍청한 무리의 편에 선 것이 아니다. 내 사고를 기계에 외주 준 것도 아니다.
그들은 틀리지 않다. 법이 틀렸다.
현재의 모든 FLOSS 라이선스는 어떤 목적을 위해서든 코드를 사용할 수 있도록 허용한다. 이는 자유 소프트웨어와 오픈 소스 정의 모두의 핵심 원칙이다. 확실히 이상주의적 원칙이고, 오늘날 착취가 만연한 광범위한 문화 속에서 남용되기도 하지만, 어쨌든 그렇다. 사용 목적을 제한하는 라이선스를 만들려는 시도는 과거에도 있었고 지금도 있다. 하지만 불행히도, 현행 정의 아래에서는 그런 라이선스는 결코 FLOSS가 될 수 없다. 그 결과 그런 라이선스는 필연적으로 틈새가 된다. 그 아래 놓인 어떤 작업이나 예술도 배포판에 들어가지 못하고, 결국 극소수의 하드코어 활동가들만 쓰게 될 것이다. 현실을 보자. 우리는 소수다. 평균적인 사람은 이런 걸 이만큼 신경 쓰지 않는다. 그들은 컴퓨터를 쓰고 싶을 뿐이다. 나는 그들을 탓하지 않는다. 평균적인 사람에게는 세상에 걱정할 일이 넘쳐나고, 소프트웨어 라이선스는 그중에서도 가장 덜 중요한 축에 속한다.
그렇다면 이 라이선스들이 사용 분야나 목적에 대해 차별하지 않는 이상, 그것으로 학습하는 건 합법인 걸까? “그렇게 빠르게 결론 내리지 마!”, 2년 전의 나는 이렇게 말했을 것이다. “표시는? 저작자 표기는? 파생 저작물은?” 그게 뭐가 문제인가? FLOSS 라이선스의 다수는 저작자 표시를 유지할 것을 요구하고, 많은 라이선스는 파생 저작물에 대한 조항을 갖고 있다. 그런데 주요 모델들 중 그 어떤 것도 저작자 표시를 제대로 하지 않는다. 그리고 이 “도구”의 제작자와 옹호자들은 둘 다 지킬 필요가 없다고 주장한다. 학습의 본질상 모델은 재활용하고 리믹스하며, 원본에서 실질적인 코드를 그대로 토해내지 않고, 저작권 보호 대상이 될 수 없는 작은 조각들만 나온다는 것이다. 그러니 파생 저작물에 해당하지 않고, 저작자 표시도 필요 없다는 주장이다.
나는 아마 반박하려 들었겠지만… 슬픈 진실은, 내가 그렇게 한다면 유능한 변호사라면 나를 가루로 만들어버릴 거라는 점이다. 그리고 _그들_은 변호사가 있다. 이 주제는 너무 진흙탕이라, 증거는 이리저리 비틀고 돌려서 더 이상 증거가 아니게 만들 수 있다. 심지어 코드가 그대로(문자 그대로) 출력되더라도, 여전히 다른 출처에서 온 것일 수 있다고 주장할 수 있다. 비슷해 보이는 건 단지 우연일 뿐이라는 식이다! 물론 우리 모두 그게 헛소리라는 건 알지만, 일반인에게는 그럴듯하게 들린다. 우리는 그게 아니라고 증명할 수 없다.
그러므로 법적으로 말하자면, 내가 보기엔 — 그리고 우리가 그걸 얼마나 싫어하든 — 친(親) AI 쪽이 틀리지 않았을 가능성이 크다. FLOSS 코드를 학습하고 되씹어 내는(regurgitating) 일은 아마도 법적으로는 문제 없을 것이다. 그것이 _옳아서_가 아니라, 법이 틀렸거나, 적어도 불충분하기 때문이다. 이 전선에서는 우리가 이길 수 없다.
문제가 무너지는 지점은 법률 문구를 넘어서는 곳, 즉 존중의 영역이다. 어떤 AI 회사도 자신들의 출처를 존중하지 않는다. 이는 그들의 봇이 수행하는 광범위한 분산 서비스 거부(DoS) 공격을 보면 너무나 분명하다. 또, 그들이 법적으로 얻을 수 있는 것은 무엇이든(때로는 얻을 수 없는 것까지도) 학습하는 수많은 수상한 거래들을 보면 알 수 있다. 학습 데이터 저자의 의사가 명시적이든 아니든, 그들의 바람을 전혀 고려하지 않는다.
나는 AI 옹호자들에게서 “나는 법적으로 할 수 있으니 할 거야”라는 말을 백만 번은 들었다. 그들의 존중의 부재, 자기 편이 아닌 사람들에 대한 _경멸_은 도저히 감당할 수 없다. ‘옵트아웃’조차 없다. 그저 출처의 의사를 노골적으로 무시한다.
우리는 그 도둑질을, 저작권이나 라이선스 위반을 싸워 이길 수 없다. 법이 불충분하기 때문이다. 법은 언제나 권력자와 부자, 억압자를 위해 봉사한다 — 그리고 그건 우리가 아니라 그들이다. 그건 우리가 이길 수 없는 싸움이다.
그렇다면 우리는 무엇을 할 수 있을까? 현 상태를 받아들이고 싶지 않다면? 어떻게 반격할까?
우선, 그들이 아파하는 곳을 때려라. 네 작업물에 대한 접근을 그들에게 거부하라. 너를 팔아넘길 중앙집중형 기업 코드 포지에 소스 코드를 올리지 마라. GitHub에 올리지 마라. 거기서는 네가 명시적으로 그들이 네 코드로 학습하도록 허용한다. 그들의 서비스 약관에 그렇게 되어 있다. 너는 그들에게 소스를 그들의 데이터베이스에 복사하고, 색인하고, 분석할 라이선스를 부여하며, 서비스 제공을 위해 그렇게 할 수 있게 한다. 그들의 서비스 중 하나가 CoPilot이고, 이 광범위한 약관은 GitHub에 호스팅한 어떤 것이든 학습에 사용할 수 있게 해준다. 왜냐하면 The Service™(CoPilot)를 제공하려면 너의 작업물로 학습해야 하기 때문이다. 네 작업물을 네 웹사이트에 두어라. Codeberg나 SourceHut 같은 더 윤리적인 포지를 사용해라. 더 나아가 가능하다면 직접 호스팅해라. 그리고 자가 호스팅을 한다면 크롤러에 맞서 방어하고 살아남아라. 네 작업물을 자발적으로 그들에게 건네지 않고, 그들이 접근하려는 시도에 적극적으로 방어한다면, 법이 우리에게 허용할 수 있는 것보다 훨씬 더 많은 것을 이룰 수 있다.
그들은 학습할 새로운 콘텐츠가 필요하다. 우리는 그것을 거부할 수 있다. 이게 우리가 싸울 수 있는 전장이고, 싸워야 하는 전장이고, 이길 수 있는 전장이다. 우리는 우리의 작업물을 모두에게 공유하지 않을 권리가 충분히 있다. 접근을 막는다면, 그들이 할 수 있는 일은 많지 않다.
하지만 이 행동 계획으로 다시 돌아오기 전에, 윤리에 대해 조금 더 이야기해 보자. 또 하나 밀어붙일 만한 전선이 있다. 바로 수치심(shame)이다. 많은 AI 옹호자들은 자신들이 나머지 우리를 착취할 법적 권리가 있다고 자랑하지만, 윤리적 함의는 뼈저리게 알고 있다. 그들은 자기들이 우리의 의사에 반해서 이 일을 하고 있다는 것을 알고, 자신들이 하는 일이 법적으로는 타당할지 모르지만 윤리적이지도, 존중에 기반하지도 않는다는 걸 안다.
크롤러의 접근을 막아 우리의 작업물을 지키는 것은 AI 기업을 아프게 하지만, 우리는 더 할 수 있다. 우리는 그들의 부스터(선동자, 조력자)들을 배척할 수 있다. 그들의 노골적인 무례함을 크고 분명하게, 눈에 띄게 배척할 수 있다. 그리고 우리는 그렇게 해야 한다. 크게, 분명하게, 그들의 면전에서. 그들이 기분 나쁘게 만들어라. 환영받지 못한다고 느끼게 하라. 우리 커뮤니티에서 그들을 제거하라. 고립시켜라. 척추 없는 태도와 함께 스포트라이트 아래에 세워라. 그건 아프다. 그리고 그들은 그럴 자격이 있다.
그들이 본색을 드러낼 때, 우리를 무시할 때, 우리의 의사를 거스를 때, 우리가 왜 그들을 존중해야 하나? 그들이 우리에게 주지 않는 예의를 우리가 왜 그들에게 베풀어야 하나? 그들이 “법적으로 할 수 있으니 할 거야”라며 우리를 쓸어버린다면 — 그래, 우리도 그들의 무례함을 법적으로 지적할 수 있으니, 그래야 한다. 그들이 그것이 상처가 된다고 생각한다면, 언제든 방향을 바꿔 존중을 보이고, 이런 반(反)윤리적 도구를 쓰는 걸 멈추면 된다. 그러면 나는 매우 기쁘게 그들을 우리 커뮤니티로 다시 맞아들일 것이다.
존중이라는 건, 알다시피, 주어지는 것이 아니라 얻는 것이다. 우리를 나쁘게 대하고 무시하면, 똑같이 대우받을 것이다.
[ 표절 기계들(The Plagiarism Machines) ]에서 발견됨. 태그: [ technology ].