AI가 대신 글을 써주는 세상입니다. Chat GPT가 대신 글을 써주고요. 그외에도 마이크로소프트 Copilot 등 여러가지 인공지능이 많이 나오는 세상입니다.
AI를 이용해서 쇼핑몰의 후기를 정리해서 포스팅으로 발행해주는 프로그램도 생기고 있고요. 몇십만원만 주면 편하게 포스팅을 발행할 수 있는 시대가 되었습니다.
이런 상황에서 사람이 쓰는 글로 구글 애드센스로 돈을 여전히 벌 수 있을까요?
이런 상황에서 AI가 대신 글을 써주는데 블로거로써 살아 남을 수 있을까요?
지금부터 그 이유에 대해서 설명 드릴께요.
AI로 생성된 데이터를 재학습 시킬 때 데이터의 붕괴 현상
네이처 논문에 나온 내용인데요. AI로 어떤 데이터를 생성 시킨 다음에 그 데이터를 가지고 또 학습을 시켜서 데이터를 생성하는 경우의 위험성에 관한 논문입니다.
생성한 데이터를 재학습 시킬 때 모델 자체가 붕괴되는 현상을 확인하여서 논문으로 낸 것입니다.
네이처에 실릴 정도면 이 내용이 공신력이 있다는 것이겠죠.
자기가 생성한 데이터로 학습을 시킬 때 인공지능은 성능 저하가 오게 됩니다. 점점 일반적이지 않은 어휘를 쓰게 된거나 언어의 Shirink(수축) 현상이 있게 됩니다.
이 논문은 인간이 만든 데이터가 중요하다는 것을 반증 해주는 논문이라 매우 중요합니다.
인공지능이 나와도 사람이 직접 쓰는 블로그의 존재는 귀해질 수 밖에 없습니다. 사람이 일반적으로 쓰는 어휘로 작성된 글을 기반으로 인공지능을 학습 시키면 좋은 결과가 나오기 때문이에요.
테드 창도 인공지능에 쓴 소리
테드 창이라고 들어 보셨나요? SF 소설을 좋아하시는 분이라면 들어보셨을 건데요. 대표작으로는 국내 출간된 "당신 인생의 이야기", "숨" 등이 있습니다. 주로 SF 단편을 쓰시는 분인데 과학에 대한 조예가 깊은 분이고 소설 곳곳에 과학적인 지식이 꽉꽉 차여 있는 모습이에요.
그런 분이 "Chat GPT의 이미지는 저화질 이미지"란 말을 했을 했습니다. ("ChatGPT is a Blurry JPEG of the Web")
SF 천재 작가는 왜 이런 말을 했을까요?
산술의 예로 돌아가 보겠습니다. ChatGPT가 구축된 대규모 언어 모델인 GPT-3 에 숫자 한 쌍을 더하거나 빼라고 하면 숫자가 두 자리일 때는 거의 항상 정답으로 응답합니다. 하지만 숫자가 클수록 정확도가 상당히 떨어지며 숫자가 다섯 자리일 때는 10%로 떨어집니다. GPT-3가 제공하는 정답의 대부분은 웹에서 찾을 수 없습니다. 예를 들어 "245 + 821"이라는 텍스트가 포함된 웹 페이지가 많지 않기 때문에 간단한 암기에는 관여하지 않습니다. 하지만 방대한 양의 정보를 섭취했음에도 불구하고 산술의 원리를 도출하지 못했습니다. GPT-3의 오답을 자세히 살펴보면 산술을 수행할 때 "1"을 포함하지 않는 것으로 보입니다. 웹에는 "1"을 포함하는 것에 대한 설명이 확실히 있지만 GPT-3는 그러한 설명을 통합할 수 없습니다. GPT-3는 산술 예제에 대한 통계적 분석을 통해 실제 결과에 대한 피상적인 근사치를 생성할 수 있지만 그 이상은 불가능합니다.
테드 창은 대용량 언어 데이터의 한계를 지적한 것인데요.
Chat GPT 4는 어떨까?
그래서 GPT-4가 적용된 것에서 똑같은 산술을 물어보았습니다.
네이처 논문과 테드창의 기고문으로 알 수 있는 것
어찌되었건 AI가 생성하는 데이터들이 많아지면 사람들이 만들어낸 디테일하고 섬세한 데이터들로 뽑아낸 모델이 아니게 되고 웹 상태가 뿌연 JPEG 손실 압축된 이미지 형태로 될 것이라는 이야기를 논문을 통해서 알 수 있습니다.
AI models collapse when trained on recursively generated data
ChatGPT Is a Blurry JPEG of the Web
관심 있으신 분은 위 링크를 클릭하셔서 읽어보시길 바랍니다.
하늘 색 데이터가 처음에 사용된 데이터인데 인공지능을 거쳐서 재생성 시킨 데이터로 또 다시 학습 시킬 때 한쪽으로 편향되는 현상을 보실 수 있습니다.
원래 있는 것도 망가뜨리는 결과를 내게 되는 것이죠.
그래서 구글의 경우 AI를 이용해서 생성한 콘텐츠에 대해서 구글 노출이 안되게 하겠다는 발표를 하기도 하였습니다.
구글 "생성AI가 만든 영상, 사람과 같은 기준으로 차단"
플랫폼을 가진 기업이 사람들이 작성한 질 좋은 데이터를 가지고 있다면 나중에 AI 사업을 할 때도 좋은 데이터를 가지고 접근할 수 있게 됩니다.
이런 현상 때문에 구글에는 사람이 쓴 블로그가 꼭 필요하게 됩니다.
검색 결과의 품질을 유지할 필요가 있는 것이죠.
인공 지능에 쫄지 말고 글 씁시다
Chat GPT에게 글쓰기를 시켰을 때 뭔가 디테일이 떨어지는 느낌을 받았습니다. 웹에 정보가 별로 없는 특정 분야에 대해서 물어 봤을 때는 기초적인 수준의 답변 만을 내놓았었는데 그 대답도 틀린 경우가 있었죠. 그게 Chat GPT-3 일 때의 이야기입니다.
Chat GPT - 4가 비약적으로 발전하기는 했지만 아직 학습 시켜야 될 데이터는 많습니다.
여기서 인간 블로거가 인공지능과 비빌 수 있는 포인트가 생기는 것이고요.
인공지능으로 생성된 데이터를 또 넣어서 학습 시키는 경우 데이터의 shirink(수축) 현상이 발생한다고 하고 그래도 원본 데이터의 10%라도 넣어서 학습하는 경우는 shirink 현상이 완화된다고 논문에 나와 있습니다.
나중에는 인공지능이 생성한 모델이 더 많아질 수도 있겠지만 그 때도 사람이 쓴 10%의 보통 평균적으로 많이 사용하는 어휘로 쓴 글, 또는 사람이 작성한 정교하고 디테일한 데이터는 필요할 것입니다.
글 씁시다~
댓글 쓰기