AI가 스스로 학습하자 멍청해졌다… 2026년 데이터 고갈, 모델 붕괴 경고
본문
“똑똑한 비서인 줄 알았더니, 자기가 쓴 일기 보고 공부하는 격이네요.”
생성형 인공지능이 ‘바보’가 되고 있다. 인간이 쌓아온 수천 년의 지식을 단숨에 학습하며 세상을 놀라게 했던 AI가, 이제는 더 이상 배울 ‘새로운 교과서’가 없어 쩔쩔매는 형국이다.
챗GPT와 제미나이 등 거대언어모델(LLM)이 인터넷상의 고품질 데이터를 모두 먹어 치우는 시점이 불과 1년 앞으로 다가왔다는 분석이 나온다. 급한 대로 AI가 만든 데이터를 다시 AI에게 먹이자, 품질이 급격히 떨어지는 ‘모델 붕괴(Model Collapse)’ 현상까지 목격되고 있다.
2026년, 공부할 데이터가 사라진다
AI 업계에 떨어진 발등의 불은 ‘데이터 고갈’이다. AI 연구기관 에포크AI(Epoch AI)는 최근 보고서를 통해 “현재의 AI 학습 속도가 지속될 경우, 고품질 언어 데이터는 2026년에서 2032년 사이 완전히 고갈될 것”이라고 전망했다. 인터넷에 공개된 책, 논문, 기사 등 인간이 작성한 ‘믿을 수 있는 텍스트’가 바닥을 드러내고 있다는 뜻이다.
일론 머스크 테슬라 최고경영자(CEO) 역시 “AI가 스스로 만든 데이터를 재학습하면 품질 저하를 피할 수 없다”고 경고한 바 있다. 실제로 주요 빅테크 기업들은 레딧이나 언론사와 잇달아 라이선스 계약을 체결하며 데이터 확보 전쟁에 뛰어들었지만, 이는 임시방편일 뿐 근본적인 해결책은 되지 못한다는 지적이다.
자기 꼬리 무는 뱀, 모델 붕괴의 덫
데이터가 부족해지자 AI가 생성한 텍스트를 다시 AI가 학습하는 상황, 즉 ‘합성 데이터(Synthetic Data)’ 학습이 대안으로 떠올랐다. 그러나 학계에서는 이를 ‘디지털 근친교배’에 비유하며 위험성을 경고한다.
일리아 슈마일로프(Ilia Shumailov) 옥스퍼드대 연구팀이 2024년 네이처(Nature)에 발표한 논문에 따르면, AI가 생성한 데이터로만 훈련된 모델은 세대를 거듭할수록 ‘치매’에 걸린 듯 엉뚱한 답을 내놓기 시작했다. 이를 ‘모델 붕괴’라고 부르는데, AI가 확률적으로 가장 무난하고 흔한 패턴만 반복하면서 정보의 다양성이 사라지고 왜곡된 정보가 사실처럼 굳어지는 현상이다. 결국 현실의 복잡함을 담아내지 못한 채, 평균값에만 수렴하는 ‘멍청한 AI’가 되는 셈이다.
절반이 오답… 신뢰성 빨간불
‘모델 붕괴’의 징후는 이미 곳곳에서 포착된다. 유럽방송연맹(EBU)이 지난 10월 발표한 보고서에 따르면, 주요 생성형 AI 모델의 답변 중 약 45%에서 오류가 발견됐다. 특히 출처를 엉뚱하게 대거나(31%), 아예 없는 사실을 지어내는 환각(Hallucination) 증세가 여전했다.
최근 호주 정부가 컨설팅 업체로부터 받은 보고서에 AI가 지어낸 가짜 판례가 다수 포함돼 전액 환불 소동이 빚어진 사건은 AI의 현주소를 적나라하게 보여준다. 국내에서도 한 대학생이 AI에게 과제 요약을 맡겼다가, 존재하지 않는 내용을 요약해 제출하는 바람에 낭패를 본 사례가 온라인 커뮤니티를 달구기도 했다.
저작권 지뢰밭과 AI의 딜레마
양질의 인간 데이터를 쓰자니 ‘저작권’이라는 거대한 벽이 가로막고 있다. 최근 챗GPT 등 생성형 AI가 지브리 스튜디오의 그림체를 무단 학습해 ‘지브리풍 사진’을 만들어내자, 지브리 측이 강력하게 반발한 것이 대표적이다.
AI 기업들은 영상이나 게임 플레이 데이터 등 ‘비(非) 텍스트’ 영역으로 눈을 돌리며 돌파구를 찾고 있다. 구글 딥마인드나 메타의 얀 르쿤 수석 과학자가 텍스트를 넘어 물리 법칙을 이해하는 ‘월드 모델(World Model)’을 강조하는 이유도 여기에 있다. 텍스트 고갈의 한계를 ‘경험 학습’으로 넘어서겠다는 전략이다.
평균의 함정
폐쇄된 시스템 안에서 데이터가 순환하면 엔트로피(무질서도)는 증가하고 정보의 가치는 0으로 수렴한다. 외부의 새로운 자극 : 인간의 창의적 데이터 없이 AI끼리 데이터를 주고받는 것은 열역학적으로도 ‘지식의 죽음’을 의미한다. 당분간 AI의 성능 향상 곡선은 완만해질 가능성이 높다.
‘특이점’을 논하기 전에, AI가 인간의 텍스트를 ‘표절’하는 수준을 넘어 진정한 ‘창조’의 영역으로 넘어갈 수 있을지 증명해야 할 시간이다.
- 이전글 오픈AI-디즈니, 10억 달러 투자 유치 및 IP 라이선스 계약 확정 25.12.12
- 다음글 김덕진 교수 - AI가 미친 속도로 발전했다, 우리 삶에 미치는 영향은? 25.12.08
등록된 댓글이 없습니다.
