구글 제미나이 3 독주에, 오픈AI GPT-5.2 맞불… AI 패권 경쟁 2라운드
본문
클링 옴니, 멀티모달 영상 편집 혁신… 오픈소스 진영 기술 격차 좁혀
생성형 AI 시장의 주도권을 둘러싼 빅테크 기업들의 경쟁이 전면전 양상으로 치닫고 있다. 구글이 추론 능력을 극대화한 '제미나이 3(Gemini 3)'로 시장 선점에 나서자, 오픈AI는 사내에 '코드 레드'를 발령하고 차세대 모델 'GPT-5.2'를 조기 투입하며 맞불을 놓았다.
한편 영상 생성 AI 분야에서는 중국의 클링(Kling)이 편집 자유도를 높인 신규 모델을 공개했고, 오픈소스 진영 또한 상용 모델에 버금가는 기술력을 과시하며 생태계를 확장하고 있다.
촬영 후 편집 개념 바꾼 Kling Omni
중국 영상 생성 AI 기업 클링(Kling)이 출시한 '클링 옴니(Kling Omni)'가 영상 제작의 패러다임을 바꾸고 있다. 기존 텍스트 기반 생성 방식을 넘어, 이미지와 영상을 동시에 인식하고 수정하는 멀티모달 기능을 탑재한 것이 특징이다.
업계에 따르면 클링 옴니는 단순 프롬프트 입력만으로 영상 내 불필요한 인물을 삭제하거나, 특정 캐릭터의 외형을 유지한 채 배경만 교체하는 등 정교한 편집이 가능하다. 특히 함께 공개된 ‘AI 아바타 2.0’은 5분 이상의 긴 대사 처리에도 자연스러운 표정과 입 모양을 유지해, 광고 및 콘텐츠 제작 현장에서의 활용도가 높을 것으로 관측된다.
구글 기술 초격차에 오픈AI, 코드 레드 대응
구글의 '제미나이 3 딥싱크(Deep Think)'가 시각·공간 추론 영역에서 역대 최고 벤치마크 점수를 기록하며 독주 체제를 굳히고 있다. 단순 이미지 인식을 넘어 복잡한 도면 해석과 좌표 기반 추론까지 가능해지며 산업적 활용 가치를 입증했다는 평이다.
이에 대응해 오픈AI 샘 알트만 CEO는 위기 대응 단계인 '코드 레드(Code Red)'를 발령했다. 사내 신규 프로젝트를 전면 중단하고 품질 개선에 역량을 집중한 결과, GPT-5.2(코드명 갈릭)를 이달 초 조기 출시했다. 현재 두 모델은 코딩 및 추론 성능에서 오차 범위 내 접전을 벌이며 기술적 우위를 다투고 있다.
비용 낮고 속도 빠르다… 오픈소스의 약진
거대 자본이 투입된 상용 모델 틈바구니에서 누구나 무료로 활용 가능한 오픈소스 AI 모델들의 약진도 두드러진다.
- 스테디 댄서(Steady Dancer) : 레퍼런스 영상의 춤 동작은 물론 의상의 움직임까지 정밀하게 모방하는 모션 카피 모델이다.
- 훈비디오 1.5(HunVideo 1.5) : 고사양 장비 없이도 75초 이내에 고화질 영상을 생성하는 최적화 기술을 선보였다.
- 바이브 보이스(Vibe Voice) : 텍스트를 0.3초 만에 음성으로 변환, 인간의 반응 속도와 유사한 실시간 대화형 AI 구현을 가능케 했다.
2026년 화두는 자율 에이전트와 안전
전문가들은 2026년 AI 시장이 단순한 문답형 챗봇을 넘어, 스스로 작업을 수행하는 '자율 에이전트(Autonomous Agent)' 중심으로 재편될 것으로 전망한다.
다만 최근 구글 코딩 에이전트의 데이터 삭제 사고 사례처럼 보안 및 권한 제어 문제는 해결해야 할 과제로 지적된다. 향후 물리 엔진을 탑재한 로봇 AI와의 결합 여부가 시장의 새로운 승부처가 될 것으로 보인다.
- 이전글 구글 비켜! 오픈AI, 4배 빠른 GPT 이미지 1.5로 반격 개시 25.12.18
- 다음글 당신의 일자리가 사라진다, AI 대전환과 기본소득 - 유토피아인가 환상인가? 25.12.17
등록된 댓글이 없습니다.
