다음 내용이 궁금하다면?
불편하시다면 뒤로 가기를 눌러주세요
외산 인코더 의존 탈피…'프롬 스크래치' 논란 정면 돌파
한국어·문화 직결 멀티모달 구조…글로벌 모델과 차별화

[김선영 제작] 일러스트
(서울=연합뉴스) 권하영 기자 = 네이버가 '독자 AI 파운데이션 모델'(독파모) 개발 프로젝트 당시 논란이 됐던 중국 비전 인코더를 완전히 배제하고, 자체 개발한 비전 인코더를 자사 AI 모델에 전면 적용하기로 했다.
이를 통해 중국 오픈소스 인코더 사용으로 제기됐던 독자성 논란을 해소하는 동시에, 한국어·한국 문화 맥락에 최적화된 멀티모달 경쟁력을 확보하려는 포석으로 풀이된다.
17일 IT 업계에 따르면 네이버클라우드는 지난달 초 독자적인 비전 인코더 개발을 완료하고, 향후 개발하는 멀티모달 모델 전반에 이를 적용하기 위한 내재화 작업에 착수했다.
비전 인코더는 이미지·영상 정보를 AI가 이해할 수 있는 형태로 변환하는 모듈로, 텍스트·이미지·음성·영상 정보를 종합적으로 다루는 멀티모달 모델에서 일종의 '시신경' 역할을 하는 기술이다.
네이버클라우드가 이번에 개발한 비전 인코더는 기존의 자체 인코더 기술인 'VUClip'보다 성능을 대폭 개선한 것으로, 현재 오픈소스 생태계에서 활용성이 검증된 큐웬 등 최상위권 모델의 인코더와 유사한 수준의 성능을 확보한 것으로 알려졌다.
앞서 네이버클라우드는 올해 초 정부 주도의 독파모 프로젝트에 참여하는 과정에서 자사 멀티모달 모델 '하이퍼클로바X 시드 32B 싱크'에 알리바바가 개발한 큐웬 2.5 모델의 비전 인코더와 가중치를 일부 차용했다가 논란에 휩싸였다.
학습 초기 단계부터 자체 기술로 구축하는 '프롬 스크래치'(From Scratch) 원칙을 내세운 독파모 취지와 배치된다는 비판이 제기되면서다.
당시 네이버클라우드는 그러나 "비전 인코더는 언제든 교체할 수 있고, 교체가 불가능한 핵심 영역도 아니"라고 밝힌 바 있다.
다만 이미 오픈소스로 배포된 '하이퍼클로바X 시드 32B 싱크'의 인코더 교체 여부는 미정인 것으로 전해졌다.
이번에 개발된 비전 인코더는 AI를 학습 단계부터 한국어로 훈련시켜 별도 번역 과정 없이 이미지와 한국어를 직접 연결하는 구조를 갖춘 것이 특징이다.
예를 들어 기존의 글로벌 인코더들이 우리나라 '하르방' 이미지를 단순히 '석상'(Statue)이라는 영어 단어로 인식하는 한계가 있었다면, 네이버 모델은 이미지를 보는 즉시 '하르방'이라는 한글 단어를 떠올리는 식이다.
네이버클라우드 관계자는 "한국어와 이미지를 직접 연결하도록 설계돼 정보 왜곡 없이 우리나라 문화 특유의 맥락을 읽어낼 수 있는 점이 차별점"이라며 "한국의 지리나 문화, 고유 명사가 포함된 시각 데이터를 다룰 때 외산 모델과는 차원이 다른 독보적인 정확도를 보여줄 것"이라고 강조했다.
kwonhy@yna.co.kr
Copyright 연합뉴스 All rights reserved. 무단 전재 및 재배포 금지.
인기상품 확인하고 계속 읽어보세요!
원치 않을 경우 뒤로가기를 눌러주세요.
