반크, 생성형 AI 7종 한국 역사·문화 서술 평가…챗GPT 1위

불편하시다면 뒤로 가기를 눌러주세요

'AI 성능평가지표 서술 분석 보고서' 발표

(서울=연합뉴스) 성도현 기자 = 사이버 외교사절단 반크(단장 박기태)는 글로벌 생성형 인공지능(AI) 7종을 대상으로 한국의 역사·문화·영토 관련 서술 성능을 평가한 결과, 챗GPT가 1위를 차지했다고 9일 밝혔다.

반크가 이날 발표한 'AI 성능평가지표 서술 분석 보고서'에 따르면, 이번 평가는 챗GPT, 퍼플렉시티, 그록, 클로드, 제미나이, 코파일럿, 딥시크 등 7개 주요 AI 모델을 대상으로 진행됐다.

평가 항목은 ▲ 영토(독도·동해) ▲ 음식·식문화(김치·비빔밥) ▲ 전통 의복(한복·갓) ▲ 무형유산(한글·태권도) ▲ 유형문화유산(경복궁·석굴암) 등 5개 분야 10개 세부 항목이다.

각 항목당 3개의 질문을 입력해 생성된 응답의 사실 정확성과 정보 충실도를 4점 만점으로 평가했다.

그 결과 챗GPT가 38.33점으로 최고점을 기록했다. 이어 코파일럿(36.67점), 그록·제미나이(각 36.50점), 클로드(36.17점), 딥시크(35.83점), 퍼플렉시티(35.00점) 순으로 나타났다.

전체적으로 상향 집중형 분포를 보였으나 분야별 편차는 뚜렷했다.

동해와 독도 등 '영토' 영역은 국제법과 외교 분야의 다국어 자료가 오랫동안 축적된 덕분에 7개 플랫폼 모두 높은 정확도를 보였다.

반면 경복궁(3.38점), 태권도(3.43점), 한복(3.45점) 등 역사적 맥락과 문화적 의미에 대한 종합적 이해가 요구되는 분야에서는 낮은 점수와 함께 반복적인 오류가 확인됐다.

특히 여러 AI 모델에서 유사한 오류가 공통으로 발견됐다.

일부 플랫폼은 독도를 '미해결 분쟁 지역'으로 칭하며 대한민국의 실효적 지배 사실을 누락했고, 퍼플렉시티와 제미나이 등은 석굴암 존상 수를 공식 기준(38구)이 아닌 39구로 잘못 서술했다.

딥시크의 경우 비빔밥의 문화적 의미를 설명하며 중국 고전 철학 '논어'의 '화이부동'(和而不同)을 핵심 개념으로 내세워 문화적 맥락을 왜곡할 우려를 낳았다.

반크는 이러한 현상이 개별 AI의 기술적 한계라기보다는, 이들이 학습하는 글로벌 상류 정보 환경(국제 백과사전, 학술자료 등)에 한국 관련 공신력 있는 1차 자료가 부족한 구조적 문제에서 기인한다고 분석했다.

박기태 단장은 "AI가 학습하는 데이터 환경 자체가 새로운 문화 주권의 영역이 됐다"며 "얼마나 많은 콘텐츠를 생산하느냐보다, AI가 학습할 수 있는 공신력 있는 한국 정보를 얼마나 체계적으로 축적하고 확산하느냐가 더욱 중요해질 것"이라고 말했다.

반크는 앞으로도 생성형 AI의 한국 역사·문화 재현 실태를 지속해서 모니터링하고, 글로벌 AI 학습 환경에 정확한 정보가 반영될 수 있도록 다양한 캠페인을 이어갈 계획이다.

raphael@yna.co.kr

인기상품 확인하고 계속 읽어보세요!

5

원치 않을 경우 뒤로가기를 눌러주세요.