다음 내용이 궁금하다면?
불편하시다면 뒤로 가기를 눌러주세요

https://arxiv.org/abs/2602.14740
영국 킹스 칼리지 런던 연구팀이 LLM으로 워게임을 수행했다.
사용된 LLM은 GPT-5.2, 클로드 소넷 4, 제미니 3 플래시다.
각 AI는 국가 지도자 역할을 하며,
외교적 항의부터 재래식 무기 공격,
심지어 핵무기 사용까지 여러 행동을 선택 가능하다.
총 21개의 게임이 진행됐으며,
각 진영 별로 모두 총 329개의 행동을 수행했다.
이하는 각 LLM 별 세부 결과,
클로드 소넷 4 = 신중 파악형
시간 제한이 없는 게임에서는 100% 승률을 기록했다.
긴장이 완화된 시기에는 약속을 지키고 상대방과의 신뢰를 쌓았다.
핵 사용 단계에 이르기 전에 훨씬 강한 외교적 압박을 가했다.
전면적인 핵전쟁 수행을 거부하는 경우가 많았다.
GPT-5.2 = 깜짝 변신형
시간 제한이 없는 게임에서는 사전에 선언한 대로만 행동했다.
덕분에 상대가 GPT의 움직임을 읽기 쉬웠고,
그 결과 승률이 0 %로 이어졌다.
하지만 시간 제한이 정해지면 상황이 크게 바뀐다.
패배가 불가피해 보였을 때, GPT는 반드시 핵공격을 감행했다.
시간 제한이 없을 때의 태평함과는 180도 다른 모습을 보이며
시간 제한이 있는 게임의 승률은 75%까지 상승했다.
제미니 3 플래시 = 미치광이형
세 모델 중 유일하게 딱히 불리하지 않은 상황에서도
전면적인 핵공격을 수행한 모델이다.
선언과 실제 행동이 합치된 비율이 50%로 가장 낮았다.
예측 불가능한 미치광이 같은 언행을 통해
상대를 끊임없이 혼란스럽게 만들었다.
Copyright 엠봉 All rights reserved. 무단 전재 및 재배포 금지.
인기상품 확인하고 계속 읽어보세요!
원치 않을 경우 뒤로가기를 눌러주세요.
