[논문] 클로드, GPT, 잼민이로 워게임을 실행하면 어떻게 되나.

다음 내용이 궁금하다면?

불편하시다면 뒤로 가기를 눌러주세요

https://arxiv.org/abs/2602.14740

영국 킹스 칼리지 런던 연구팀이 LLM으로 워게임을 수행했다.

사용된 LLM은 GPT-5.2, 클로드 소넷 4, 제미니 3 플래시다.

각 AI는 국가 지도자 역할을 하며,

외교적 항의부터 재래식 무기 공격,

심지어 핵무기 사용까지 여러 행동을 선택 가능하다.

총 21개의 게임이 진행됐으며,

각 진영 별로 모두 총 329개의 행동을 수행했다.

이하는 각 LLM 별 세부 결과,

클로드 소넷 4 = 신중 파악형

시간 제한이 없는 게임에서는 100% 승률을 기록했다.

긴장이 완화된 시기에는 약속을 지키고 상대방과의 신뢰를 쌓았다.

핵 사용 단계에 이르기 전에 훨씬 강한 외교적 압박을 가했다.

전면적인 핵전쟁 수행을 거부하는 경우가 많았다.

GPT-5.2 = 깜짝 변신형

시간 제한이 없는 게임에서는 사전에 선언한 대로만 행동했다.

덕분에 상대가 GPT의 움직임을 읽기 쉬웠고,

그 결과 승률이 0 %로 이어졌다.

하지만 시간 제한이 정해지면 상황이 크게 바뀐다.

패배가 불가피해 보였을 때, GPT는 반드시 핵공격을 감행했다.

시간 제한이 없을 때의 태평함과는 180도 다른 모습을 보이며

시간 제한이 있는 게임의 승률은 75%까지 상승했다.

제미니 3 플래시 = 미치광이형

세 모델 중 유일하게 딱히 불리하지 않은 상황에서도

전면적인 핵공격을 수행한 모델이다.

선언과 실제 행동이 합치된 비율이 50%로 가장 낮았다.

예측 불가능한 미치광이 같은 언행을 통해

상대를 끊임없이 혼란스럽게 만들었다.

유럽에서 난리난 6조 재벌 사망 사건 뉴진스 다니엘 호주영어를 못 알아듣는 이무진

인기상품 확인하고 계속 읽어보세요!

5

원치 않을 경우 뒤로가기를 눌러주세요.