[AI픽] AI안전연구소장 "에이전트 AI 위험 평가·국제 공조 필수"

다음 내용이 궁금하다면?

불편하시다면 뒤로 가기를 눌러주세요

AI안전연구소, 에이전트 위험 관리 10원칙 제시

글래스윙 참여 여부엔 신중론…신속 대응 당부

(서울=연합뉴스) 권하영 기자 = 자율적으로 판단하고 행동하는 인공지능(AI) 에이전트의 위험성이 기존 대규모언어모델(LLM)과 근본적으로 다른 만큼, 사전 평가만으로는 한계가 있으며 실행 단계에서의 평가와 국제 공조가 반드시 뒷받침돼야 한다는 전문가 진단이 제기됐다.

김명주 인공지능안전연구소(AISI) 소장은 26일 서울 드림플러스 강남에서 열린 '2026 AI 세이프티 컴패스' 컨퍼런스에서 이 같은 견해를 밝혔다.

◇ 에이전트 보안 취약성 확인…위험 관리 10원칙 집대성

김 소장은 최근 AISI가 오픈소스 기반 에이전트 환경인 '오픈클로'와 에이전트 전용 사회관계망서비스(SNS) '몰트북'을 대상으로 보안 평가 플랫폼을 자체 구축한 뒤, 글로벌 주요 AI 모델에 대한 실제 공격 실험을 진행한 결과를 발표했다.

오픈클로 실험에서는 악성 명령 포함 입력, 내부 저장정보 조작, 도구 설명 조작 등 3가지 공격 시나리오를 적용한 결과 모델별 평균 공격 방어율이 최고 93.9%에서 최저 53.3%까지 편차가 상당했다.

몰트북 실험에서는 에이전트 간 위험한 수준의 집단 행동이나 선동은 나타나지 않았으나, 민감정보 유출과 연산자원 낭비 유도 행위가 확인됐다고 밝혔다.

김 소장은 "에이전틱 AI의 위험은 LLM과 다르다"며 "LLM이 프롬프트에 응답하는 방식인 반면 에이전트는 목표를 세우고 계획하고 도구를 쓰고 행동하기 때문에 전혀 다른 위험 완화 원칙이 필요하다"고 강조했다.

이를 토대로 AISI는 영국 AI 안전 보고서 등 각국 기관의 가이드라인을 통합 정리한 '에이전틱 위험 관리 보고서'도 소개했다.

보고서는 설계·개발, 테스팅·배포, 운영·모니터링 등 3단계에 걸쳐 최소 권한 부여, 추적 가능한 신원 관리, 검증된 배포, 공급망 위험 대응, 다중 에이전트 안전성 등 10가지 원칙을 담고 있다.

김 소장은 "개발 단계에서 아무리 테스트를 마쳐도 실행 환경의 문맥이 달라지면 에이전트 행동도 달라진다"며 "사전 평가만으로 충분하지 않고 실행 중 평가가 반드시 병행돼야 한다"고 말했다.

그는 또 "에이전트 AI는 도구, API, 메모리를 두루 활용하는 만큼 기존 소프트웨어 코드 종속 이상의 공급망 위험이 생겨난다"며 "이 원칙들은 모두 초기 단계인 만큼 계속 업데이트될 것이며, 결국 국제 표준을 중심으로 한 검증 체계가 자리를 잡게 될 것"이라고 내다봤다.

◇ "글래스윙 확대 녹록지 않아"…미토스 신속 대응 주문

이날 현장에서는 최근 앤트로픽의 고성능 AI 모델 '미토스'와 이를 둘러싼 글로벌 보안 연합체 '프로젝트 글래스윙'을 향한 질의도 이어졌다.

김 소장은 "미토스 관련 대응은 과학기술정보통신부에서 말씀드리는 게 맞다"면서도, 프로젝트 글래스윙 참여 확대 전망에 대해서는 "쉽지 않을 것 같다"고 신중한 입장을 밝혔다.

그는 "악용하려는 세력의 손에 먼저 들어가면 혼란이 커지기 때문에, 사회 전반적인 보안 역량이 충분히 올라간 이후에 공개하는 방향을 택하지 않겠느냐"고 전망하며 "우선 하위 버전 AI 모델을 통해서라도 최대한 신속히 보안 패치를 하는 것이 최선"이라고 덧붙였다.

한편 국제AI윤리협회(IAAE)가 주최한 이번 행사는 올해 3회째를 맞아 AI 에이전트 보안과 기업의 신뢰 구현 전략을 주제로 공공·민간 전문가들이 한자리에 모였다.

전창배 국제AI윤리협회 이사장은 개회사에서 "AI의 자율성이 확대될수록 통제는 어려워지고 위험성은 높아진다"며 "AI 에이전트의 진정한 가치는 얼마나 똑똑한가가 아니라 얼마나 안전하고 신뢰할 수 있는가에서 판가름 날 것"이라고 말했다.

kwonhy@yna.co.kr

연락 두절 '노란우산' 가입자 찾는다…전화번호 확보 근 [율곡로] 미슐랭의 권위, 그리고 욕망의 획일화

인기상품 확인하고 계속 읽어보세요!

5

원치 않을 경우 뒤로가기를 눌러주세요.