연합뉴스

UNIST 한승열 교수팀, 국제 AI학회에 논문 3편 이례적 동시 채택

입력 2026-04-21 11:31:58

다음 내용이 궁금하다면?

불편하시다면 뒤로 가기를 눌러주세요


피지컬 AI 기술 핵심 강화학습 분야서 성과




UNIST 한승열 교수팀

왼쪽부터 한승열 교수, 이상현 연구원, 황재박 연구원, 조용현 연구원. [울산과학기술원 제공. 재판매 및 DB 금지]



(울산=연합뉴스) 김용태 기자 = 울산과학기술원(UNIST)은 인공지능대학원 한승열 교수팀의 연구 논문 3편이 23일 브라질 리우데자네이루에서 열리는 표현학습국제학회(ICLR)에 채택됐다고 21일 밝혔다.


ICLR은 신경정보처리시스템학회(NeurIPS), 국제머신러닝학회(ICML)와 함께 세계 3대 인공지능(AI) 학회로 꼽힌다.


이 같은 최상위 학회는 심사 기준이 까다로워 단일 연구실에서 3편의 논문이 동시에 채택되는 것은 드문 사례다.


올해 전 세계에서 ICLR로 제출된 1만9천여편의 논문 중 약 27%인 5천300여편만이 심사를 통과한 것으로 알려졌다.


한 교수팀의 성과는 모두 피지컬 AI 기술의 핵심인 강화학습 분야에서 나왔다. 강화학습은 AI가 환경과 상호작용하며 시행착오를 통해 최적의 행동을 스스로 찾아내는 학습 방식이다.


채택된 논문 주요 내용을 보면 한 교수팀은 우선 산업 현장에서 바로 수집한 오프라인 데이터로 AI를 효과적으로 학습시킬 수 있는 '자기 개선 스킬 학습법'(SISL)을 개발했다.


해당 학습법은 더 유용한 스킬을 능동적으로 발견하고, 모델 내 노이즈를 지속해서 제거해 오류가 섞인 데이터로도 높은 작업 성공률을 유지할 수 있게 한다.


복잡하고 긴 작업의 성공률을 높일 수 있는 기술도 내놨다.


로봇이 물리적으로 도달할 수 없는 잘못된 하위 목표를 설정한 경우 전체 학습 효율이 떨어진다.


한 교수팀은 실패한 시도와 부분적으로 성공한 데이터를 분석해 도달할 수 있는 목표를 명확히 구분하는 '엄격한 하위 목표 실행'(SSE) 학습 기술을 개발해 이 문제를 해결했다.


군집 비행과 같이 여러 AI 에이전트가 협력해야 하는 상황에서 발생하는 최적화 문제를 해결할 수 있는 해법도 제시했다.


하나의 최적 행동에만 의존하던 기존 알고리즘의 단점을 보완해 여러 대안적 행동 가치를 기억하고 평가하는 '연속적 하위 가치 Q-러닝'(S2Q) 기술이다.


이상현, 황재박, 조용현 연구원이 각 연구의 제1 저자로 참여했다.


연구는 과학기술정보통신부 정보통신기획평가원과 한국연구재단의 지원을 받았다.


yongtae@yna.co.kr



인기상품 확인하고 계속 읽어보세요!

5

원치 않을 경우 뒤로가기를 눌러주세요.

연합뉴스 콘텐츠 더보기

해당 콘텐츠 제공사로 이동합니다.

많이 본 최근 기사

관심 많은 기사