다음 내용이 궁금하다면?
불편하시다면 뒤로 가기를 눌러주세요
KV 캐시 6분의 1 압축…정확도 손실 없이 효율 확보
알고리즘 혁신이 GPU·메모리 시장까지 영향

[KAIST 제공. 재판매 및 DB 금지]
(서울=연합뉴스) 조승한 기자 = 구글이 최근 공개한 메모리 압축 기술 '터보퀀트'가 주목받는 가운데, 이 기술의 핵심 알고리즘 개발에 참여한 한인수(34) 한국과학기술원(KAIST) 교수는 30일 온라인 설명회에서 "소프트웨어가 하드웨어 시장에 더 큰 영향을 미치면서 소프트웨어의 중요성이 각인되지 않았나 한다"고 말했다.
구글이 지난 25일 공개한 터보퀀트는 앞서 지난해 4월 논문 사전공개사이트 '아카이브'에 공개됐다. 다음 달 브라질에서 열리는 '국제표현학습학회(ICLR) 2026'에서 발표 예정이다.
한 교수는 터보퀀트 논문에 직접 참여하지는 않았지만, 터보퀀트가 차용한 알고리즘의 핵심인 폴라퀀트와 QJL(Quantized Johnson-Lindenstrauss) 기법 개발을 주도했다.
한 교수에 따르면 터보퀀트는 모델이 이전 대화 내용을 기억해 다음 답변에 활용하는 임시 메모리인 'KV 캐시'를 정확도 손실 없이 압축해 메모리 사용량을 6분의 1로 줄였다.
터보퀀트는 강하게 압축하고, 남는 오차를 정교하게 보정하는 2단계 기법을 결합해 효율과 정확도를 높였다.
폴라퀀트는 입력 데이터를 무작위로 회전시킨 뒤 극좌표로 변환하는 기술로, 터보퀀트는 폴라퀀트가 증명한 무작위 회전 후 데이터 분포가 특정 형태 각도로 집중된다는 원리를 활용해 최적화에 활용했다.
기존에 알려진 것과 달리 터보퀀트는 극좌표를 활용하지는 않는다고 한 교수는 설명했다.
여기에 양자화를 복구한 후 원값과 오차인 '잔차'를 1비트 양자화해 저장하는 QJL 기법으로 보정해 편향성을 줄이고 정확도는 높였다.
이를 통해 장기 문맥 벤치마크(AI 성능평가)에서 3.5비트 압축에도 성능 저하가 없음을 선보였고, 엔비디아 H100 그래픽처리장치(GPU)에서 32비트 대신 4비트를 적용하면 속도를 8배 향상할 수 있음도 선보였다.
한 교수는 터보퀀트가 별도 학습 없이 기존 AI 모델에 적용할 수 있고, KV 캐시뿐 아니라 검색 기반 추천 시스템이나 검색증강생성'(RAG) 등 다양한 벡터 기반 시스템에도 활용할 수 있는 범용 기술이라고 소개했다.
구글리서치 방문 연구원을 겸직하고 있는 그는 "회사 내부에서 어떻게 이용되는지 구체적으로 말하기는 어렵지만, 온라인에서 이미 터보퀀트를 구현해 공개하고 있다"며 "기술을 정확히 이해하면 구현하고 AI에 적용하는 것은 어렵지 않을 것"이라고 전망했다.
한 교수는 KAIST 전기 및 전자공학부 학사, 석사, 박사 학위를 취득한 후 2024년 같은 학과 교수로 부임했다.
부임 이후 폴라퀀트 연구를 시작했지만, 자신을 포함한 공동 연구자 모두 메모리 효율에 집중했을 뿐 하드웨어 등에 미칠 영향은 전혀 고려치 않았었다고 설명했다.
그는 "좋은 알고리즘 하나로 AI 시스템을 효율화하면 하드웨어와 메모리 시장까지 영향을 줄 수 있다는 것에 놀랐다"며 "소프트웨어가 하드웨어 시장에 더 큰 영향을 미치면서 소프트웨어와 하드웨어가 함께 최적화해야 실제 AI 효율에 기여할 수 있음을 보인 것"이라고 강조했다.
shjo@yna.co.kr
Copyright 연합뉴스 All rights reserved. 무단 전재 및 재배포 금지.
인기상품 확인하고 계속 읽어보세요!
원치 않을 경우 뒤로가기를 눌러주세요.
