구글 TurboQuant, AI 메모리 6배 압축에 반도체주 급락 — 제번스 역설이 답이 될까

구글이 AI 추론 비용의 급소를 찔렀다
3월 25일, 구글 리서치가 TurboQuant이라는 압축 알고리즘을 공개했습니다. LLM을 돌릴 때 가장 비싼 병목 중 하나인 KV 캐시(Key-Value Cache)를 16비트에서 3비트로 압축하는 기술인데요. 메모리 사용량이 6배 줄어드는데 정확도 손실은 벤치마크 전 항목에서 0이었습니다.
NVIDIA H100 GPU 기준으로 4비트 TurboQuant을 적용하면 어텐션 연산 속도가 32비트 대비 8배 빨라졌거든요. 논문은 Google DeepMind, KAIST, NYU 공동 연구진이 작성했고 4월 23~27일 ICLR 2026에서 정식 발표 예정입니다. 실제로 구글 리서치 VP Vahab Mirrokni가 공저자로 참여한 걸 보면, 내부에서도 상당히 무게를 두고 있다는 뜻이죠.
제가 주목하는 건 이 알고리즘이 training-free라는 점이에요. 모델을 다시 학습시킬 필요 없이 추론 단계에서 바로 적용할 수 있습니다. 기존 양자화 기법 대부분이 fine-tuning을 요구하거나 정확도를 깎아먹었던 것과 근본적으로 다른 접근이거든요.

3비트 압축인데 정확도가 안 떨어지는 원리
TurboQuant은 2단계로 동작합니다. 1단계는 PolarQuant인데요. 데이터 벡터를 직교 좌표계(x, y, z)에서 극좌표계(반지름 + 각도)로 변환합니다. 이렇게 하면 기존 양자화에서 블록마다 따로 저장해야 했던 정규화 상수(scale, zero-point)가 필요 없어져요. 좌표계를 바꾸는 것만으로 1~2비트의 오버헤드를 통째로 제거한 겁니다.
2단계는 QJL(Quantized Johnson-Lindenstrauss)이라는 잔차 보정인데요. 1단계에서 생긴 미세한 양자화 오차를 랜덤 가우시안 행렬로 투영한 다음, 부호 비트(+1 또는 -1) 딱 1비트만 저장합니다. 이 1비트 스케치가 어텐션 스코어의 바이어스를 수학적으로 제거하는 역할을 하거든요. 결과적으로 내적 추정치가 unbiased가 됩니다.
실무에서 이게 왜 중요하냐면, KV 캐시는 컨텍스트 길이에 비례해서 커집니다. GPT-5.4처럼 100만 토큰 컨텍스트를 처리하려면 KV 캐시만으로 수십 GB가 필요한데요. TurboQuant을 적용하면 같은 GPU로 6배 긴 컨텍스트를 처리하거나, 6분의 1 비용으로 같은 작업을 할 수 있다는 뜻이죠.
삼성·하이닉스 주가가 하루 만에 흔들린 이유
발표 다음 날인 3월 26일, KOSPI에서 SK하이닉스가 6%, 삼성전자가 약 5% 빠졌습니다. 일본 Kioxia도 6% 가까이 하락했고, 미국에서는 전날 Micron이 4% 넘게 떨어졌거든요. 시장의 해석은 단순했는데요. AI 메모리 사용량이 6배 줄어들면 HBM(고대역폭 메모리) 수요도 줄어든다는 논리였습니다.
근데 이 반응은 좀 과한 면이 있다고 봅니다. TurboQuant이 줄이는 건 KV 캐시, 그러니까 추론 시 임시 메모리입니다. 모델 가중치 자체를 줄이는 게 아니거든요. Llama 3 70B 모델의 가중치만 해도 FP16 기준 140GB인데, KV 캐시 압축은 이 부분에 영향을 주지 않습니다. CNBC가 인터뷰한 애널리스트도 "KV 캐시는 전체 메모리의 일부"라며 과잉 반응을 지적했죠.
실제로 SCMP(사우스차이나모닝포스트)에 나온 애널리스트 코멘트가 인상적이었는데요. "buy the dip"이라고 했습니다. 압축 알고리즘이 나올 때마다 메모리 주가가 흔들리는 패턴이 반복되지만, 실제 조달 물량은 줄어든 적이 없다는 근거거든요.

제번스 역설이 여기서도 작동할 가능성
19세기 경제학자 윌리엄 제번스는 석탄 효율이 올라가면 석탄 소비가 줄어들 거라는 당시 통념을 뒤집었습니다. 효율이 높아지면 비용이 줄고, 비용이 줄면 사용처가 늘어나서 총 소비량은 오히려 증가한다는 역설인데요. AI 메모리에도 같은 논리가 적용될 수 있습니다.
TurboQuant 덕에 추론 비용이 50% 이상 줄어들면 어떤 일이 벌어질까요. 지금은 비용 때문에 못 돌리던 100만 토큰 컨텍스트 작업이 가능해지고, 로컬에서 70B 모델을 돌리는 문턱이 낮아지거든요. llama.cpp GitHub에는 이미 TurboQuant 통합 논의가 시작됐습니다. 3비트 양자화가 llama.cpp에 들어가면 RTX 4090 한 장으로 70B 모델 추론이 현실적으로 가능해져요.
이전에도 비슷한 패턴이 있었습니다. 2024년 GPTQ, AWQ 같은 양자화 기법이 나왔을 때도 메모리 주가가 흔들렸지만, 결과적으로 로컬 LLM 사용자가 폭발적으로 늘면서 GPU 수요는 오히려 증가했거든요. VentureBeat은 TurboQuant이 "엔터프라이즈 추론 비용을 50% 이상 절감할 수 있다"고 분석했는데, 이 절감분이 고스란히 새로운 사용처로 흘러갈 가능성이 높다고 봅니다.
개발자가 이번 주에 확인할 것
로컬 LLM을 돌리고 있다면 llama.cpp의 TurboQuant 관련 Discussion #20969를 체크해보세요. 아직 PR 단계는 아니지만, 커뮤니티에서 구현 방향을 논의하고 있거든요. 3비트 KV 캐시가 적용되면 VRAM 16GB 카드로 처리할 수 있는 모델 크기가 바뀝니다.
기업에서 LLM 추론 인프라를 운영하고 있다면, TurboQuant 적용 시 비용 절감 폭을 시뮬레이션해볼 타이밍입니다. 현재 KV 캐시가 전체 메모리의 몇 퍼센트를 차지하는지부터 확인하면 되거든요. Google Cloud에서 먼저 적용할 가능성이 높으니, GCP 사용 중인 팀은 Vertex AI 업데이트 노트를 주시하는 게 좋습니다.
반도체 투자 관점에서는 이번 급락을 매수 기회로 보는 시각이 우세한 상황이에요. 다만 TurboQuant 같은 소프트웨어 최적화가 분기마다 나오는 추세라, 메모리 반도체의 성장 스토리가 "수요 폭발"에서 "효율 대비 수요 증가율"로 바뀌고 있다는 점은 인지하고 있어야 합니다.