코딩 Claude Code 품질 저하, Anthropic이 3개 원인을 직접 공개했다

2026-04-24

코딩 툴이 갑자기 둔해졌다고 느낀 날

Anthropic Engineering이 2026년 4월 23일 올린 'An update on recent Claude Code quality reports'는 Claude Code 품질 저하를 공식적으로 인정한 글이었습니다. 지난 한 달 동안 일부 사용자가 느낀 답답함이 착각이 아니었다는 얘기죠. Anthropic은 문제가 세 갈래였다고 적었고, 세 이슈를 4월 20일 배포된 v2.1.116에서 정리했다고 밝혔습니다.

저는 이 글이 꽤 크게 보였는데요. 보통 코딩 AI가 이상해지면 사람들은 먼저 모델 자체가 나빠졌다고 생각합니다. 이번엔 회사가 먼저 제품 레이어에서 잘못 건드린 지점을 날짜까지 찍어서 공개했거든요.

코딩 Claude Code 품질 저하, Anthropic이 3개 원인을 직접 공개했다 관련 이미지

날짜를 놓고 보면 더 또렷합니다

첫 번째는 3월 4일 변경입니다. Anthropic은 Claude Code의 기본 reasoning effort를 high에서 medium으로 낮췄습니다. 이유는 high에서 지연이 길어져 화면이 멈춘 것처럼 보이는 사례가 있었기 때문이라고 했습니다. 그런데 회사 표현대로 "This was the wrong tradeoff."였습니다. 사용자들은 빠른 답보다 더 똑똑한 답을 원했고, Anthropic은 4월 7일 이 결정을 되돌렸습니다. 지금은 Opus 4.7 기본값이 xhigh, 다른 모델은 high라고 적혀 있습니다.

두 번째는 3월 26일 들어간 세션 메모리 처리 버그였습니다. 한 시간 넘게 비어 있던 세션에서는 예전 thinking을 한 번만 덜어내야 했는데, 실제로는 그 뒤 모든 턴에서 계속 지워졌다고 합니다. 그래서 Claude가 왜 그 파일을 고쳤는지, 왜 그 명령을 쳤는지를 잊어버린 채 이어 달렸고요. 사용자가 느낀 반복 답변, 엉뚱한 툴 선택, 맥락 상실이 여기서 나왔습니다. 이 버그는 4월 10일 v2.1.101에서 고쳐졌습니다.

세 번째는 4월 16일 시스템 프롬프트 수정입니다. Anthropic은 장황함을 줄이려고 도구 호출 사이 텍스트를 25단어 이하, 최종 응답을 100단어 이하로 묶는 지시를 넣었습니다. 내부 테스트에서는 걸리지 않았지만, 나중에 더 넓게 다시 돌려보니 Opus 4.6과 4.7에서 한 평가가 3% 떨어졌다고 적었습니다. 이 문구는 4월 20일에 바로 빠졌습니다.

모델보다 제품 레이어가 더 무섭다

제가 크게 본 건 여기입니다. Claude Code 품질 저하가 모델 학습 실패가 아니라 기본값, 세션 관리, 시스템 프롬프트 같은 주변 레이어에서 터졌다는 점이죠. 요즘 코딩 AI 체감은 모델 이름표 하나로 설명이 잘 안 됩니다. 같은 Sonnet, 같은 Opus라도 어떤 effort를 기본으로 두는지, 이전 reasoning을 얼마나 남기는지, 답변 길이를 어디까지 조이는지에 따라 완전히 다른 도구처럼 보이더라구요.

회사에서 코드를 맡기거나 혼자 사이드 프로젝트를 돌리는 사람이라면 이 차이가 더 아프게 들어옵니다. 코드 생성은 채팅보다 누적 맥락 의존도가 높습니다. 방금 전 수정 이유를 잊는 순간, 속도보다 복구 비용이 더 커져요.

월 구독료 내는 입장에선 더 예민합니다

Anthropic이 reasoning effort를 낮춘 이유 중 하나는 긴 지연과 사용량 문제였습니다. 이해는 갑니다. 다만 월 구독료를 내고 Claude Code를 쓰는 사람 입장에선, 토큰을 조금 아끼는 것보다 한 번 덜 망가진 패치를 받는 쪽이 낫거든요. 특히 리뷰나 리팩터링처럼 한 번에 끝나지 않는 작업은 더 그렇습니다.

이번 공개에서 usage limits를 모든 구독자에게 초기화하겠다고 한 대목도 그래서 중요했습니다. 단순 사과보다, 성능 하락이 실제 사용량 손해로 이어졌다는 걸 회사가 인정한 셈이니까요.

Anthropic도 결국 공개 빌드에서 배웠다

이번 글에는 꽤 현실적인 반성도 들어 있었습니다. 내부 직원이 쓰는 버전과 외부 공개 빌드가 다르면 문제를 놓칠 수 있다는 얘기, 시스템 프롬프트 한 줄도 더 넓은 평가군으로 다시 걸러야 한다는 얘기, Code Review 도구에 더 많은 저장소 맥락을 붙이겠다는 얘기가 같이 나왔습니다. 화려한 신기능 발표보다 이런 문장이 오히려 더 기억에 남았습니다.

AI 코딩 도구 시장이 이제 벤치마크 숫자만으로 안 굴러간다는 증거 같기도 했습니다. 사용자는 모델 점수표보다 어제 하던 세션이 오늘도 이어지는지부터 봅니다. 근데 이건 좀 다릅니다. 실제 만족도를 가르는 자리가 모델 발표장이 아니라 제품 운영실이라는 걸 회사가 직접 써버렸으니까요.

Claude Code 품질 저하 뒤에 남은 것

제 추측엔 앞으로 코딩 AI 회사들이 모델 성능표만 내놓고 넘어가긴 더 어려워질 겁니다. 기본 effort가 바뀌었는지, 세션 기억을 어떻게 다루는지, 프롬프트를 얼마나 조였는지 같은 운영 로그를 함께 설명해야 신뢰를 살 수 있어요. Anthropic이 이번에 먼저 적어낸 건 사과문이라기보다, 코딩 에이전트 제품이 어디서 망가지는지 보여준 장애 보고서에 더 가까웠습니다.

Claude Code 품질 저하를 겪은 사람들은 이제 모델보다 기본값부터 의심하게 될 겁니다.

이런 글도 있어요

코딩 Claude Code 품질 저하, Anthropic이 3개 원인을 직접 공개했다

코딩 Claude Code 품질 저하, Anthropic이 3개 원인을 직접 공개했다

코딩 툴이 갑자기 둔해졌다고 느낀 날

날짜를 놓고 보면 더 또렷합니다

모델보다 제품 레이어가 더 무섭다

월 구독료 내는 입장에선 더 예민합니다

Anthropic도 결국 공개 빌드에서 배웠다

Claude Code 품질 저하 뒤에 남은 것

댓글 쓰기