48빌리언이 붙었는데도 아직 프로덕션은 비어 있습니다

48빌리언이 붙었는데도 아직 프로덕션은 비어 있습니다

48빌리언이 붙었는데도 아직 프로덕션은 비어 있습니다

48 billion보다 먼저 걸린 문장

48 billion이라는 숫자보다 더 세게 남은 건, 4월 5일 올라온 글 제목이 '$48 Billion in Valuations and the Websites Keep Getting Worse'였다는 점이었구요. 돈은 이렇게 몰리는데 결과물 품질 얘기가 제목으로 박혔다는 건, 시장의 흥분과 현장의 피로가 이제 같이 보이기 시작했다는 뜻에 가깝습니다.

이걸 그냥 과장된 경고문처럼 넘기긴 어려웠습니다. 요즘 AI 툴 직접 써보는 사람들은 다 알거든요. 데모는 10분 만에 나오는데, 배포 직전부터 시간이 갑자기 느려집니다.

숫자는 뜨겁고, 문장은 차갑다

그 글이 제시한 수치는 꽤 세게 붙어 있습니다. AI website and app builder ecosystem valuation이 48 billion을 넘겼고, 시장 규모는 2026년 4.7 billion에서 2027년 12.3 billion으로 커질 거라 적었습니다. 같은 글 안에서 Cursor는 4월 2일 Cursor 3를 내놓으며 2 billion ARR run rate, Lovable은 200 million ARR와 15명 규모, Bolt.new는 5개월 만에 40 million ARR라고 적었죠.

여기까지는 다들 좋아할 숫자입니다. 그런데 바로 다음에 품질 얘기가 붙습니다. 그 글은 AppSec Santa 분석에서 534개 샘플 중 25.1%가 확인된 보안 취약점을 포함했고, CodeRabbit 연구에선 AI가 만든 코드가 사람 코드보다 총 이슈가 1.7배, 보안 취약점은 2.74배 높았다고 적었습니다. Gartner의 2028년 defect 2,500% 증가 전망까지 끌어왔구요. 숫자 배열이 거칠긴 한데, 그래서 오히려 지금 분위기를 잘 보여줍니다.

왜 이게 Cursor 뉴스로 읽혔나

이 글이 사실상 Cursor 뉴스처럼 읽힌 이유는 따로 있습니다. Cursor 3가 뭘 새로 추가했는지 보면 방향이 아주 노골적이거든요. 공식 changelog에는 Agents Window가 여러 저장소와 환경에서 에이전트를 병렬로 돌릴 수 있게 만들었다고 적혀 있고, 실제 문구도 'run many agents in parallel across repos and environments'입니다.

여기에 /worktree, /best-of-n이 붙었습니다. 같은 작업을 여러 모델에 던지고, 각자 분리된 worktree에서 돌린 뒤, 결과를 비교해 고르는 방식이죠. 이건 코드를 잘 써주는 모델 하나를 찾는 싸움이 아닙니다. 이제는 누가 더 그럴듯한 초안을 뽑느냐보다, 누가 더 싸게 여러 초안을 돌리고 비교하고 합칠 수 있느냐가 상품이 되기 시작한 셈입니다.

공식 사이트에 'Trusted by over half of the Fortune 500'라는 문구까지 걸린 걸 보면, Cursor가 파는 것도 더 이상 autocomplete 감탄사가 아닙니다. 통제판에 가깝습니다.

제가 크게 본 건 품질보다 단가였습니다

매달 AI 구독료 내는 입장에선 여기서 바로 비용 감각으로 넘어갑니다. agent를 1개 쓰는 것과 4개 돌린 뒤 /best-of-n으로 비교하는 건 체감이 전혀 다르거든요. 개발자는 빨라졌다고 느끼는데, 회사에서 API 비용이나 seat 비용 보는 사람은 갑자기 다른 표를 보게 됩니다.

그래서 이 시장이 지금 올리는 밸류에이션은 생산성 자체보다 생산성의 연출 효과에 더 가까워 보였습니다. 화면에 동시에 여러 agent가 돌고, 스크린샷이 쌓이고, diff가 정리되면 일단 팀은 엄청 빨라진 느낌을 받습니다. 그런데 merge 이후에 테스트, 접근권한, 로그, 장애 복구까지 남는가. 여기서 많이 갈리죠.

사실, 해석, 그리고 조금 이른 추측

사실은 이렇습니다. Builder 툴 시장엔 아주 큰 돈이 붙었고, Cursor 3 같은 제품은 에디터보다 orchestration surface를 앞세우기 시작했습니다. 품질 경고도 같이 커지고 있습니다.

제 해석은 여기서 갈립니다. 시장이 지금 비싸게 사는 건 code generation 자체가 아니라, AI에게 일을 나눠주고 비교하고 되돌리는 관리 경험입니다. 한 줄 잘 쓰는 모델은 금방 따라잡혀도, 팀이 그 결과를 어떻게 승인하고 재현하고 책임질지는 제품 차이가 꽤 오래 남을 가능성이 커 보입니다.

추측도 하나는 남습니다. 다음 경쟁은 더 멋진 생성 화면이 아니라 replay, audit trail, test gating, rollback 같은 데서 붙을 수도 있겠습니다. 실제 서비스에 넣는 순간 필요한 건 창의성보다 증빙이니까요.

지금 이 뉴스를 읽는 사람한텐

AI 툴을 쓰는 직장인이나 개발자라면, 이제 질문을 조금 바꿔야 할 것 같습니다. 이 툴이 코드를 얼마나 잘 만드느냐보다, 이 툴이 만든 결과를 내가 얼마나 싸게 검수하고 다시 돌릴 수 있느냐. 그게 더 현실적인 질문입니다.

48 billion이 붙은 시장이 아직도 프로덕션 신뢰를 완전히 못 샀다는 것, 저는 그게 오늘 제일 큰 뉴스였습니다.

댓글 쓰기

다음 이전