Claude Mythos Preview, 일반 공개보다 Glasswing이 먼저 나온 이유 [Anthropic 발표]
![Claude Mythos Preview, 일반 공개보다 Glasswing이 먼저 나온 이유 [Anthropic 발표]](https://i.ibb.co/wrF0sdmw/banner-claude-mythos-preview-project-glasswing-cybersecurity-20260408-131412.webp)
Claude Mythos Preview를 신모델 기사로만 보기엔 좀 이상했습니다
Anthropic가 4월 7일 Project Glasswing과 Claude Mythos Preview를 같이 내놨는데, 제 눈에는 신모델 공개 기사보다 보안 비상계획 문서에 더 가까웠습니다. 같은 날 올라온 Anthropic 글 Project Glasswing: Securing critical software for the AI era를 보면 이 모델은 일반 공개 계획이 없고, 일단 방어용으로만 제한 배포하겠다고 못 박았거든요. 신모델이 나왔는데 가입 링크보다 통제 방식이 먼저 보이는 장면, 이건 꽤 다릅니다.
제가 크게 본 건 성능이 높다는 사실 자체가 아니었습니다. Anthropic가 이제부터는 좋은 모델을 얼마나 잘 내놓느냐보다, 그 모델을 누구에게 어떤 속도로 열어주느냐가 보안 이슈가 됐다고 인정했다는 점이었어요.

숫자가 괜히 세게 박힌 게 아니더라구요
Project Glasswing 글에는 launch partner로 Amazon Web Services, Apple, Google, Microsoft, NVIDIA, Palo Alto Networks 같은 이름이 들어가 있고, 여기에 critical software infrastructure를 만드는 over 40 additional organizations에도 접근을 줬다고 적혀 있습니다. Anthropic는 여기에 up to $100M usage credits와 $4M direct donations를 붙였습니다. 그냥 연구 협업 한 건이 아니라 예산을 이미 따로 잡아버린 셈이죠.
같은 날 올라온 Frontier Red Team 글 Assessing Claude Mythos Preview’s cybersecurity capabilities는 더 노골적입니다. CyberGym의 Cybersecurity Vulnerability Reproduction에서 Mythos Preview는 83.1%, Opus 4.6은 66.6%였구요. SWE-bench Pro는 77.8% 대 53.4%, Terminal-Bench 2.0은 82.0% 대 65.4%였습니다. 숫자만 보면 코딩 모델 업그레이드 기사처럼 보이는데, 본문으로 들어가면 분위기가 확 달라집니다.
Anthropic는 같은 Firefox 147 실험에서 Opus 4.6이 수백 번 시도 끝에 working exploit를 2번 만든 반면, Mythos Preview는 181번 만들었고 추가로 29번 register control까지 얻었다고 썼습니다. OSS-Fuzz corpus 기준으로도 roughly 7000 entry points를 돌렸을 때 Mythos Preview가 tiers 1 and 2에서 595 crashes를 냈고, fully patched targets 10곳에서 tier 5, 즉 full control flow hijack까지 갔다고 적었습니다. 여기서부터는 벤치마크 자랑이 아니라 운영 리스크 문서로 읽히더군요.
제일 걸린 건 exploit 단가였습니다
Frontier Red Team 글의 4월 7일 본문에는 더 현실적인 문장이 하나 있습니다. Linux privilege escalation exploit chain 하나를 완성하는 complete pipeline이 under a day, 그리고 under $2,000였다는 대목입니다. 저는 이 숫자가 제일 무섭더라구요. 취약점 연구가 드디어 예술의 영역이 아니라 예산 항목으로 내려온 느낌이었거든요.
매달 모델 구독료나 API 비용표 보는 입장에선 감이 바로 옵니다. under $2,000이면 대기업 보안조직만 가능한 실험이 아니라, 의도가 있는 공격자나 작은 팀도 계산기를 두드려볼 수 있는 수준입니다. 물론 Mythos Preview는 일반 공개가 아니구요. 다만 Anthropic가 스스로 앞으로 몇 달, 몇 년 안에 비슷한 능력이 더 넓게 퍼질 거라고 적어놨다는 점이 중요했습니다.

이 뉴스가 개발자한테 남기는 건 모델 비교표가 아닙니다
Anthropic는 Project Glasswing 글에서 Mythos Preview가 already found thousands of high-severity vulnerabilities라고 썼고, major operating systems와 web browsers 전반에서 발견 사례가 있다고 적었습니다. Red Team 글에서는 17-year-old FreeBSD remote code execution 취약점, 27-year-old OpenBSD 버그, FFmpeg의 16-year-old vulnerability까지 언급합니다. 오래된 코드, 많이 본 코드, 테스트를 수없이 돌린 코드도 안전 보증서가 아니라는 얘기죠.
개발자 입장에선 이제 코드 생성기 성능보다 patch cycle이 먼저 중요해집니다. Anthropic도 같은 글에서 N-day exploit가 훨씬 빨라지고 싸게 만들어질 거라면서 patching enforcement window를 줄이고 auto-update를 더 공격적으로 써야 한다고 적었습니다. 회사에서 배포 승인 한 번 늦어지는 문화가 있다면, AI 코딩 도입보다 그 프로세스가 먼저 문제일 수도 있겠습니다. 이건 제 해석입니다.
왜 Glasswing이 먼저였나
추측이지만 Anthropic는 이번에 Mythos Preview를 모델 상품으로 팔기보다, 먼저 산업 표준의 출발점으로 묶어두려는 것 같습니다. 90일 안에 공개 보고를 내겠다고 했고, vulnerability disclosure, software update, triage automation, patching automation 같은 항목을 같이 정리하겠다고 밝혔습니다. 모델 하나를 내놓은 날에 운영 절차 묶음까지 같이 꺼낸 건 우연처럼 보이지 않았어요.
그래서 저는 이 뉴스를 AI가 해킹을 잘한다는 자극적인 장면보다, frontier model 회사가 드디어 보안 운영체제 얘기를 시작한 날로 봤습니다. 코딩 AI 경쟁이 이제 코드 작성 화면에서만 벌어지지 않는다는 뜻이니까요.
다음엔 benchmark보다 SLA부터 보게 될 겁니다
Claude Mythos Preview 기사에서 남는 건 똑똑한 모델 하나가 아니라, exploit 제작 시간과 패치 시간의 싸움이 진짜 제품 이슈로 올라왔다는 감각입니다.