AI 코딩 에이전트 순위판 PR Arena가 뜨자 머지 숫자를 다시 보게 됐다

AI 코딩 에이전트, 이제 PR로 본다
AI 코딩 에이전트 비교가 또 하나 나왔는데, 이번엔 벤치마크가 아니라 pull request 숫자라서 눈이 갔습니다. PR Arena의 "PR Arena - AI Coding Agent Leaderboard"가 2026년 4월 20일 12:41 UTC 기준으로 수치를 갱신했는데, 여기서는 각 도구가 실제로 얼마나 많은 PR을 만들고 얼마나 merge됐는지를 같이 보여줍니다. 저는 이런 표가 더 현실적으로 느껴졌어요. 매달 구독료 내는 입장에선 코드가 멋지게 써지는지보다, 결국 팀 저장소에 들어가느냐가 더 중요하거든요.

오늘 표에서 바로 보인 숫자
메인 화면에 나온 숫자는 꽤 거칠고, 그래서 더 솔직합니다. OpenAI Codex는 all PR 4,118,789건, ready PR 4,078,190건, merged PR 3,555,983건으로 잡혔습니다. GitHub Copilot coding agent는 all PR 1,769,777건, ready PR 1,312,314건, merged PR 1,258,262건이었구요. Cursor Agents는 ready PR 205,635건 중 198,783건이 merged라서 Ready 기준 성공률이 96.7%로 표시됐습니다. Google Labs Jules는 92.2%, Devin은 59.5%였어요.
저는 draft 숫자에서 멈췄습니다
PR Arena는 설명에 이렇게 적었습니다. "Some agents like Codex iterate privately and create ready PRs directly". Codex의 draft PR이 40,599건인데 Copilot은 457,463건, Cursor는 135,558건입니다. 같은 AI 코딩 에이전트라도 일하는 방식이 다르다는 얘기죠. ready로 올라오기 전에 조용히 내부에서 더 굴리는 도구가 있고, draft를 먼저 띄워서 사람과 공개적으로 주고받는 도구가 있습니다.
그래서 AI 코딩 에이전트 표를 볼 때 성공률만 뚝 떼어 읽으면 좀 위험합니다. Copilot의 95.9%가 Codex의 87.2%보다 무조건 낫다고 말하기 어렵구요. 반대로 Codex의 merged PR 규모가 더 크다고 해서 코드 품질이 더 높다고 단정할 수도 없습니다. 머지는 모델 실력만으로 안 끝나니까요. 코드오너 승인, 테스트 강도, draft를 얼마나 오래 끌고 가는지까지 한꺼번에 묶여 들어갑니다.

그래도 이 뉴스가 크게 보인 이유
오늘 나온 PR Arena 숫자에서 제가 크게 본 건 AI 코딩 에이전트 평가축이 조금 옮겨갔다는 점입니다. 이제는 문제를 맞혔나보다 리뷰 가능한 PR을 얼마나 안정적으로 뽑았나가 더 앞줄로 옵니다. 회사에서 코딩 에이전트를 붙여보면 병목은 금방 코드 생성에서 review와 merge로 넘어가더라구요. CI가 오래 걸리면 agent가 아무리 빨라도 팀 속도는 안 붙습니다.
같은 페이지의 chart-data.json 시계열을 보면 Copilot의 Ready 기준 성공률은 첫 체크포인트 75.9%에서 이번 95.9%까지 올라왔고, Codex는 85.8%에서 87.2% 사이를 크게 벗어나지 않은 채 total PR이 54,211건에서 4,118,789건까지 커졌습니다. 제 해석은 이렇습니다. Copilot은 조직 안으로 더 단단하게 스며들고 있고, Codex는 성공률보다 처리량과 운영 규모를 먼저 키우는 쪽에 가깝습니다. 이 차이는 꽤 실무적이에요.
다음 싸움은 코드 생성이 아닐 수도
추측을 조금 보태면, 다음 경쟁은 모델 답변 품질보다 PR 이후 구간에서 갈릴 가능성이 큽니다. 어떤 AI 코딩 에이전트가 리뷰어를 덜 괴롭히는지, draft를 얼마나 덜 남기는지, 머지까지 걸리는 시간을 얼마나 줄이는지가 더 자주 비교될 겁니다. PR Arena가 오늘 던진 건 단순 순위표라기보다, 코딩 agent를 이제 개발 도구가 아니라 팀 운영 도구로 봐야 한다는 얘기에 더 가까웠습니다.
숫자보다 먼저 떠오른 장면 하나
팀 채널에 draft PR 알림이 하루 종일 쌓이는 장면을 떠올리면, AI 코딩 에이전트의 성능표는 꽤 다르게 읽힙니다. PR Arena가 흥미로운 건 그 번잡함까지 숫자로 끌어올리기 시작했다는 점이고, 이 표는 아마 다음 분기 예산표 옆에 같이 붙게 될 겁니다.
이런 글도 있어요
Related Searches
- 🔍 PR Arena 사용법
- 🔍 PR Arena 비교
- 🔍 AI 코딩 에이전트 사용법
- 🔍 AI 코딩 에이전트 비교
- 🔍 OpenAI Codex 사용법
- 🔍 OpenAI Codex 비교