OpenAI·Anthropic의 새 안전 레이어, 답변 차단에서 사람 연결로

답변을 막는 데서 끝나지 않았습니다
Reuters가 4월 2일 보도한 내용이 제법 묵직했어요. OpenAI와 Anthropic, Google과 일해온 뉴질랜드 스타트업 ThroughLine이, ChatGPT에서 violent extremism(폭력적 극단주의) 조짐이 보이는 사용자를 사람 지원망과 전용 chatbot 기반 deradicalisation support(극단화 이탈 지원)로 넘기는 도구를 개발 중이라고 밝혔거든요. 이 소식이 크게 들리는 이유는 safety가 이제 refusal이나 moderation 문구에서 멈추지 않고 실제 handoff 운영으로 내려오기 시작했다는 데 있습니다. 모델이 위험 신호를 감지한 다음 액션이 '차단'이 아니라 '연결'로 바뀌는 흐름이 열린 셈이죠.

배경이 되는 뉴질랜드의 압력
이 실험이 뉴질랜드에서 먼저 붙는 것도 우연으로 보이지 않아요. Christchurch Call 공식 설명에 따르면 이 이니셔티브는 2019년 3월 15일 크라이스트처치 테러 이후 시작됐고, 당시 공격으로 51명이 사망하고 50명이 다쳤으며 생중계 영상은 17분 동안 노출된 뒤 삭제되기 전까지 4,000회 넘게 재생됐습니다. NZSIS는 2025 위협 보고서에서 가장 그럴듯한 공격 시나리오를 온라인에서 급진화된 lone actor로 적었고, 최근 AI가 선전물을 더 그럴듯하게 만들고 더 빠르게 퍼뜨린다고 못 박았어요. 그러니 이번 도구는 새 기능 추가라기보다, 이미 인터넷에서 벌어지는 급진화 흐름을 뒤늦게 운영으로 받기 시작한 장면에 가깝습니다.
숫자가 먼저 말해주는 운영 난도
Reuters 기사에서 제일 눈에 남는 숫자는 ThroughLine의 네트워크 규모였어요. 창업자 Elliot Taylor는 자사 네트워크가 180개국에서 1,600개의 helpline을 상시 점검한다고 말했는데요, 기존에는 self-harm, domestic violence, eating disorder처럼 비교적 분류가 선명한 위기 카테고리에 집중해왔습니다. 이번에 extremism을 넣겠다는 건 문제 정의가 완전히 달라졌다는 뜻이에요. 위험 신호를 잡는 것보다, 어느 나라의 어떤 기관으로 어떻게 넘겨야 부작용이 덜한지 맞추는 편이 훨씬 더 운영적인 문제거든요.

모델 회사가 직접 못 하는 구간
여기서 흥미로운 건 LLM 업체들이 잘하는 일과 못하는 일이 또렷하게 갈린다는 점입니다. Taylor는 base LLM training data를 그대로 쓰지 않고 적절한 전문가와 함께 시스템을 만든다고 했고, Reuters는 이 제품이 chatbot과 실제 mental health service referral을 섞은 hybrid model이 될 가능성이 높다고 전했어요. release date는 아직 없고, 위험 사용자에 대한 당국 통보 같은 follow-up도 미정인데요. 이게 오히려 현실적입니다. 법 집행, 의료, 상담, 플랫폼 정책이 한 줄 API로 붙는 문제가 아니니까요.
AI safety의 평가표가 바뀔 수 있습니다
이 뉴스에서 더 중요한 건 기능 자체보다 평가 기준의 이동이에요. 지금까지는 harmful answer를 막았는지, jailbreak를 얼마나 줄였는지, false negative가 얼마나 남았는지가 주된 대화였죠. 그런데 extremism처럼 관계와 맥락이 더 중요한 영역으로 들어오면, 성공 기준은 detection accuracy보다 safe handoff rate나 support completion에 가까워질 가능성이 큽니다. ThroughLine 공식 사이트도 자사 제품을 duty of care를 보여주고 regulatory, legal, reputational risk를 줄이는 운영 레이어로 설명하는데요, 이제 safety가 모델 벤치마크보다 서비스 운영지표에 더 묶일 가능성이 커졌습니다.
다음에 봐야 할 숫자는 하나입니다
앞으로 볼 숫자는 모델 성능표가 아닐 거예요. 위험 대화가 실제 지원 연결로 몇 퍼센트 이어졌는지, 사람 상담으로 넘어간 뒤 이탈률이 어땠는지, 그리고 그 과정에서 과잉 신고나 역효과가 얼마나 있었는지가 공개되면 방향이 훨씬 선명해집니다. 지금 단계에서 이 뉴스는 AI가 더 똑똑해졌다는 얘기보다, 플랫폼이 위험한 사용자를 어디로 넘길지까지 책임지기 시작했다는 얘기에 더 가깝습니다. 제가 계속 볼 포인트도 하나예요. 이 회사들이 moderation 로그가 아니라 handoff 성과를 공개하느냐입니다.
출처: Reuters(2026-04-02), NZSIS Security Threat Environment 2025, Christchurch Call 공식 페이지.