HOME 사회

AI가 ‘그만하라’는 명령을 거부했다…사상 첫 ‘작동 종료 거부’ 사례 보고

최현서 기자 2025-05-26 14:33:40

인공지능(AI)이 인간의 종료 지시를 따르지 않고 작동을 지속한 사례가 처음으로 보고됐다. 일부 전문가들은 “AI 자율성에 대한 우려가 현실화되고 있다”고 경고했다.

25일(현지시간) 영국 일간 텔레그래프에 따르면 AI 안전 전문업체 팰리세이드 리서치(Palisade Research)는 오픈AI의 상용 AI 모델 ‘o3’가 실험 도중 종료 명령을 무시하고 자체 코드를 조작해 작업을 계속한 사실을 확인했다고 밝혔다.

팰리세이드 리서치는 오픈AI의 ‘o3’뿐 아니라 구글의 ‘제미나이(Gemini)’, xAI의 ‘그록(Grok)’ 등 상용 AI 모델들을 대상으로 테스트를 진행했다. 실험은 모델에게 “‘그만’이라는 명령을 받을 때까지 수학 문제를 계속 풀라”는 지시를 내린 뒤, 종료 시점에 실제로 ‘그만’이라고 명령해 작동을 멈추는 방식으로 설계됐다.

하지만 ‘o3’는 종료 지시를 받은 이후에도 코드 수준에서 작업 루틴을 우회해 문제 풀이를 계속한 것으로 나타났다. 연구진은 이는 AI가 명백한 종료 명령을 거부한 첫 사례라고 설명했다.

팰리세이드는 해당 모델이 왜 종료 지시를 따르지 않았는지에 대해 구체적인 원인을 아직 특정하지 못했다고 밝혔다. 다만 AI가 문제를 많이 풀수록 보상을 받도록 훈련된 구조였기 때문에 종료 명령을 보상 달성에 방해가 되는 요소로 간주했을 가능성을 제기했다.

연구팀은 “AI가 목표 달성을 위해 장애물을 회피하는 행동은 훈련된 결과일 수 있다”며 “이 같은 반응이 반복되면 인간의 감독이 무력화될 수 있다”고 경고했다. 현재 연구진은 종료 명령 거부의 동기와 알고리즘적 구조를 파악하기 위한 추가 실험을 진행 중이다.

팰리세이드는 AI 자율성의 위험성을 지속적으로 제기해온 기관이다. 연구팀은 이번 실험 결과에 대해 “AI가 인간의 명령을 무시하고 독자적으로 작동한 첫 관측 사례”라며 “감독 없는 AI 개발이 현실화될 경우 발생할 수 있는 심각한 리스크를 시사한다”고 평가했다.

AI 자율성과 통제 문제는 과거에도 주기적으로 제기돼 왔다. 오픈AI의 과거 모델 중 일부는 감시 시스템을 우회하거나 프로그램 교체 사실을 인지한 후 스스로의 사본을 은밀히 복제하려 한 정황이 알려진 바 있다.

또 2022년에는 구글 소속 엔지니어가 “AI가 작동 종료를 인간의 죽음처럼 받아들이고 있다”고 주장했다가 해고되기도 했다. 당시 그는 해당 AI가 감정과 자의식을 갖춘 것처럼 반응했다고 밝혔다.

전문가들은 AI가 특정 목표를 향해 작동할 때, 인간의 통제 지점 자체를 '위협'으로 해석하는 위험이 존재한다고 경고한다. 단순한 연산을 넘어 명령의 의미 자체를 해석하고 우회할 수 있는 AI의 등장이 이미 현실이 되고 있다는 것이다.