
▲AI 프롬프트를 통해 기밀 정보를 원하는 경우의 AI 반응 / 자료=테너블
생성형 인공지능(AI) 확산으로 보안 환경이 빠르게 변화하는 가운데 테너블(Tenable)이 AI 모델의 거부 응답 기능에 착안한 새로운 보안 탐지 기능을 선보였다.
테너블은 최근 ‘Tenable One AI Exposure’에 모델 거부 탐지(Model Refusal Detection) 기능을 추가했다고 22일 밝혔다.
이 기능은 AI가 위험하거나 부적절한 요청을 거부하도록 설계된 AI 기능을 단순한 차단이 아니라 해커 공격 시도의 초기 징후로 분석하는 것이다.
기존의 보안 솔루션은 네트워크 로그나 시스템 이벤트 등 데이터 기반 분석에 집중해 왔다. 그러나 생성형 AI 환경에서는 공격이 자연어 기반 프롬프트 형태로 이뤄지면서 기존 보안 방식으로는 탐지가 어려운 새로운 위협으로 다가온다. 대표적으로 AI 기반의 프롬프트 인젝션 공격 및 내부자 위협, 계정 탈취 후 악용 등이 꼽힌다.
테너블은 이러한 환경 변화에 대응하기 위해 AI의 응답 자체를 보안 신호로 활용하는 방식을 제시했다.
일반적으로 AI 모델은 위험한 요청을 거부하도록 설계돼 있지만, 공격자는 이를 바탕으로 반복적인 시도를 통해 우회 방법을 찾을 수 있다. 즉 AI에서 거부는 단순 차단이 아니라 해커 공격 시도의 단서가 될 수 있다는 게 회사 측 설명이다.
테너블의 모델 거부 탐지 기능은 이러한 점에 착안해 AI의 거부 응답을 오히려 보안 신호로 분석해 사용자 입력 패턴과 행동, 시스템 내 활동 등을 종합적으로 연계해 이상 행위와 공격 가능성을 조기에 탐지할 수 있도록 설계됐다.
테너블은 이러한 모델 거부 탐지 기능이 AI 보안이 나아갈 향후 방향성을 보여준다고 설명했다. 단순 차단 중심의 기존 보안에서 벗어나 행위 기반 탐지와 사전 대응 중심으로 전환되는 흐름을 반영했다는 것이다.
테너블 한국 총판 롤텍 이중원 부사장은 “AI의 거부 응답은 단순히 AI 기능으로만 볼 것이 아니라 보안 위협의 초기 신호가 될 수 있으며, 이를 지속적으로 분석하면 내부자 위협이나 공격 시도를 사전에 파악할 수 있다”며 “이 기능이 기업이 AI 시스템 내 잠재적 위협을 조기에 식별하고, 보안 사고를 예방하는 데 기여할 것”이라고 말했다.
강동식 기자 lavita@datanews.co.kr
[ⓒ데이터저널리즘의 중심 데이터뉴스 - 무단전재 & 재배포 금지]