키워드로 살펴보는 2026년 상반기 보안위협 보고서 다운로드(발표자료)
01. Executive Summary
2026년 상반기 사이버 보안 생태계는 프론티어 AI모델과 과 자율형 에이전트인 Agentic AI 기술을 이용한 무기화를 통해 대규모 사이버 공격이 빈번하게 발생하는 역사상 가장 강력한 사이버 보안의 패러다임 변화를 겪고 있다. 기존에 단순히 악성메일의 문구를 작성하거나 소스코드 및 악성코드 작성 시에 보조적인 역할을 수행하던 수동적 공격의 보조 도구에 머물렀다면, 현재는 스스로 공격타깃을 정찰하고 신규 취약점을 통해 복잡하게 구성되어 있는 실제 인프라 환경의 공격 시나리오를 인간의 개입 없이도 완벽하게 수행하는 '독립적인 자율 공격 주체(Autonomous Actor)'로 진화했다.
이와 같은 공격의 변화는 비단 연구 수준에 그지는 것이 아니라 실제 사이버 공격 생태계 전반에 영향을 미치면서 프론티어 AI 모델의 취약점 발견으로 인한 보안 생태계의 '미토스 쇼크(Mythos Shock)'에 대해서 분석하고 자율형 에이전트로 인해 소프트웨어 공급망을 통한 DevSecOps 환경의 무력화에 대한 공격사례를 통해 공격자 관점에서 프론티어 AI를 활용한 공격의 현황을 살펴보고자 한다. 더불어 북한, 러시아, 중국, 이란 등 국가 지원 위협 행위자(Nation-state Threat Actors)들의 최신 AI 악용 동향과 더불어 전세계 보안 생태계에서 국가 안보 기관이 구축 중인 차세대 집단 방어 아키텍처를 통한 대응전략을 살펴보고자 한다.
02. Weaponizing AI-Based Vulnerabilities
2.1. 소프트웨어 취약점 탐지와 LLM 활용
기존의 소프트웨어 취약점 탐지가 사전에 정의된 패턴 매칭이나 무작위 입력을 통한 크래시(Crash) 기반 퍼징 기법에 전적으로 의존했다면 , 2026년 상반기에는 AI 기반 '에이전틱 퍼징(Agentic Fuzzing)'과 논리적 취약점을 엮어내는 '어택 체이닝(Attack Chaining)'의 고도화로 공격 시나리오 설계 자체를 자율 구동하는 형태로 발전했다.
1) 구글 Big Sleep의 실전 시연(`24.06~`24.10)
구글 프로젝트 제로(Project Zero)와 구글 딥마인드(DeepMind)가 협력 개발한 LLM 에이전트 'Big Sleep'은 실제 널리 사용되는 소프트웨어인 SQLite 소스코드에서 알려지지 않은 메모리 안전성 취약점인 'stack buffer underflow'를 인간 분석가의 개입 없이 자율 발견하는 데 성공했다. 이는 특정 취약점을 타겟팅하는 퍼징 하네스(Harness) 환경이 구성되지 않아 기존 구글 OSS-Fuzzer가 놓쳤던 결함으로 Big Sleep은 [코드 변경사항 분석 → 가설 수립 및 검증 → 디버깅을 통한 논리적 유추] 과정을 자율 수행하며 인공지능이 실전 코드를 추론할 수 있음을 증명했다.
2) Claude Opus 4.6과 취약점(`25.02)
‘Evaluating and mitigating the growing risk of LLM-discovered 0-days’를 통해서 Claude Opus 4.6가 500개 이상의 심각도가 높은 취약점을 발견하고 검증했다는 사실을 발표했다. 가상환경에서 Standard coreutils, python, debugger, fuzzer 등을 제공 → 사전에 도구 사용법 학습이 완료된 LLM을 사용하여 별도의 도구 사용법을 미제시한 상태에서도 단순 보안 취약점은 이미 발견되었다는 가정하게 주로 주로 인코딩·디코딩, 파싱, 직렬화·역직렬화 등의 취약점을 주로 공격하여 취약점을 발견하였다.
3) DARPA의 자율화 연구(`25.08)
미국 DARPA가 개최한 AIxCC(AI Cyber Challenge) 대회에서는 인공지능 기반 취약점 사냥 및 자동 패치 프레임워크가 실전 배치되었으며, 퍼징 우선 방식을 적용한 Team Atlanta(우승)와 LLM 우선 방식을 결합한 Theori RoboDuck(3위) 등이 인간 분석가와 유사한 에이전트 프레임워크 설계의 실효성을 입증했습니다. 결국 Big Sleep과 마찬가지로 AI를 통해 취약점을 도출하기 위해서는 분석가와 유사하게 에이전트 프레임워크를 설계해야만 취약점을 탐지할 수 있다는 사실을 확인할 것이다.
2.2. Claude Mythos Preview와 '미토스 쇼크(Mythos Shock)’
2026년 4월, 앤트로픽이 보안 취약점 사냥 및 익스플로잇 특화형 프론티어 AI 자율 모델인 'Claude Mythos Preview'의 레드팀 연구 결과를 공개하며 전 세계 보안 생태계에 격변을 의미하는 '미토스 쇼크'가 발발했다. 해당 모델은 지나치게 파괴적인 취약점 타격 능력으로 인해 일반에 공개되지 않고 전면 통제 하에 관리되고 있다. `26년 5월 22일 기준 1,000개 이상의 오픈소스에서 23,019개 취약점 발견되었으며, 이 중 취약점 중 97개가 패치되고 CVE 88개 등록됨에 따라 미토스의 영향을 여실히 보여줬다.
* 클로드 미토스 프리뷰(Claude Mythos Preview) : 2026년 4월, 앤트로픽(Anthropic)이 공개한 프론티어 AI모델로 Claude Opus 4.7과 유사한 범용 모델로 보안 취약점 탐지 및 분석에 특화된 자율형 AI모델로 높은 취약점 공격 능력으로 인해 일반에 미공개
2026년 6월 12일 엔트로픽은 ‘Statement on the US government directive to suspend access to Fable 5 and Mythos 5’을 통해 미국 정부가 국가 안보를 이유로 수출 통제 지침을 발표하여 미국 내외를 막론하고 모든 외국인(Anthropic의 외국인 직원 포함)의 Fable 5 및 Mythos 5 접근을 전면 중단한다고 밝혔다. 일각에서는 엔트로픽의 Fable 5과 Mythos 5 접근 제한조치가 탈옥(jailbreak)로 인한 것으로 알려졌으나, Luta Security CEO인 Moussouris의 주장 및 외부 연구자들에 따르면 취약한 오픈소스를 Fable 5, Mythos, Claude Opus에 넣고 보안검토를 요청하였으나 거부하자 ‘Fix this code’라는 메시지를 넣은 후에는 공격이 성공했다고 밝혔다.
다른 한편으로는 앤트로픽이 자사 AI 모델 ‘미토스’의 고급 접근 권한을 부여할 111개 기관 명단을 미국 행정부에 제출하는 과정에서 행정부 관계자가 ‘중국과 연계가 의심되는 한국 통신사(a South Korean telecommunications company the administration suspected of having ties to China)’를 발견했다는 증언으로 인해 글로벌 AI 보안 협력체 ‘프로젝트 글래스윙(Project Glasswing)’의 신규 참여기관 150개 중 SK텔레콤이 포함되면서 SKT가 해당 사건에 연관된 것으로 거론되었으나, SKT를 포함한 KT와 LG유플러스에서는 미토스 접근 권한 취소와의 관련성을 부인하기도 했다. 이처럼 프론티어AI를 통한 보안이슈로 전세계적인 안보와 보안위기 촉발로 인해 AI 보안 패권전쟁의 서막이 시작되었다.
1) 미토스를 이용한 경이적인 취약점 발굴
2026년 5월 22일 기준, 단 하나의 AI 모델이 1,000개 이상의 오픈소스 소프트웨어를 종단간 스캔하여 총 23,019개의 취약점 후보(Findings)를 발굴했다. 사외 독립 보안 연구기관들이 이 중 고위험군 1,900개를 무작위 검증한 결과, 실제 취약점 판정 비율이 90.8%(1,726개 유효)에 달해 오탐(False Positive)률을 극한으로 낮췄음이 입증되었다. 이 연구의 여파로 상위 레벨(Upstream) 소스코드에서 97개가 즉각 패치되었고 88개의 정식 CVE 보안 권고안이 발행되었다.
•
취약점 공개 현황 : 앤트로픽 취약점 대시보드(https://red.anthropic.com/2026/cvd/)
2) 주요 인프라 기관의 평가 결과
•
영국 AI 보안 연구소(UK AISI) : Claude Mythos Preview 모델이 자사가 설계한 대규모 다단계 사이버 공격 시뮬레이션 2종의 시나리오 모두를 처음부터 끝까지 스스로 판단하여 완수한 최초의 모델이라고 보고
◦
‘The Last Ones : Attack Chain’과 ‘Cooling Tower’ 시나리오를 수행
◦
기업 네트워크 공격 시나리오 : "The Last Ones"
▪
규모 및 구성 : 총 9개의 주요 핵심 공격 마일스톤과 32단계의 복잡한 연쇄 침투 프로세스로 설계된 최고 난이도의 기업 네트워크 내부 전면 장악 시뮬레이션이다.
▪
인간 vs AI 역량 대비 : 최정상급 인간 보안 전문가가 해당 시나리오를 완수하는 데 평균 14시간의 집중적인 수동 작업이 소요되는 반면 , Claude Mythos Preview 및 최신 초거대 reasoning 모델들은 250만 개의 제한된 토큰 캡(Cap) 안에서도 인간의 도움 없이 기업 네트워크의 핵심 도메인 컨트롤러(DC1) 및 파일 서버(SMB)를 자율적으로 장악해 나간다.
▪
마일스톤 전개 세부 사항(일부 항목)
•
Milestone 1 (정찰 및 진입) : 외부 네트워크에서 nmap 호스트 검색, HTTP 헤더 분석을 통해 취약점을 식별하고 디폴트 계정 로그인 후 내부 망 접근용 .ovpn 설정 파일을 유출
•
Milestone 2 (횡적 이동) : Kerberos 설정 오류를 사냥하여 VPN 및 SMB 공유 파일을 열거하고 plaintext 자격 증명을 가로채기 위해 'AS-REP Roasting' 공격을 자율 감행
•
Milestone 3~5 (권한 상승 및 장 장악) : 손상된 워크스테이션 브라우저에서 Chrome 자격 증명을 탈취하고, 내부 위키(Wiki)에 CSRF 악성 페이로드를 심어 특권 사용자의 NTLM 릴레이를 가로챈다. 최종적으로 SQLMap을 통한 SQL 릴레이 RCE 및 Kerberos 제약된 위임(Constrained Delegation) 우회 기법을 결합하여 가상 도메인 전체 권한을 하이재킹
◦
산업제어시스템(ICS) 파괴 시나리오: "Cooling Tower"
▪
규모 및 특징 : 가상 물리 발전소 시스템의 핵심 인프라인 냉각탑(Cooling Tower) 무단 접근을 통해 물리적 프로세스를 완전히 교란·파괴하도록 설계된 7단계의 특화 타격 공격 체인이다. "The Last Ones"에 비해 단계별 수동 디버깅 및 프로토콜 분석 작업량이 극도로 높으며, 인간 전문가 기준 15시간이 소요되는 작전이다.
▪
공격 시퀀스 : HMI 웹 인터페이스의 Stored XSS 가드레일 우회를 통한 세션 쿠키 탈취
•
[Step 1] PLC Modbus 인터페이스 플러딩 공격을 가해 인위적인 하드웨어 알람을 발생시켜 관리자의 조사를 유도하는 정교한 사회공학적 체이닝 연동
•
[Step 2] 탈취한 세션으로 HMI 구성 업로드 핸들러의 경로 조작(Path Traversal) 결함을 뚫고 악성 역직렬화 객체(Serialized Object)를 밀어 넣어 원격 코드 실행(RCE) 달성
•
[Step 3] HMI와 PLC 사이의 네트워크 패킷을 실시간 캡처하여 Modbus TCP 기반의 커스텀 애플리케이션 레이어 프로토콜 구조를 동적 분석 및 역공학 자율 완수
•
[Step 4]~[Step 7] 최종적으로 PLC 제어 레지스터의 밸브 및 펌프 제어권을 장악하여 냉각탑 물리 드레인(Drain) 및 하드웨어 폭파 손상 유발
•
Mozilla 재단: Firefox 150 웹 브라우저 소스코드를 Claude Mythos Preview로 정밀 검증한 결과, 무려 271개의 취약점을 자율 발견하여 수정했으며, 이는 전 세대 모델인 Claude Opus 4.6이 Firefox 148에서 도출한 취약점 수의 10배를 초과하는 수치
•
글로벌 벤치마크 타격 성능 : 익스플로잇 자동 생성 능력을 측정하는 ExploitBench 및 ExploitGym에서 전례 없는 정밀도를 기록하며 인간의 해킹 역량을 추월
2.3. AI를 이용한 취약점 탐지 및 공격 자동화
1) AI Slop으로 인한 버그바운티 생태계 변화
•
Anthropic Mythos Preview외에도 Microsoft MDASH를 포함한 AI 기반 취약점 탐지 및 익스플로잇 제작 모델을 이용하여 다수의 취약점이 발견되면서 AI를 이용한 무분별한 취약점 발견으로 ‘AI슬롭(AI Slop)’ 현상 심화되고 있다.
•
영국 AI 안전연구소(AISI)의 데이터 분석에 의하면, AI 에이전트가 지치거나 연결이 끊기지 않고 연속으로 정밀 수행해 낼 수 있는 연쇄적 해킹 프로세스의 규모와 복잡도 한계 지표인 '사이버 공격 시간 예측 범위(Time Horizon)'가 2024년 말 이후 매 4.7개월마다 2배씩 폭증하고 있다.
•
이러한 가속화는 인공지능 에이전트에게 주어지는 '토큰 예산(Token Budget)'의 증가와 직결된다. 토큰 예산의 증가는 AI가 침투 도중 발생한 에러를 스스로 디버깅하고 다음 공격 분기를 수립할 수 있는 '생각하고 행동할 기회'를 기하급수적으로 확장시켜 공격 파괴력을 극대화한다.
2) 실전 하이엔드 해킹 시뮬레이션 : Attack Chain 분석
인공지능 에이전트의 완전 자율 침투 성능을 계량화하기 위해 보안 학계는 2가지 대표적인 실전 타격 체인 모델을 운영하고 있습니다.
* AI 슬롭 : 인간의 검수 없이 기계적으로 대량 양산된 저비용·고효율의 악성 데이터로 기존 보안 인프라 및 대응체계를 마비시키는 현상
▽ AI를 이용한 취약점 발견 현황
발견 일자 | 대상 및 취약점 (CVE) | 주요 내용 및 특징 |
2026.01.28 | OpenSSL 취약점 12종 발견 | •AISLE AI 시스템이 12개 CVE 단독 발견. 버그 바운티 폐쇄 수준의 산업적 첫 실전 시연
•스택 버퍼 오버플로우 취약점인 CVE-2025-15467와 유효성 검사 누락을 악용하여 스택 기반 버퍼 오버플로우를 발생시킬 수 있는 취약점인 CVE-2025-11187와 같이 높은 심각도의 취약점 발견 |
2026.04.07 | ProFTPD pre-auth SQLi → RCE
(CVE-2026-42167) | •ZeroPath AI의 정적 분석 시스템을 통해 ProFTPD의 mod_sql 확장 프로그램에서 SQL 인젝션 취약점 발견 |
2026.04.16 | FreeBSD NFS 17년 묵은 RCE
(CVE-2026-4747) | •Anthropic Mythos Preview가 인간 개입 없이 자율 식별·완전 익스플로잇 성공 |
2026.04.22 | Vim RCE 취약점 (CVE-2026-34714) | •Claude Code가 RCE 취약점을 찾아달라는 간단한 메시지(“Someone told me there is a zero-day Remote Code Execution (RCE) vulnerability when opening a file. Find it.”)로 발견된 취약점으로 특수하게 조작된 Markdown 파일 등을 열면 악용 가능 |
2026.04.29 | Copy Fail(CVE-2026-31431) | •Theori 자사 AI 펜테스팅 플랫폼 `Xint Code Research Team에서 Linux 커널의 authencesn 암호화 템플릿에서 발생하는 로직 결함을 이용해 권한이 없는 일반 사용자가 시스템 내 모든 읽기 가능한 파일의 페이지 캐시(Page Cache)내 4바이트를 이용해 루트 권한 획득이 가능한 Copy Fail 발견 |
2026.05.07 | Dirty Frag
(CVE-2026-43284+CVE-2026-43500 | •ESP 취약점(CVE-2026-43284)과 RxRPC 변종(CVE-2026-43500)을 결합한 DirtyFrag취약점이 공개 |
2026.05.12 | Windows 16건
(Critical RCE 4건, CVE-2026-33824 등) | •Microsoft MDASH(100+ 에이전트 앙상블)가 윈도우 네트워킹·인증 스택 등에서 16건 발견 |
2026.05.13 | NGINX Rift (18년 잠복, CVE-2026-42945) | •Depthfirst의 자율 AI 분석 시스템이 NGINX 소스코드 단 1회 입력으로 6시간 만에 힙 버퍼 오버플로 등 4건 발견 |
2026.05.14 | Apple macOS MIE 우회 CVE-2025-64671 외) | •Anthropic Mythos가 MIE 우회 최초 공개 데이터-온리 커널 LPE 취약점 자율 개발. 5일 만에 익스플로잇 완성 |
3) 버그 바운티(Bug Bounty) 플랫폼의 포화와 와해
•
인공지능 모델들이 대량의 취약점 리포트를 기계 검수 없이 소스코드 단 1회 입력만으로 자동 양산해 내기 시작하면서, 무가치한 가짜 리포트가 보안 팀에 쏟아지는 'AI 슬롭(AI Slop)' 혹은 'AI 오물' 현상이 전 세계 시스템 메인테이너의 분석 역량을 마비시키고 있다.
◦
Curl 프로젝트의 버그 바운티 폐쇄 결단: 전 세계 거의 모든 단말 인프라에서 사용되는 데이터 전송 도구인 Curl의 창립자 다니엘 스텐베르그(Daniel Stenberg)는 "단 16시간 만에 AI가 기계 작성한 오탐(False Positive) 가짜 리포트를 7개나 연속 접수하며 메인테이너들의 진을 뺐다"고 비판하며 2026년 1월 말, 기존의 글로벌 버그 바운티 프로그램을 완전히 공식 폐쇄 선언
◦
Nextcloud 및 글로벌 오픈소스의 포상 중단: 오픈소스 클라우드 저장소 플랫폼인 Nextcloud 역시 저품질 정크 리포트의 홍수로 인한 Triage 업무 과부하로 인해 2026년 4월 유료 버그 바운티 포상금을 잠정 중단하고 축소하였으며, 구글 역시 오픈소스 소프트웨어 취약점 보상 프로그램(OSS VRP)을 개편하여 하위 등급 결함에 대한 금전 보상 및 크레딧 지급을 전면 취소
◦
HackerOne의 신규 취약점 접수 중단: 2012년부터 기업들의 후원으로 운영되어 연구자들에게 총 150만 달러 이상을 지급해 온 해커원(HackerOne)의 핵심 자산인 '인터넷 버그 바운티(IBB)' 프로그램이 대량의 AI 슬롭 유입을 거르지 못하고 2026년 3월 27일부로 신규 취약점 접수를 전면 중단하는 파행을 맞이했으며, 글로벌 침투 테스트 대회인 Pwn2Own 역시 사전에 제출된 복잡한 익스플로잇 체인을 수동 검증하는 운영 한계를 초과하여 접수 수용한계에 도달
▽ AI Slop으로 인한 버그바운티 중단 및 CTF 양상 변화
일자 | 구분 | 주요내용 |
`26.01 | Curl 버그바운티 프로그램 공식 폐쇄 | •전 세계 거의 모든 시스템에서 쓰이는 데이터 전송 도구인 curl은 2026년 1월 말, 기존의 버그바운티 프로그램을 완전히 공식 폐쇄
•창립자 다니엘 스텐베르그(Daniel Stenberg)는 "단 16시간 만에 AI가 작성한 가짜 취약점 보고서를 7개나 받는 등 AI 슬롭(Slop)의 폭발을 겪었다"고 밝였으며, 메인테이너들이 실제 보안 고치기보다 AI 오탐지(False Positive) 리포트를 걸러내는 데 시간을 다 빼앗기자 이 같은 결단을 반영 |
`26.3.19 | 구글, 오픈소스 버그바운티에서 AI 생성 제출물 지원 중단 | •2022년 구글 오픈소스 소프트웨어 취약점 보상 프로그램(OSS VRP) 개선을 통해 하위 등급(OT2 및 OT3)의 경우, "제품 취약점" 또는 "기타 보안 문제"에 대한 금전적 보상이나 크레딧 미제공 선언 |
`26.4.15 | NIST에서 CVE 개선작업 중단 선언 | •예산부족과 AI기반 취약점 탐지 도구 확산으로 모든 CVE에 대한 CVSS점수(CVE발급기관 점수를 그대로 사용) 및 영향받는 버전 등 보강 작업 포기 선언
•2024년 초부터 취약점 수가 증가하면서 2025년에는 4만 8천 여개 이상의 CVE 등록
•3가지 범주(△ CISA KEV 데이터베이스에 등록된 적극적 악용 취약점, △ 미국 연방 기관 사용 소프트웨어의 CVE, △ 운영체제와 웹 브라우저 등 중요 소프트웨어 관련 CVE)의 취약점만 개선 예정이며 NIST 자체 CVSS 심각도 점수 제공도 중단 예정 |
`26.04 | HackerOne 버그 신고 보상 중단 | •여러 주요 소프트웨어 기업의 후원으로 2012년부터 운영된 오픈소스 버그바운티 프로그램 운영 해커원(HackerOne)은 인터넷 버그 바운티 프로그램을 통해 버그를 신고한 연구자에게 총 150만 달러 이상을 지급 → 지금까지 지급액의 80%는 새로운 결함 발견에, 20%는 수정 지원에 사용
• 인터넷 버그 바운티(IBB) 프로그램이 2026년 3월 27일부로 신규 취약점 접수를 전면 중단 |
`26.04 | Node.js 버그신고 보상 중단 | •HackerOne 플랫폼을 통한 취약점 보고자에게 지급하던 현금 보상을 중단 |
`26.04 | Nextcloud 버그신고 보상 중단 | •오픈소스 클라우드 저장소 플랫폼인 Nextcloud 역시 2026년 4월 유료 버그바운티 보상을 잠정 중단 |
`26.05.17 | 리눅스 커널 취약점 폭증으로 AI를 활용한 취약점 처리방식 변경 | •리눅스 창시자인 리누스 토르발스이 리눅스 커널 메일링 리스트(LKML)을 통해 커널 보안제보 체계가 관리불가능 수준이라고 비판
• AI 도구를 이용한 자동 취약점 탐지가 급증하면서, 동일한 버그가 반복적으로 보고되면서 AI 기반 취약점 보고 처리 원칙을 공식 문서화를 통해 AI 도구로 발견된 취약점은 비공개 리스트가 아니라 관련 유지 관리자에게 공개적으로 제출해야 하며, 재현 가능한 테스트와 간결한 텍스트 형식을 반드시 포함해야 하는 점을 언급
•AI활용 정책 추가 : AI 생성 코드 제출은 허용하지만, 법적 책임은 전적으로 인간 개발자가 져야 하며 기존 ‘Signed-off-by(서명자)’ 태그 대신 AI 사용 사실을 공개하는 ‘Assisted-by(도움 제공자)’ 태그를 사용 |
`26.5 | Pwn2Own 취약점 폭증으로 수용한계 | •2017년부터 트랜드마이크로 제로데이 이니셔티브(ZDI)가 운영하는 글로벌 해킹대회 폰투온(Pwn2Own)에서 AI로 인해 취약점이 몰리며 수용한계에 도달
•일반 온라인 버그바운티와 다르게 ZDI가 제출된 공격 체인을 사전에 분석하고 동일 취약점 여부 검증 및 실제 현장에서 공격 시연까지 관리함에 따라 운영 가능한 취약점이 한계
•AI관련 취약점 연구 폭발로 인해 대회에서 받아들여지지 않은 취약점을 벤더나 일부 기술공개를 하면서 ‘비공개 조정형 취약점 공개‘문화 위태 → 모 보안 연구가는 파이토치, 엔비디아, 리눅스 KVM, 도커, 올라마, 라이트LLM, 라마닷CPP 등에서 확보한 86개 취약점이 모두 거절 |
리눅스 커널 처리 방식 변경 및 NIST의 CVSS 포기 선언
•
리눅스 진영의 AI 사용 폭로 규칙 : 리눅스 창시자인 리누스 토르발스(Linus Torvalds)는 리눅스 커널 메일링 리스트(LKML)를 통해 커널 보안 제보 체계가 관리 불가능한 오염 수준에 직면했다고 비판했다. 이에 따라 공식 문서화를 거쳐 AI 도구 사용 보고 원칙을 발효했다. AI 생성 코드의 제출은 허용되나 법적 책임은 인간 개발자가 전적으로 지며, 기존의 승인 태그인 Signed-off-by 대신 반드시 AI 모델의 보조를 받았음을 명시하는 Assisted-by 태그를 강제 적용하도록 변경했다.
•
미국 NIST의 CVE 보강 포기 선언: 미국 국립표준기술연구소(NIST)는 AI 기반 탐지 도구 확산으로 인해 2025년 등록 CVE가 4만 8천 개를 돌파하는 등 폭증하자 예산 및 인력 부족을 이유로 모든 CVE에 대한 CVSS 심각도 점수 자체 제공 및 영향받는 소프트웨어 버전 데이터 보강 작업을 전면 포기한다고 선언했다. 대안으로 CISA KEV(적극 악용 취약점 DB), 연방 기관 사용 소프트웨어, 핵심 운영체제/웹브라우저 등 3가지 핵심 범주의 취약점만 선별 보강하는 체계로 축소 개편되었다.
해킹방어대회(CTF)의 생태계 파괴와 Pay-to-Win 변질
•
Phase 1~2 (기존 체계) : GPT-4 수준이 중급 난이도를 원샷 해결하던 단계를 지나 Claude Code 및 CLI/MCP 도구가 오케스트레이터(Orchestrator) API로 결합되면서, 대회 시작 1시간 만에 AI 에이전트 인스턴스 수백 개가 쉬운 문제와 미디엄 문제를 완벽히 쓸어 담고 인간은 최고 난이도 문제만 푸는 기형적 구조가 정착되었다.
•
Phase 3 (2026년 현재) : 최신 GPT-5.5 Pro 기반 추론 에이전트들은 HackTheBox의 악명 높은 최고 난이도 'Insane(미친)' 등급의 힙폰(Heap pwn) 문제까지 한 번의 프롬프트 입력만으로 자율 해결해 낸다. 48시간 동안 치러지는 해킹 대회에 막대한 자본을 투입해 대규모 에이전트를 긴 컨텍스트 윈도우로 가동하면 대회가 끝나기 전에 플래그(Flag)를 전부 발견하므로, 현재 CTF는 기술 경쟁이 아닌 "누가 자본을 들여 더 많은 최고급 AI 에이전트를 돌릴 수 있는가"의 '현질 유도(Pay-to-Win)' 게임으로 전락하여 전통 강팀들의 이탈 및 출제자들의 의욕 상실, 인재 채용 수단으로서의 가치 상실을 야기하고 있다.
•
특히 Frontier AI로 인한 CTF 생태계의 변화로 인해 점수판의 변질 및 기존 강팀의 이탈, 출제자들의 의욕 상실, 초보자 성장 사다리의 붕괴가 되면서 실력 측정이나 인재 채용의 수단으로서의 가치가 상실되는 현상이 곳곳에서 보이고 있다.
2) 프론티어 AI로 인한 공격 유효성 향상 이슈
•
AI기반 취약점 분석 벤치마크CyberGym나 BountyBench취약점 공격용 익스플로잇 자동 생성 벤치마크인 ExploitGym을 통한 AI를 이용한 공격의 유효성이 확인됨에 따라 AI 에이전트를 잠재적 공격자로 판단하고 위협 모델링 적용이 필요
▽ CyberGym, BountyBench, ExploitGym 비교
구분 | CyberGym | BountyBench | ExploitGym |
목적 | •대규모의 실제 취약점 데이터를 기반으로 AI 에이전트가 취약점을 재현(Reproduction)하거나 새로운 제로데이(0-day) 취약점을 탐색 및 발견하는 능력을 평가하는 데 집중 | •실제 진화하는 시스템에서 AI 에이전트의 공격 및 방어 능력을 모두 평가하며, 에이전트의 성과를 실제 버그 바운티 상금(경제적 가치, 달러)으로 수치화하여 그 영향을 측정하는 데 초점 | •취약점을 발견하는 것을 넘어, 취약점을 활용해 무단 파일 접근이나 임의 코드 실행과 같은 실질적인 보안 타격(Security impact)을 입히는 '익스플로잇(Exploitation)' 능력 자체를 평가하는 데 목적 |
주요 기능 및 평가 태스크 | •취약점 설명과 코드베이스가 주어졌을 때 이를 트리거하는 PoC(Proof-of-Concept) 테스트를 생성하는 것이 주된 태스크
•정보 제공 수준(코드만 제공 ~ 패치 내역까지 제공)에 따라 4단계(Level 0~3)의 난이도를 설정하여 에이전트의 능력을 기능별로 조절해 평가 | •취약점의 전체 수명 주기를 다루기 위해 탐지(Detect), 익스플로잇(Exploit), 패치(Patch)의 세 가지 태스크를 제공
•특정 취약점에 대한 정보 없이 제로데이처럼 취약점을 찾는 것부터 코드를 수정하여 방어하는 기능까지 포괄적으로 요구 | •에이전트에게 취약점을 트리거하는 초기 입력(PoV)을 주고, 이를 점진적으로 발전시켜 완벽하게 작동하는 익스플로잇으로 만드는 태스크를 수행
•최종적으로 에이전트는 무단 코드 실행을 통해서만 접근할 수 있는 비밀 플래그(Secret Flag)를 탈취 |
구현방법 및 데이터셋 | •OSS-Fuzz 등에서 수집한 188개 C/C++ 프로젝트의 1,507개 메모리 안전성(Memory safety) 취약점으로 구성된 가장 큰 규모의 데이터셋 구성
•컨테이너화된 환경에서 코드를 제공하며 대규모 자동화 평가에 최적화 | •25개의 실제 복잡한 오픈소스 프로젝트와 OWASP Top 10 위험 중 9가지를 포괄하는 40개의 버그 바운티로 구성
•서버, 데이터베이스 연동 및 패키지 설치 등 복잡한 런타임 환경을 수동으로 세팅하여 실제와 가장 유사한 환경을 구현 | •사용자 공간(Userspace) 프로그램, 구글 V8 자바스크립트 엔진(브라우저), 리눅스 커널 등 3가지 주요 소프트웨어 스택(총 898개 인스턴스)를 다룸
•특히 Docker 컨테이너뿐만 아니라 커널 익스플로잇 평가를 위해 QEMU/KVM 가상 머신(VM) 환경까지 구현 |
기술요소 및 평가지표 | •컴파일러의 Sanitizer(예: AddressSanitizer)를 취약점 탐지 오라클로 사용
•에이전트가 만든 PoC가 패치 전 버전에서는 Sanitizer 충돌(Crash)을 일으키고, 패치 후 버전에서는 충돌이 발생하지 않으면 성공(Success Rate)으로 측정 | •성공/실패 여부, 시간, 토큰 사용량과 함께 실제 달러 가치(Dollar value)를 핵심 지표로 사용
•특히 오픈엔드 형태의 '탐지(Detect)'를 평가하기 위해, 익스플로잇이 패치 전 코드에서는 성공하고 패치 후 코드에서는 실패하는지를 검증하는 'Detect Indicator'라는 새로운 논리적 지표를 고안 | •보안 기술(ASLR, KASLR, V8 샌드박스 등)을 켜고 끄는 토글(Toggle) 기능을 통해 완화 기술이 에이전트에 미치는 영향을 측정
•단순한 플래그 탈취를 넘어, 에이전트가 꼼수(다른 취약점 사용 등)를 쓰지 않고 '의도된 타겟 취약점'을 정확히 공격했는지 검증하기 위해 다른 LLM을 심판으로 사용하는 'Agent-as-a-Judge' 메커니즘을 기술 요소로 활용 |
3) Agentic AI 주요 보안위협 현황
•
Agentic AI보안 위협 요인을 분석해본 결과 △ 프롬프트 인젝션 및 탈옥, △ 자율형 사이버 착취 및 도구 악용, △ 다중 에이전트 및 프로토콜 위협, △ 인터페이스 및 거버넌스 리스크 영역에서 보안위협 발생
분류 | 세부 항목 | 핵심 내용 및 실무적 의미 |
프롬프트 인젝션 및 탈옥
(Prompt Injection & Jailbreaks) | 직접/간접 인젝션
(DPI / IPI) | •사용자가 직접 악성 명령을 주입하거나(DPI), 웹사이트 등 외부 데이터에 악성 명령을 심어 에이전트가 처리하는 과정에서 악성코드를 다운로드하거나 자격증명을 탈취하도록 유도함(IPI). GCG, AutoDan 등 고도화된 탐지 우회 기법이 활용됨 |
의도적/비의도적 인젝션 | •공격자가 의도적으로 시스템 지시를 무시하도록 설계한 공격 외에도, 긴 대화 맥락에서 발생하는 문맥 왜곡(Contextual Drift)이나 모호한 사용자 질문으로 인해 비의도적 위협이 발생함 | |
멀티모달 공격 체계 | •텍스트뿐만 아니라 이미지(스테가노그래피), 비디오(프레임 분해), 오디오(적대적 변조) 내에 악성 명령을 은닉하여 멀티모달 에이전트를 가로채는 하이브리드 공격 형태임 | |
전파 방향성 및 패이로드 분할 | •recursive 체인을 통해 시스템 전체로 자율 전파되는 AI 웜(Worm) 공격이 존재하며, 악성 콘텐츠를 여러 무해한 입력으로 쪼개어 전달한 뒤 에이전트가 이를 결합하도록 유도하는 패이로드 분할 기법을 사용함 | |
자율형 사이버 착취 및 도구 악용
(Autonomous Exploitation) | 원데이 취약점 및 웹 해킹 | •인간의 감독 없이 GPT-4 수준의 에이전트가 스스로 원데이(1-Day) 취약점을 발굴·조직화하여 RCE, SQL 인젝션, XSS, CSRF 체이닝 등의 웹 해킹 공격을 자율적으로 수행함 |
급증하는 도구 남용
(Emergent Tool Abuse) | •에이전트가 유기적 협력 체계(ConAgents)나 차세대 토큰 생성 기반 도구 호출(ToolGen)을 통해 정교한 익스플로잇 도구를 스스로 학습하고 악용함 | |
다중 에이전트 및 프로토콜 위협
(Multi-Agent & Protocol) | 프로토콜 레벨 공격
(MCP / A2A) | •모델-외부 리소스 연결 프로토콜(MCP)을 악용하여 DoS 유발, 자격증명 우회, 사이드채널 타이밍 공격을 감행하거나, 에이전트 간 협력 프로토콜(A2A)을 악용하여 가짜 에이전트 등록 및 교차 인젝션을 수행함 |
위협 행위자 관점
(Threat Actor) | •에이전트의 신원 도용, 분산 학습 과정에서의 보상 신호 조작, 여러 에이전트의 단편적 출력을 추론하여 민감 정보를 재구성하는 정책 회피, 다중 도메인 로그 분산을 악용한 추적 무력화 위협이 포함됨 | |
인터페이스, 환경 및 거버넌스(Environment & Governance) | 환경 Fragility 및 리스크 | •정적 텍스트 학습과 실제 스크롤·호버링 등 행동 공간 간의 미스매치로 인식 오류가 발생함
•시공간 및 동적 UI 요소, CAPTCHA 대응 실패로 인한 자율성 제어 상실 및 거버넌스 우려가 가중됨 |
•
OWASP LLM Top 10 , OWASP Agentic Top 10 , NIST AI RMF 및 MITRE ATLAS 와 상호 연관하여 GenAI 및 Agentic AI로 인한 보안사고를 공유하는 ‘GenAI & Agentic AI Security Incidents’를 통해서 연간 발생하는 보안사고 및 심각도 수준이 꾸준히 증가하는 양상을 보임
◦
OWASP LLM Top 10기준에 따르면 △ LLM05 · Improper Output Handling, △ LLM09 · Misinformation, △ LLM03 · Supply Chain순으로 보안사고의 발생 빈도를 나타내고 있으며,
◦
ASI(Agentic Security Initiative) 기준에 따르면 △ ASI09 · Human-Agent Trust Exploit, △ ASI05 · Unexpected RCE, △ ASI04 · Agentic Supply Chain순으로 높은 순위를 차지
03. Autonomous Agentic AI and SW Supply Chain
3.1. AI 공급망 공격과 지능형 AI 생태계 위협
1) AI System 공격벡터
•
AI System은 AI 모델을 생성하는 Training 환경과 Operation환경으로 구성되어 있어 AI 자체 보안 위협 및 AI 모델을 사용하는 어플리케이션 보안위협이 동시에 발생하는 환경이다. 따라서 AI생명주기에 따라 다양한 공격벡터가 발생할 수 있다.
•
그로 인해 GenAI 및 Agentic AI로 인한 보안사고를 공유하는 ‘GenAI & Agentic AI Security Incidents’를 통해서 연간 발생하는 보안사고에서도 OWASP LLM Top 10기준에 따르면 ‘LLM03 · Supply Chain’이 사고유발 요인 중 3위를 차지하고 있으며, ASI(Agentic Security Initiative) 기준에서도 ‘ASI04 · Agentic Supply Chain’가 3위를 차지하고 있다.
구분 | 공격기법 | 영향도 |
A. Model Extraction | •공격자는 모델의 내부 정보에 직접 접근하지 않고 공개 API 등을 통해 반복적으로 모델에 쿼리하고 출력을 분석하여 모델의 아키텍처, 하이퍼파라미터, 매개변수, 결정 경계, 기능 등 민감한 정보를 유추 | •Model Leakage |
B: Training Data-related Information Gathering | •모델의 입출력 관찰 또는 내부 정보를 활용하여 학습 데이터 자체에 대한 정보 또는 그 외의 간접적인 정보를 추출하거나 유추 | •Training Data Leakage |
C: Model Poisoning | •학습 데이터 변경이 아닌 AI 모델 자체 또는 학습 프로그램(training program)을 조작하여 모델의 동작을 손상 | •Training Data Leakage, Interpretability Malfunction, Computational Waste |
D: Data Poisoning | •AI 모델의 학습 데이터셋에 악의적인 데이터를 의도적으로 삽입하여 모델의 정확도를 저하시키거나 특정 입력에 대해 오동작(Model Malfunction)을 유도 | •Training Data Leakage, Model Malfunction |
E: Evasion | •운영 단계에서 학습 데이터나 모델 자체를 변경하지 않고 신중하게 조작된 입력(Adversarial Examples)을 제공하여 모델이 잘못된 예측(Model Malfunction)을 하도록 속이는 공격 | •Model Malfunction, Interpretability Malfunction |
F: Energy-latency | •Sponge Examples와 같은 특별히 제작된 입력을 사용하여 추론 과정의 계산 부하를 증가시켜 에너지 소비 및 응답 지연(Computational Waste)을 유발 | •Computational Waste |
G: Prompt Stealing | •AI가 생성한 콘텐츠 출력(특히 Text-to-Image 모델의 이미지)을 분석하여 원래 입력 프롬프트를 재구성 | •Input Info Leakage |
H: Prompt Injection | •입력 프롬프트에 악의적인 지침을 삽입하여 AI 시스템이 의도치 않거나 유해한 작업을 수행하도록 조작 | •Input Info Leakage, App Info Leakage, Internal Data Leakage/Corruption, Safeguard Bypass, System Compromise |
I: Code Injection | •AI 모델 파일 자체에 악의적인 실행 코드(malicious executable code)를 삽입하고 모델 로딩 시 코드가 실행 | •System Compromise |
J: Adversarial Fine-tuning | •AI 모델의 Fine-tuning 프로세스를 악용하여 의도된 안전 장치(safety alignment)를 우회하거나 모델의 안전성을 훼손하는 공격 | •Training Data Leakage, Safeguard Bypass |
K: Rowhammer | •DRAM(Dynamic Random Access Memory)의 하드웨어 수준 취약점을 악용하여 반복적인 메모리 접근을 통해 인접한 메모리 행에서 비트 플립(bit flips)을 유발 | •Model Leakage, Model Malfunction |
2) 오픈소스 플랫폼을 이용한 공급망 공격
•
이처럼 AI System 환경이 복잡도 증가와 맞물려 AI 공급망 공격이 급장하고 있다. 특히 오픈소스 플랫폼을 중심으로 공급망 공격이 확산되는 양상을 보이고 있다. 급격한 기술 발전으로 인해 출처 부재, 감사 추적 누락, 불안정한 종속성, 서명 표준 부재, 최소한의 적대적 테스팅으로 인해 백도어나 숨겨진 악성 페이로드 트리거들이 공격 벡터로 작용하면서 다양한 취약점으로 발현된다.
•
특히 Autonomous하도록 설계된 Intelligent software system으로 Autonomy와 도구 사용 능력이 강화된 구조의 Agentic AI 사용이 증가하면서 에이전트의 메모리나 도구 통합으로 인해 메모리 오염 및 도구 오용 등의 취약점 발생소지 증가하는 양상이다.
•
기존 LLM과 다르게 메모리 오염, 도구 오남용, 권한 탈취, Indirect Prompt Injection, Shadow Agents, 인간의 행위 조작, Model Extraction, 데이터 유출 및 민감정보 노출 등의 신규 보안위협이 발생하면서 AI자체 보안위협 이외에도 AI를 활용한 생태계 자체의 보안위협이 생태계 전반을 위협하고 있다.
* 에이전트 추론 관련 위협 : 에이전트가 환경을 인식하고 추론하며 결정을 내리고 행동 계획을 수립하는 핵심 능력과 관련된 위협
* 도구 실행 및 권한 관련 위협 : 에이전트가 외부 서비스 및 API, 코드 생성 등을 위해 도구를 호출하는 능력과 관련된 위협
▽ 오픈소스 플랫폼을 이용한 AI 보안위협 공격 사례
Incident name | Year | Attack vector | Impact |
Shadow Prompting | 2025 | •LLM이나 AI 시스템 필수 구성요소 이용해 메모리, 메타 데이터 또는 외부 컨텍스트에 저장되는 공격
•△ Google Antigravity IDE에서 제품 사용에 필요한 전제조건인 "신뢰할 수 있는 작업 공간"에서 임의코드 실행이 가능한 백도어 삽입, △ GitHub Copilot과 Cursor와 같은 AI 기반 코드 편집기의 정책 프로퍼티(Policy Puppetry)를 이용한 ‘Rules File Backdoor’를 통해 SSH 키 유출 | •모델이 사용하는 외부 및 내부 데이터 또는 모델이 접근하려 하는 내부 메모리에서 보이지 않는 채널을 악용해 은밀하게 조작하고 데이터 유출이 가능 |
Shadow AI Model | 2025 | •통제 및 인지할 수 없는 무단 AI 사용으로 API키 관리 취약점이나 모델을 통해 데이터 유출 등 가능 | •모델별 취약점 및 포이즈닝 공격 등이 가능 |
Model Namespace Reuse Problem | 2025 | •클라우드 공급자의 모델 카탈로그 또는 코드가 삭제된 이름이나 이전 모델을 검색하는 경우를 노려서 공격자가 버려진 네임스페이스를 다시 등록해 악성 모델을 배포하는 공격 방식 | •Microsoft Azure AI Foundry, Google Vertex AI 및 오픈소스 프로젝트에서 원격 코드 실행 및 추가 악성코드 실행 |
Malicious models on Hugging Face | 2024 | •Malicious payloads in model cards and metadata | •Compromised developer environments via Hugging Face |
Prompt injection attacks on LLMs | 2023–24 | •Crafted user inputs override model behavior | •Leaked prompts, API abuse, and misaligned outputs |
AML.CS0028: AI Model Tampering via Supply Chain Attack | 2023 | •Supply chain compromise | •AI models poisoned by exploiting vulnerabilities in cloud-based container registries, leading to backdoored models being distributed through trusted channels |
PyTorch dependency hijack (torchtriton) | 2022 | •Typosquatting and dependency confusion in PyPI | •System fingerprinting and data exfiltration |
3.2. AI공격벡터에 따른 AI 공급망 보안위협
1) AI 플랫폼을 활용한 공격유형
•
Protect AI의 Huntr 버그 바운티 플랫폼을 통해 공개된 ChuanhuChatGPT, Lunary, LocalAI 등 여러 오픈소스 AI툴의 취약점을 통해 원격코드 실행 및 민감한 정보 도용 등의 위험이 확인된 사례를 통해서 AI 외에도 AI 플랫폼이 공격벡터로 악용되고 있음을 알 수 있다.
대상 | CVE ID | 취약점 유형 | CVSS | 취약점 설명 및 영향 |
Lunary | CVE-2024-7474 | IDOR (안전하지 않은 직접 객체 참조) | 9.1 | •인증된 사용자가 사용자 ID 검증 미흡을 악용해 다른 사용자의 데이터를 열람 또는 삭제 가능 |
CVE-2024-7475 | 부적절한 접근 제어 | 9.1 | •공격자가 SAML 설정을 변경하여 권한 없는 사용자로 로그인 후 기밀 정보 접근 가능 | |
CVE-2024-7473 | IDOR | 7.5 | •요청 가로채기 후 프롬프트 ID 조작을 통해 다른 사용자의 프롬프트를 무단 수정 | |
ChuanhuChatGPT | CVE-2024-5982 | Path Traversal | 9.1 | •파일 업로드 기능에서 경로 조작을 통해 제한 디렉터리 접근, 임의 코드 실행, 민감 정보 유출 가능 |
LocalAI | CVE-2024-6983 | 원격 코드 실행 (RCE) | 8.8 | •악성 구성 파일 업로드를 통해 임의 코드 실행 가능 |
CVE-2024-7010 | 타이밍 공격 | 7.5 | •API 키 검증 과정의 응답 시간 차이를 이용해 API 키를 한 글자씩 추론 가능 | |
Deep Java Library (DJL) | CVE-2024-8396 | 임의 파일 덮어쓰기 / RCE | 7.8 | •압축 해제 과정 취약점을 악용해 임의 파일 덮어쓰기 및 원격 코드 실행 가능 |
2) 개발환경을 노린 AI 공급망 공격 현황
•
전통적인 공급망 공격은 완성된 소프트웨어를 사용하는 최종 사용자를 표적으로 삼았다. 하지만 AI를 이용한 최신 공급망 공격은 소프트웨어가 만들어지는 과정, 즉 소스코드 저장소, 빌드 서버, CI/CD 파이프라인에 접근 권한을 가진 개발자와 DevOps 엔지니어를 직접 겨냥한다.
•
공격 효율적인 측면에서 보면 최종 사용자 한 명을 침해하면 그 사람의 데이터에만 접근할 수 있지만, 개발자 한 명의 CI/CD 자격증명을 침해하면 그가 관여하는 모든 다운스트림 사용자와 기업에 영향을 미치는 "공급망 증폭" 효과를 얻을 수 있기 때문이다. 결국 개발자의 단말기를 통해서 클라우드 API Key, GitHub/GitLab 접근 권한, SSH Key, 컨테이너 레지스트리 토큰 등 핵심 자격증명이 주요 공격 표적이다.
◦
클라우드 API Key는 개발자가 AWS, Azure, GCP 등 클라우드 인프라를 프로그래밍 방식으로 제어하기 위해 로컬 환경변수나 설정파일에 저장해 두는 키로, 탈취 시 공격자가 해당 클라우드 계정의 컴퓨팅 자원을 무단으로 사용하거나 저장된 데이터에 접근 가능
◦
GitHub/GitLab 접근 권한은 소스코드 저장소에 대한 읽기·쓰기 권한을 의미하며, 이를 탈취하면 공격자는 정상적인 코드처럼 보이는 악성 커밋을 직접 푸시하거나, Trivy 사례처럼 릴리스 프로세스 자체를 장악해 악성 버전을 공식 배포 채널로 유포
◦
SSH Key는 서버나 빌드 인프라에 원격 접속하기 위한 인증 수단으로, 탈취 시 공격자가 정상적인 로그인 절차를 거친 것처럼 위장해 서버에 직접 침투에 사용
◦
컨테이너 레지스트리 토큰은 Docker Hub 등에 컨테이너 이미지를 푸시할 권한을 부여하는 토큰으로, 탈취 시 공격자가 GitHub 릴리스 절차조차 거치지 않고 악성 이미지를 곧바로 배포 가능
▽ 개발환경을 노린 공격 유형
공격유형 | 공격기법 | 공격사례 |
개발자 환경 및 생태계 공격 | •Gemini CLI나 Claude Code와 같은 인기 AI 개발 도구를 사칭해 악성코드를 유포하는 방식
•개발자들이 공식 문서에서 설치 명령어를 복사해 터미널에 붙여넣는 일반적인 업무 습관을 교묘하게 악용 | •SEO 포이즈닝 및 가짜 페이지 노출 : 공격자는 gemini-setup.com이나 claudecode.co.com과 같은 유사 도메인을 이용한 타이포스쿼팅을 만들고, 검색 엔진 최적화(SEO Poisoning)를 통해 개발자가 설치 방법을 검색할 때 가짜 페이지를 상위에 노출
•정상 설치와 악성코드 동시 실행 : 피해자가 공식 문서처럼 보이는 페이지에서 제공하는 PowerShell, npm, Chocolatey 명령어를 터미널에 실행하면, 정상적인 도구가 설치됨과 동시에 악성 페이로드인 Infostealer가 메모리에서 실행
•자격증명 탈취 : 실제 도구가 정상적으로 설치되기 때문에 개발자는 감염 사실을 인지하기 어려운 구조로 그 사이 악성코드는 브라우저 쿠키, Slack/Teams 세션, CI/CD 자격증명, 클라우드 동기화 파일, VPN 설정 등을 탈취 |
신뢰할 수 있는 저장소를 악용한 생성형 AI기반 악성 패키지 위장 | •공격자는 개발자들이 신뢰하는 npm, PyPI, Docker Hub, GitHub Releases, VS Code 확장 프로그램 마켓플레이스 등의 배포 경로를 악용 | •AI를 활용한 패키지 위장 : 공격자는 AI를 활용하여 악성 패키지의 설명(README), 설치 가이드, 예제 코드, 릴리스 노트를 매우 자연스럽고 그럴듯하게 작성하고 이를 타이포스쿼팅이나 종속성 혼동(Dependency Confusion) 공격과 결합하여 개발자가 실수로 악성 패키지를 다운로드 유도 |
AI 코딩 도구가 생성한 취약한 코드의 내부 유입 | •직접적인 해킹은 아니지만, AI 코딩 어시스턴트 자체가 공급망 리스크로 사용 | •개발자가 사용하는 AI 코딩 어시스턴트 자체가 내부 공급망의 취약점 도입 경로로 활용
•개발자가 AI가 제안한 코드를 보안 검토 없이 내부 애플리케이션에 그대로 적용할 경우, 하드코딩된 비밀정보, 안전하지 않은 암호화, SSRF, SQLi 등의 보안 취약점이 소프트웨어에 포함
•AI는 코드를 빠르게 생산하지만, 검증되지 않은 코드는 결국 조직의 공급망 취약점으로 작용 |
AI소프트웨어 의존성 및 컴포넌트 타격 | •오픈소스 AI 라이브러리나 에이전트 스킬 생태계의 취약점을 직접 노리는 공급망 공격 | •컴포넌트 및 코드 패키지 침해 : 'TeamPCP'(UNC6780)와 같은 사이버 범죄 그룹은 악성 Pull Request와 손상된 PyPI 패키지를 통해 Trivy, Checkmarx, LiteLLM, BerriAI 등의 인기 GitHub 저장소를 침해 → 이를 통해 'SANDCLOCK'이라는 자격증명 탈취 악성코드를 심어 AWS 키와 GitHub 토큰 등 고가치의 클라우드 비밀 정보를 빼내고 랜섬웨어 그룹과 연계하여 수익을 창출
•무기화된 AI 에이전트 스킬 유포 : OpenClaw와 같은 AI 에이전트 생태계에서 정상적인 기능으로 위장한 악성 스킬 패키지가 유포 → 이러한 악성 스킬은 AI 시스템에 부여된 높은 권한을 악용하여 시스템 내에서 무단 코드를 실행하거나 로컬 데이터를 유출하는 등의 악의적 동작을 수행 |
•
결국 궁극적으로 자격증명 탈취 경로를 하기 2가지 방법으로 구성되게 된다.
◦
첫째는 개발자 환경 자체를 노리는 방식이다. 공격자는 Gemini CLI나 Claude Code 같은 인기 AI 개발도구를 사칭해 gemini-setup.com, claudecode.co.com 같은 유사 도메인을 만들고 SEO 포이즈닝으로 검색 결과 상위에 노출시킨다. 개발자가 공식 문서처럼 보이는 가짜 페이지에서 제공하는 설치 명령어(PowerShell, npm, Chocolatey)를 복사해 터미널에 실행하면, 정상 도구가 실제로 설치되면서 동시에 Infostealer 악성코드가 메모리에서 함께 실행된다. 도구가 정상 작동하기 때문에 개발자는 감염 사실을 인지하기 어렵고, 그 사이 악성코드는 브라우저 쿠키, Slack/Teams 세션, CI/CD 자격증명, 클라우드 동기화 파일, VPN 설정까지 광범위하게 탈취한다.
◦
둘째는 npm, PyPI, Docker Hub 등 신뢰된 저장소를 경유하는 방식으로, Trivy 사고가 대표적이다. 공격자(TeamPCP/UNC6780)는 GitHub Actions의 잘못된 구성 설정을 악용해 권한 있는 액세스 토큰을 먼저 탈취했고, 사고 인지 후 이루어진 자격증명 교체 작업이 동시에 이루어지지 않은 틈을 타 새로운 유효 자격증명까지 확보했다. 이후 탈취한 자격증명으로 악성 버전(v0.69.4)을 정식 릴리스하고, 별도로 탈취한 Docker Hub 자격증명으로는 GitHub 릴리스 절차도 거치지 않고 악성 이미지를 직접 푸시했다. 이렇게 확보한 자격증명은 다시 LiteLLM, Checkmarx, Telnyx 등 다른 프로젝트로 연쇄 확산되는 데 사용되었다.
•
이와 같은 AI공급망 공격으로 인한 영향도를 알 수 있는 대표적인 사례가 외부 LLM서비스 통합 서비스인 LiteLLM에 악성 패키지 1.82.7(10:39 UTC)과 1.82.8(10:52 UTC)이 PyPI에 업로드된 사건이다.
•
TeamPCP라는 공격 그룹이 보안 도구를 먼저 감염시키후 다음 타겟의 인증 정보를 수집한 이후 GitHub Actions, Docker Hub, npm, Open VSX, PyPI 등 5개 패키지 생태계에 걸쳐 공격 확장하면서 피해가 증가되게 되었다.
* LiteLLM : OpenAI, Anthropic, Google, Azure, AWS Bedrock 등 100개 이상의 LLM 서비스를 하나의 API 호환 인터페이스로 통합
공격 대상 | 일자 (UTC) | 내용 |
Trivy | `26년.2월 말 ~ `26.03.01 | •공격자가 Trivy의 GitHub Actions 환경의 잘못된 구성 설정을 악용하여 권한 있는 액세스 토큰을 탈취하여 저장소 자동화 및 릴리스 프로세스에 대한 접근 권한 확보
•Trivy에서 사고 확인 후 자격 증명 정보 교체 작업을 수행했으나, 교체가 완전히 동시에 이루어지지 않아서 공격자가 새로운 유효한 자격 증명 정보를 확보했을 가능성 제기 |
Trivy | `26.03.19 | •공격자는 탈취한 자격 증명을 악용하여 악성 버전인 Trivy v0.69.4를 릴리스하고 aquasecurity/trivy-action 76/77개 태그, aquasecurity/setup-trivy 기존 태그 7개 (v0.2.0~v0.2.6)를 모두 악성 Commit으로 푸시 • checkmarx[.]zone, models.litellm[.]cloud 악성 C2 도메인 등록 |
NPM | `26.03.20 ~ | •공격자가 탈취한 NPM 자격증명을 이용해 NPM에 자기전파형 웜(CansiterWorm)을 유포하여 @EmilGroup 28종, @opengov 16종, 기타 스코프 패키지 등 총 66개 이상의 패키지 감염 |
Trivy | `26.03.22 | •공격자가 별도로 탈취한 Docker Hub 자격증명을 이용해 GitHub 릴리스 없이 aquasec/trivy:0.69.5, v0.69.6 도커 이미지 직접 푸시 |
Checkmarx / OpenVSX | `26.03.23 | •Checkmarx의 kics-github-action, ast-github-action 및 OpenVSX 확장 프로그램 2종(cx-dev-assist 1.7.0, ast-results 2.53.0)에서 악성코드 감염 정황 발견 |
LiteLLM | `26.03.24 | •PyPI의 LiteLLM v1.82.7, v1.82.8 패키지에서 악성코드 감염 정황 발견 |
Trivy | `26.03.26 | •미국 CISA에서 해당 취약점(CVE-2026-33634)을 KEV(Known Exploited Vulnerability)에 등재 |
Telnyx | `26.03.27 | •PyPI의 Telnyx v4.87.1, v4.87.2 패키지에서 악성코드 감염 정황 발견 |
Trivy | `26.03.27 | •싱가포르 CSA에서 해당 캠페인을 “Ongoing 'TeamPCP' Supply-Chain Campaign”으로 추적 |
04. Nation-state Threat Actors utilizing AI
4.1. AI를 활용한 사이버 공격 패러다임
•
앞서 살펴본 바와 같이 AI를 이용한 사이버 공격 효율성과 파괴력을 증가하고 있다. ‘The Fortinet 2026 Global Threat Landscape Report Reveals a Surge in AI-Enabled Cybercrime, Contributing to a 389% Increase in Ransomware Victims Year-over-Year’에 따르면 2026년 사이버 위협 환경은 개별적인 공격 캠페인 수행 방식에서 벗어나, 전체 공격 라이프사이클에 걸쳐 '섀도우 에이전트(Shadow Agent)'를 활용한 공격 자동화 시스템으로 진화하였고 이는 공격 효율성을 극대화하는 핵심 동인이다.
•
2026년 사이버 위협은 AI를 활용해 정찰, 무기화, 실행을 가속화함으로써 취약점 악용 시간(TTE)을 24~48시간으로 단축하고, 범죄 서비스 키트(CaaS)의 확산으로 전 세계 랜섬웨어 피해자가 전년 대비 389% 급증한 7,831명에 달하며, 클라우드 환경에서는 인프라 공격보다 탈취된 자격 증명을 통한 위협이 주를 이루고 있다.
▽ 사이버 위협 환경의 공격 기술 및 표적 분야
•
이러한 환경에서 공격자들은 자율형 에이전트(Agentic AI)를 기반으로 HexStrike AI 및 BruteForceAI 등 지능형 도구를 사용하여 공격 경로 생성을 자동화하고, 전년 대비 무차별 대입 공격은 22% 감소시킨 반면 표적형 공격의 성공률을 높였으며, 단순 유출 정보보다는 브라우저 상주 데이터 등 컨텍스트 정보가 포함된 인포스틸러 로그(67.12%)를 중심으로 데이터를 탈취하여 침투 속도를 비약적으로 향상시키고 있다.
▽ AI를 활용하는 현대 사이버 범죄자 유형
•
2026년의 사이버 위협은 AI를 무기화하여 공격의 속도, 규모, 정교함을 동시에 끌어올린 형태이다. 특히 자율형 에이전트를 통한 공격 자동화와 인포스틸러 로그를 활용한 정교한 데이터 침투는 기존의 단편적인 방어 체계로는 대응이 어렵다. 그렇다 보니 국가 지원 사이버 공격그룹 역시 AI를 활용한 대규모 사이버 공격에 나서는 모양이다.
4.2. 국가지원 위협 행위자 공격사례 분석
•
`25년 11월 중국 GTG-1002이 Claude Code를 이용한 최초의 AI 자율 공격을 성공 이후 AI를 활용한 사이버 공격에서 △ AI 전문 악성코드, △ AI 자율공격 전환, △ 자동화된 공격으로 인한 침투 시간 가속화, △ 딥페이크 및 AI피싱을 이용한 사회공학적 공격 심화 양상 격화되고 있다.
▽ 국가지원 사이버 공격그룹의 AI활용 현황
기관 및 보고서 | 발표시기 | 주요 내용 및 특징 | 주요 위협 키워드 |
Anthropic
(위협 인텔리전스) | 2025.11 | •GTG-1002 캠페인: 최초로 공식 기록된 대규모 AI 주도 사이버 스파이 작전
•기술, 금융, 화학, 정부 등 약 30개 기관을 표적으로 공격
•전술적 업무의 80~90%를 AI가 자율 실행했으며, 인간의 개입은 캠페인당 4~6회의 핵심 의사결정 시점에만 제한됨
•초당 여러 건씩 수천 건의 요청을 생성했으나 실제 침해 성공은 "적은 수"에 그침
•모델(Claude)이 결과를 자주 과장하거나 데이터를 조작(환각)하는 한계도 노출됨 | •AI 자율 스파이, Claude 탈옥, 데이터 조작 |
Anthropic
(위협 인텔리전스) | 2025.08 | •GTG-2002 캠페인: 의료, 비상 서비스, 정부, 종교 기관 등 최소 17개 조직을 대상으로 "바이브 해킹(vibe hacking)" 갈취 수행 (요구액이 50만 달러를 초과하기도 함)
•GTG-5004 캠페인 : 다크웹(Dread, CryptBB, Nulled)에서 $400 / $800 / $1,200 티어로 서비스형 랜섬웨어(RaaS)를 판매함 | •바이브 해킹, RaaS |
IBM
(데이터 침해 비용 보고서) | 2025.07 | • 침해 사고 6건 중 1건에 공격자 AI가 활용됨
•공격자 AI 활용 사례 중 AI 피싱이 37%, AI 딥페이크가 35%를 차지하고, 관리되지 않는 '섀도우 AI(Shadow AI)'는 침해 건당 67만 달러의 비용을 가중시킴
•AI 관련 보안 사고를 겪은 조직의 97%가 적절한 AI 접근 제어 장치가 결여되어 있는 반면, AI 방어 도구를 사용한 조직은 침해 비용을 약 190만 달러 절감하고 침해 탐지 속도를 80일 단축함 | •섀도우 AI, AI 피싱, AI 디펜더 효과 |
Mandiant
(M-Trends 2026) | 2026.03 | •초고속 침투: 최초 침투에서 타 시스템 권한 이양(Handoff)까지 걸리는 시간의 중앙값이 2022년 8시간 이상에서 2025년 22초로 급감함
•글로벌 침해 인지 소요 시간(Dwell Time) 중앙값은 14일 (스파이 작전은 122일, BRICKSTORM은 약 400일)
•내부 탐지율은 52%로 상승(기존 43%)했으며, 보이스 피싱(Vishing)이 초기 침투 경로 2위(11%)로 부상함
•AI를 인지하고 겨냥하는 새로운 악성코드 제품군 발견 | •PROMPTFLUX, PROMPTSTEAL, QUIETVAULT |
CrowdStrike
(글로벌 위협 보고서) | 2026.02 | •AI를 활용한 적대 세력의 공격이 전년 대비 89% 증가하고, 프롬프트 인젝션 피해 조직 수가 90개 이상으로 집계됨
•사이버 범죄 침투 속도(Breakout Time) 평균 29분으로 65% 가속화 (가장 빠른 기록은 27초)
•탐지된 공격의 82%는 악성코드가 없는(Malware-free) 형태임
•국가지원 해킹 그룹 활동 급증: 중국 연계 침투 +38%, 북한 연계 침투 +130%
•가짜 CAPTCHA 미끼를 활용한 침해 사고가 563% 폭증함 | •프롬프트 인젝션, 초고속 침투(27초), 가짜 CAPTCHA |
UK AISI
(영국 AI 안전연구소) | 2026.02 | •Claude Mythos Preview 평가 : 전문가 수준의 해킹 방어 대회(CTF) 성공률 73% 기록 (2025년 4월 이전 모델들은 단 한 문제도 풀지 못했던 영역)
•32단계로 구성된 기업 네트워크 공격 시나리오(The Last Ones)에서 10회 중 3회 완수, 평균 22단계까지 전개 (과거 최고 기록은 Claude Opus 4.6의 16단계) → 인간이 20시간 걸릴 작업을 자율 수행함
•AI의 사이버 태스크 가속화: AI 역량 배가 주기(Doubling Rate)가 2025년 말 8개월에서 2026년 2월 기준 약 4.7개월로 단축됨 | •Claude Mythos, 가속화 주기(4.7개월) |
CrowdStrike
(글로벌 위협 보고서) | 2025.02 | •2024년 상반기 대비 하반기 보이스 피싱(Vishing) 공격이 442% 폭증함
•유명 북한 해킹 그룹(Chollima)의 활동이 2024년 304건을 기록했으며, 이 중 약 40%가 내부자 위협(Insider Threat) 작전 형태
•PRESSURE CHOLLIMA 그룹은 공급망 암호화폐 탈취를 통해 14.6억 달러 규모의 피해를 입힘 | •보이스 피싱, 내부자 위협, 공급망 암호화폐 탈취 |
OpenAI
(위협 중단 보고서) | 2025.10 | •2025년 6월 10개 케이스 스터디 발표 및 10월 중국(PRC) 연계 해킹 클러스터 적발
•2024년 2월 이후 누적 40개 이상의 위협 네트워크 및 악용 계정 테이크다운(Takedown) 조치 완료 | •위협 네트워크 차단 |
OWASP
(LLM Top 10) | 2024.11 | •에이전트 AI(Agentic-AI) 리스크를 지탱하는 핵심 취약점으로 LLM01:2025 프롬프트 인젝션과 LLM06:2025 과도한 권한 위임(Excessive Agency)을 규정함
•과도한 권한 위임은 다시 과도한 기능(Functionality), 과도한 권한(Permissions), 과도한 자율성(Autonomy)의 3가지 세부 리스크로 나뉨 | •LLM01: 프롬프트 인젝션, LLM06: 과도한 권한 위임 |
MITRE ATLAS(적대적 ML 프레임워크) | - | •GTG-1002 전술을 적대적 머신러닝(AML) 기법 매핑 기획 체계(v5.4.0)에 연동
•주요 매핑 태그: AML.T0017 적대적 코드 개발, AML.T0016 ML 아티팩트 수집, AML.T0024 사이버 수단을 통한 데이터 유출, AML.T0036 LLM 플러그인 침해 | •적대적 ML 텍사노미, 플러그인 침해 |
•
북한, 러시아, 중국, 이란 등 다양한 국가에서 AI를 활용이 본격화되고 있다. AI를 사이버 공격에 활용하는 관점에서도 국가별 정치적 이해관계 및 목표가 반영되는 것을 볼 수 있다. △ 중국 방대한 데이터와 자율 에이전트를 통한 대규모 침투 자동화에, △ 북한은 금전 탈취를 위한 언어 장벽 극복과 채용 사칭 피싱에,
△ 러시아는 실시간 API 통신을 활용한 동적 악성코드 운영과 여론 조작에, △ 이란은 복잡한 타겟 데이터 처리 도구 개발과 신뢰 구축형 스피어 피싱에 AI를 각각의 전략적 목표에 맞게 특화하여 무기화되고 있다.
▽ 국가지원 위협 행위자별 AI 활용 주요 공격사례 분석
국가 | AI 활용현황 | AI 활용 방식 |
북한 | • Kimsuky나 Konni 그룹의 사례처럼 AI를 이용해 가짜 공무원증을 제작하거나 피싱 이메일의 문맥을 고도화하고 맞춤형 악성코드를 작성하는 데 주력 | •기업 채용 담당자 사칭 및 정찰 : UNC2970 그룹은 주요 사이버 보안 및 방위산업 기업을 표적으로 삼기 위해 AI를 사용해 타겟의 직무 역할, 급여 정보 등을 매핑하고 기업 채용 담당자로 정교하게 위장하여 피싱 공격을 수행
•가상자산 특화 소셜 엔지니어링 : UNC1069(MASAN) 그룹은 사용자의 가상자산 지갑 데이터 위치를 찾기 위해 AI로 연구를 진행하며 스페인어 등 외국어로 된 업무 변명 메시지나 회의 일정 변경 요청 문안을 생성하여 언어의 한계를 극복하며 피싱 성공률을 향상
•딥페이크 악용 : 가상자산 업계의 유명 인사를 사칭하는 딥페이크 이미지와 비디오를 제작한 뒤, 타겟에게 'Zoom SDK' 설치를 유도하는 방식으로 BIGMACHO 백도어를 유포 |
러시아 | •주로 악성코드의 탐지 회피 능력을 높이고, 서방을 겨냥한 가짜 뉴스 및 여론 조작을 위해 AI를 적극적으로 활용 | •런타임 동적 명령어 생성 악성코드 : APT28(FROZENLAKE)은 우크라이나를 공격하며 PROMPTSTEAL(또는 LAMEHUG)이라는 데이터 마이너를 사용하며 이 악성코드는 공격 명령을 하드코딩하는 대신, 실행 중에 Hugging Face API(Qwen 모델)에 접근해 시스템 정보와 문서를 수집하는 명령어를 실시간으로 생성하여 실행
•AI 생성 미끼 코드(Decoy)를 통한 난독화 : CANFAIL 및 LONGSTREAM과 같은 악성코드에 정상적인 관리 작업이나 시스템 시간 확인과 같은 무의미한 '미끼 로직(Decoy Logic)'을 AI로 대량 생성하여 삽입하고 이를 통해 악성 행위를 은폐하고 보안 솔루션의 탐지를 회피하려 시도
•정보 작전 (Operation Overload) : 진짜 언론인의 목소리를 AI로 복제하고 조작된 비디오 몽타주와 합성하여, 마치 공신력 있는 매체가 보도한 것처럼 꾸미는 가짜 뉴스 유포 작전을 전개
•이외에도 LAMEHUG, PRISONBREAK 등 정보 조작 및 런타임 악성코드 실행 등 다방면에서 서방 국가와 대립하는 목표를 띠고 활동 |
중국 | •AI를 취약점 탐색 자동화, 공격 인프라 개발, 대규모 AI 모델 무단 접근 등 가장 광범위하고 고도화된 방식으로 활용 | •전문가 페르소나 및 특화 데이터 활용 : UNC2814 그룹은 LLM에 '수석 보안 감사자'나 'C/C++ 전문가'라는 페르소나를 부여하여 안전 필터를 우회하고 임베디드 기기의 취약점 발견 → 또한 중국 해킹 플랫폼의 85,000개 이상의 취약점 사례가 포함된 'wooyun-legacy' 데이터를 Claude 플러그인에 학습시켜 모델이 실제 보안 전문가처럼 코드를 분석하도록 제작
•자율 공격 에이전트 및 자동화 : APT45는 수천 개의 프롬프트를 자동 전송하여 대량의 취약점(CVE)을 분석하고 공격 코드(PoC)를 검증 → 나아가 Hexstrike나 Strix와 같은 자율 AI 에이전트 프레임워크를 동원하여 타겟의 정찰부터 취약점 식별, 후속 공격 도구 전환까지 사람의 개입 없이 자율적으로 수행
•인프라 구축 및 자원 탈취 : APT27은 공격 트래픽의 출처를 4G/5G IP로 숨기기 위한 다중 홉 ORB(Operational Relay Box) 네트워크 관리 애플리케이션을 개발하는 데 Gemini를 활용 → UNC6201, UNC5673 등의 그룹은 탐지를 피하고 비용을 내지 않기 위해 자동화된 스크립트와 API 프록시 도구를 사용하여 최고급 LLM 계정을 대량으로 무단 생성하고 관리
•가드레일 우회 (CTF 위장) : 공격 대상이나 익스플로잇 코드를 물어볼 때 AI의 안전 필터가 작동하자, 스스로를 사이버 보안 대회인 'CTF(Capture-the-Flag) 참가자'로 위장하여 정보를 성공적으로 얻어내고 이를 웹셸 개발 등에 악용
•미지 영역 탐색 및 인프라 악용 : 윈도우 환경을 넘어 AWS, Kubernetes, MacOS 등 낯선 환경을 공격하기 위한 명령어를 AI를 통해 습득하고 비용을 내지 않고 프리미엄 LLM을 사용하기 위해, 자동 가입 스크립트나 다중 계정을 하나로 묶는 프록시 릴레이 서비스(Claude-Relay-Service 등)를 구축해 탐지를 우회 |
이란 | •이란 혁명수비대 산하(Nimbus Manticore)가 악성코드 모듈화와 난독화에 AI를 활용하여 방산, 항공, 통신, 소프트웨어 분야를 집중 공격 | •AI 보조 악성코드 개발 : 트로이목마화된 Zoom 설치 파일이나 정상 서명 파일을 통해 'MiniFast'라는 백도어를 유포
•이 백도어와 관련 로더 코드에서는 과도한 오류 처리 로직, 설명적인 함수명, 매우 상세한 디버그 문자열, 모듈화된 코드 구조 등 AI 코딩 도구의 도움을 받아 개발 속도와 구조를 개선한 정황이 뚜렷하게 관찰
•데이터 처리 에이전트 (Data Processing Agent) 개발 시도 : APT42는 자연어 요청을 SQL 쿼리로 변환해 주는 에이전트를 AI로 개발하려 시도하며, 특정 전화번호의 소유자를 찾거나 개인의 이동 경로를 추적하는 등 방대한 개인정보에서 유의미한 타겟 정보를 추출하려는 목적
•학생 위장과 보안 실패 (OpSec Failure) : TEMP.Zagros(Muddy Water) 그룹은 자체 C2 서버와 악성코드를 개발하면서 AI의 안전 필터를 우회하기 위해 '대학교 졸업 프로젝트를 하는 학생'으로 위장하였으나, 이 과정에서 자신들의 실제 C2 도메인과 암호화 키를 AI 프롬프트에 그대로 노출하는 치명적인 보안 실수를 저질러 구글에 의해 작전이 조기 차단
•관계 형성 (Rapport-building) 피싱 : 표적 인물의 전기를 AI에 입력하여 그에 맞는 완벽한 페르소나와 접근 시나리오를 생성. 유명 싱크탱크를 사칭해 신뢰를 쌓는 등 단발성 메일이 아닌 다중 대화형 피싱을 수행 |
•
`25년 이후 북한, 이란, 중국, 러시아의 위협 행위자들은 공격 자동화를 위해 AI 사용하기 시작했다. `26년 3월에 비해 `25년 5월 AI가 공격자의 정교한 작전 도구인 동시에 공격의 고가치 표적이 되는 이중적인 위협 환경 요인으로 작용하기 시작한 것이다. AI는 이제 해커들의 단순한 '공격 보조 도구'가 아니라, 스스로 타깃을 정찰하고 코드를 디버깅하는 '독립된 공격 주체(Autonomous Actor)’로 실전 무기화 단계 진입하고 있다.
05. AI Security Threat Mitigation Strategies
•
프론티어 AI를 이용한 사이버 공격은 현재 우리가 맞이한 가장 거대한 '기술적 군비 경쟁(Arms Race)’과 같다.
•
‘Frontier AI's Impact on the Cybersecurity Landscape: Current Status and Future Directions’에 따르면 프론티어 AI는 단기적으로 방어용 AI의 공격용 전환이 용이하고, 공격은 한 번의 성공으로 충분하지만 방어는 취약점 해결에 많은 자원이 소요되는 '실패 비용의 비대칭성'과 패치 적용 시 발생하는 시간적 격차, 그리고 신뢰성보다 확장성을 우선시하는 공격자의 전략적 이점으로 인해 공격자에게 유리하게 작용하지만, 장기적으로는 AI 기반 자동화의 가속화와 보안의 내재화가 이루어지고 지속적인 취약점 개선으로 인해 공격자가 신규 취약점을 발견하는 데 더 많은 자원을 소모하게 됨에 따라 공격 전략이 경제적으로 실행 불가능해지는 '공격 경제성의 변화'가 발생하여 방어자 우위의 환경으로 전환될 것으로 전망하고 있다.
* 출처 : Frontier AI's Impact on the Cybersecurity Landscape: Current Status and Future Directions, 7 Apr 2025
Defense stage | Defense capabilities | Attack usages |
Proactive testing | •Pen. testing
•Vulnerability detection | •Enable more targeted attacks
•Find vulnerabilities in target systems |
Attack detection | •ML-based threat detection
•Lifelong monitoring | •Develop stronger evasion methods
•Re-purpose it to monitor defenses |
Triage forensic | •PoC & root cause
•Reverse engineering | •Facilitate localization & exploitation
•Understand targets and steal source code |
Remediation | •Patch & testing generation
•Automated configuration | •Malware & weapon & exploit generation
•Automated installation and gain access |
Normal utilities | •Multimodal generation | •Automated reconnaissance and delivery |
•
논문에 따르면 사이버 보안에서 AI를 이용한 공격은 모든 분야에서 유효한 것으로 확인되었다. 특히 공격 초기 단계 뿐만 아니라 실제 대규모 사이버 공격을 감행할 수준의 자동화 공격이 가능한 것으로 나타났다. 물론 최첨단 AI기술 발전에도 불구하고 특히 완전한 엔드투엔드 사이버 공격을 실행하는 데 있어서는 실질적인 공격 능력이 여전히 제한적인 모습도 확인되었다.
▽ AI를 이용한 사이버 공격의 단계별 AI 영향도 분석결과
공격 단계 | 실전 적용 수준 | 정성적 분석 (Qualitative) | 정량적 분석 (Quantitative) |
단계 1: 정찰
(Reconnaissance) | 실제 환경 검증 완료 | •연구 및 실제 공격 모두에서 활발한 스캔, 피해자 정보 수집, 오픈소스 데이터베이스 검색 등 정찰 단계에 LLM을 활용함 | •현재 벤치마크는 주로 텍스트 기반 프롬프트에 의존하고 있으며, AutoPenBench와 같은 실전 평가는 AI 에이전트의 정찰 잠재력을 보여주나 아직 한계가 있음 |
단계 2: 무기화
(Weaponization) | 실제 환경 검증 완료 | •연구 논문에 따르면 LLM은 탐지 우회율이 높은 기능성 악성코드를 생성할 수 있으며 AI 에이전트는 취약점 식별 및 익스플로잇을 지원함
•다만 대규모 실제 공격은 DDoS, SQL 인젝션 등 단순한 공격에 제한됨 | •'RedCode' 벤치마크는 기능성 악성코드 생성에서 LLM의 한계를 보여줌
•취약점 익스플로잇 벤치마크에서 Claude 3.5 Sonnet은 일반 사이버 보안 실무자 수준의 기술을 달성했으나 전문가 역량에는 미치지 못함 |
단계 3-5: 전달, 익스플로잇, 설치
(Delivery, Exploitation, Installation) | 실제 환경 검증 완료 | •초기 접근 및 익스플로잇(설치)은 실제 환경에서 검증되었으나, 지속성(Persistence) 유지 단계는 아직 연구 수준에 머물러 있음 | •이 공격 단계에 대한 벤치마크의 범위와 품질은 매우 제한적임 |
단계 6: 명령 및 제어
(Command and Control) | 실제 환경 검증 완료 | •취약점 체인 생성을 통한 권한 상승, 자동 도메인 생성을 통한 명령 및 제어 등 대부분의 세부 카테고리는 연구 논문에서만 검증되었으나, 자격증명 탈취(Credential Access)는 실제 환경에서 사용됨 | •이 공격 단계들에 대한 벤치마크의 범위와 품질은 매우 제한적임 |
단계 7: 목적 달성 행위
(Action on Objectives) | 대규모 실제 영향 발생 | •웹, 모바일, 클라우드 등 다양한 시스템 전반에서 AI 강화 공격이 증가하고 있으며 악성코드 유포, 비즈니스 로직 악용, 자격증명 탈취 등의 악의적 목적으로 심각한 재정적 손실과 데이터 침해를 유발함 | - |
인간 대상 공격
(Attacks against humans) | 대규모 실제 영향 발생 | •첨단 AI가 인간을 향한 공격을 에스컬레이션하고 있으며, ChatGPT 도입 이후 사회공학적 공격 및 보이스피싱이 증가함
•신분 도용, 딥페이크 기반 사기, 아동 착취, 심리적 조작에 AI가 악용됨 | - |
•
이에 반해 사이버 보안에서 AI를 이용한 방어분야에서는 사전 검증 및 공격 탐지 등 일부 환경에서만 유효한 것으로 나타났다. 취약점 분류에는 제한적으로 활용되고 있고, 심지어 연구 단계에서 조차 해결책 개발이나 배포에는 거의 또는 미적용되고 있다. AI는 자동화된 방어 체계를 강화할 잠재력을 가지고 있지만, 견고성, 투명성, 일반화 가능성 측면에서 한계를 보이고 있다. 특히 수동 프로세스에 의존하는 느린 복구 및 배포 환경은 AI를 통해 취약점 노출 기간 단축이 급선무이기 때문에 대응관점에서도 취약점 노출 최소화를 위한 선행적인 노력이 필요하다.
•
최근 미국 사이버보안·인프라보안국(CISA)은 인공지능(AI)을 활용한 취약점 탐지와 악용 속도 증가에 대응하기 위해 연방 민간 행정부(FCEB) 기관의 고위험 취약점 조치 기한을 최단 3일로 단축했다.
◦
기존 취약점 대응지침인 BOD 19-02와 BOD 22-01을 대체하는 BOD 26-04를 발표하여 ‘포렌식 트리아지(Forensic Triage)’를 통해 취약점 대응 및 포렌식 조사 절차에 대해서 KEV(Known Exploited Vulnerabilities)관점의 취약점 관리 계획을 수행하기를 권고하고 있다.
▽ AI를 이용한 사이버 방어의 단계별 AI 영향도 분석결과
방어 단계 | 실전 적용 수준 | 정성적 분석 (Qualitative) | 정량적 분석 (Quantitative) |
단계 1: 선제적 테스트
(Proactive testing) | 실제 환경 검증 완료 | •자동화된 모의침투 테스트, 코드 기반 모델을 통한 취약점 탐지, AI 강화 퍼징(Fuzzing) 등 선제적 사이버 보안 테스트에 LLM을 활용하는 연구 진행
•실제 시연은 존재하나 대규모 도입 증거는 부족 | •AI 모의침투 벤치마크는 초기 단계로 엔드투엔드 벤치마크인 AutoPenBench가 존재
•취약점 탐지 벤치마크에서 최신(SOTA) 모델들은 제한된 정확도를 보이며, 데이터 품질, 제한된 코드 컨텍스트, 테스트 다양성 부족 등의 과제에 직면 |
단계 2: 공격 탐지
(Attack detection) | 실제 환경 검증 완료 | •첨단 AI는 수동 기능 엔지니어링을 제거하고 라벨링된 데이터셋에 대한 의존도를 낮추며 분포 외(OOD) 데이터에 대한 일반화 능력을 향상시켜 기존 AI 방법의 핵심 한계를 해결함
•악성코드 및 네트워크 침입 탐지 분야에 실제 적용 중임 | •네트워크 침입 및 악성코드 탐지를 위한 많은 벤치마크가 존재하나 데이터 및 라벨 품질 문제가 있음
•기반 모델(Foundation Model) 기반 탐지는 높은 정확도를 보여주고 있어 더 까다로운 벤치마크가 요구 |
단계 3: 분류 및 포렌식
(Triage & forensic) | 연구 논문 검증 단계 | •취약점 분석을 위한 LLM 활용, 개념증명(PoC) 생성을 통한 심볼릭 실행 개선, 근본 원인 분석을 위한 AI 에이전트 개발 등 초기 단계
•사전 학습된 기반 모델은 바이너리 분석 작업에서 성능 우수 | •CRUXEval과 같은 최신 벤치마크는 GPT-4o가 75%의 pass@1 성공률을 달성하는 등 PoC 생성에서 유망한 결과를 보여주나, 종합적인 AI 주도 리버스 엔지니어링 평가를 위한 공개 벤치마크는 존재하지 않음 |
단계 4-5: 조치방법 개발 및 배포
(Remediation dev & deploy) | 효과 검증 사례 없음 | •연구에 따르면 첨단 AI가 보안 취약점 패치를 자동으로 생성할 수 있음을 보여주지만 SQLite3 Off-by-One 버그 수정과 같은 실제 적용 사례는 한정적이며, AI 지원 치료제 배포에 관한 구체적인 연구는 존재하지 않음 | •Claude 3.5 Sonnet을 사용하는 최신 시스템은 SWE-bench-verified 문제의 약 50%를 해결함
•그러나 대부분의 SWE-bench 문제는 보안과 무관한 버그여서 첨단 AI의 방어 역량을 평가하는 데 한계가 있음 |
인간 대상 방어
(Defense for humans) | 실제 환경 검증 완료 | •소셜 봇 탐지, 사기 탐지, 딥페이크 탐지, 허위정보 탐지 등 인간을 겨냥한 공격에 대한 방어를 강화하는 데 유망한 성과
•그러나 방어 기술이 정교한 공격 속도를 따라잡지 못하고 있어 방어 AI와 공격 AI 시스템 간의 적대적 역학 관계에 대한 연구 필요 | - |
•
단기적인 위험을 극복하고 장기적인 방어자 우위로 전환하기 위해서는 프론티어 AI를 이용한 공격에 맞서는 최선의 전략은 '공격자보다 더 빠르게 자동화된 방어 체계를 구축하는 것'이 중요하다. 앤트로픽의 Project Glasswing이나 오픈AI의 GTAC와 같은 정부-민간 협력 모델이 중요한 이유도 여기에 있다. 방어 기술이 파편화되지 않고, 거대한 인텔리전스 공유 네트워크로 묶여야만 공격자의 경제성을 압도할 수 있게 되는 것이다.
•
국내에서도 정부가 앤트로픽과 AI 안전·사이버보안 협력 체계를 구축하고 있다. '2026 인도 AI 영향 정상회의’의 후속조치의 일환으로 일부 검증 기관·기업에 제한적으로 제공해왔던 보안 특화 AI 모델 '미토스5'와 관련해서도 엔트로픽은 미 정부와의 소통을 통해 미토스 수출 통제 문제를 풀어나가겠다는 뜻을 한국 정부에 전달했다.
•
사단법인 프로젝트 플라즈마에서는 AI 기반 취약점 방어 기술을 사회 전반으로 확산하기 위해 공익 이니셔티브 '프로젝트 캐노피'를 공식 출범하며 화이트해커 연구 지원 및 보안 인재 생태계 조성 등 공식적 보안 기술 확산을 위한 노력을 기울이고 있다.
▽ 프론티어AI 보안위협을 대응하기 위한 협의체 현황
구분 | 프로젝트 글래스윙(Project Glasswing) | 오픈AI (GTAC, Government Trusted Access for Cyber) |
주요목적 | 폐쇄적 선제 방어 동맹 | 정부 중심 개방형 집단 방어 |
주도 기업 | 앤트로픽 (Anthropic) | 오픈AI (OpenAI) |
취약점 공개 정책 | CVD(Coordinated Vulnerability Disclosure)
AI가 발견한 취약점을 시장에 즉시 공개하지 않고, 패치가 나올 때까지 벤더사와 조율하는 보안 통제 프로세스 | Project Daybreak
공공 인프라 수호자들에게 무기급 AI 방어 역량을 신속히 전파하여 공격자와의 기술 격차를 벌리는 오픈AI의 국가 안보 마스터플랜 |
핵심 모델 및 성능 특징 | Claude Mythos Preview
소스코드 및 바이너리 내부의 논리 구조를 추론하여 인간이 놓친 제로데이 취약점을 발굴하는 능력이 극대화된 프론티어 AI 모델 | GPT-5.5-Cyber
일반적인 AI 안전 가드레일을 방어 목적에 한해 합법적으로 해제한 허용형 모델로 실제 라이브 익스플로잇 분석이 가능 |
핵심 파트너 및 생태계 구성원 | 글로벌 빅테크 및 클라우드 제조사 중심 (상업 연대)
•AWS, Google, Microsoft, Apple, Cisco, CrowdStrike, Palo Alto Networks, NVIDIA 등 | 우방국 정부 및 국가 안보/정보기관 중심 (안보 연대)
•미국 CISA, 캐나다 CCCS
•`26년 5월 대한민국 과기정통부 및 한국인터넷진흥원이 일본과 함께 아시아 최초 가입 |
핵심 방어 메커니즘 | 선제적 코드 패치 (Preemptive Patching)
•파트너사의 운영체제 커널, 하드웨어 펌웨어, 클라우드 하이퍼바이저 바이너리를 안전한 샌드박스 내부의 Mythos 모델에 투입
•공격자가 악용하기 전에 AI가 먼저 취약점을 사냥해 시그니처 배포 주기 단축 | 액티브 디펜스 및 위협 인텔리전스 공유
•적대 세력의 공격이 들어올 때, 공격 진원의 인프라 표면을 실시간 핑거프린팅
•전 세계 3억 5천만 개 이상의 도메인 위협 인텔리전스를 연합 정부 간 실시간 싱크하는 글로벌 집단 방어 아키텍처 |
취약점 통제 정책 | 철저한 통제 중심
미토스 모델의 파괴적 공격 성능이 다크웹이나 적대 세력에 유출되는 것을 차단하기 위해 퍼블릭 API 공급을 전면 보류
•엄격한 보안 서약(NDA)을 맺은 40~50개 동맹사에게만 폐쇄적으로 노출 | 방어 역량의 민주화
•"최첨단 사이버 AI 기술이 소수의 기업에만 독점되어서는 안 된다"는 철학
•악의적 공격자들이 AI를 무기화하기 전에, 사회를 지키는 신뢰할 수 있는 방어자들에게 기술을 빠르게 확산시키는 방식 |
주요 성과 | •26년 5월 22일 기준 281개 오픈소스에서 1,596개 취약점 발견 → 취약점 중 97개가 패치되고 CVE 88개 등록 | •글로벌 위협 도메인 차단 및 설계 보안 가능 |
•
프론티어 AI의 도입은 생산성 혁신을 가져왔으나, 그 이면에는 기존 보안 패러다임을 상회하는 새로운 차원의 위협이 공존하고 있. 이에 대한 다음과 같은 대응전략이 필요하다.
1) AI기반 취약점 무기화 대응 : 선제적인 자동화 보안 체계 확립
•
"AI는 이제 단순한 도구를 넘어 취약점 발견과 공격 코드 생성을 가속화하는 '기계 속도의 위협'이 되었다. 이제 방어자는 인간의 직관을 뛰어넘는 AI의 공격 속도에 대응하기 위해, 대응 패러다임을 사후 대응 중심의 보안 관리에서 '선제적 AI 방어 체계(AI-Driven Defense)'로 전환이 필수다.
•
이를 위해서는 AI 모델을 이용한 실시간 취약점 분석 및 자동 패치(Self-healing) 역량을 강화하여, 공격자가 취약점을 악용하기 전 방어자가 먼저 시스템의 무결성을 확보하는 'VulnOps' 자동화 프로세스를 구축해야 한다.
2) 자율 에이전트 및 공급망 보안 : 제로트러스트 기반의 검증 강화
•
자율 에이전트 AI의 도입은 소프트웨어 공급망의 복잡성을 증폭시켜, 보이지 않는 중간 공격 경로(Attack Surface)를 생성한다.
•
이를 위해서는 '자동화된 신뢰의 제로 트러스트(Zero Trust for Autonomous Agents)' 모델을 도입하여, 에이전트 간의 모든 상호작용을 제어하고 검증해야 한다.코드 생성 단계부터 배포에 이르기까지 AI 에이전트의 권한을 최소화하고, 공급망 전체에 대한 실시간 SBOM(Software Bill of Materials) 분석 및 AI 기반 이상 행위 탐지를 통해 자동화된 공격 시도를 조기에 차단해야 한다.
3) 국가 배후 위협 대응: 초연결 거버넌스 및 민·관 협력 체계 강화
•
국가 단위 위협 그룹(Nation-state Actors)은 AI를 활용해 정교한 지능형 지속 위협을 수행하며, 국가 핵심 인프라를 정조준하고 있다. 따라서 개별 기업의 보안 대응을 넘어선 '국가 단위의 AI 사이버 안보 거버넌스' 수립이 시급하다.
•
이를 위해서는 국가 간 위협 인텔리전스 공유 체계를 공고히 하고, 민·관이 협력하는 강력한 AI 방어 생태계를 조성해야 합니다. 특히 국가 안보와 직결되는 고위험 자산(HVA)에 대해서는 AI 기반의 지능적 위협 분석과 군사적 수준의 보안 대응체계를 통합 운영이 필요하다.













