AI 및 ML 시스템을 붕괴시키는 ‘적대적 머신러닝’의 이해

AI 및 머신러닝(Machine Learning, ML) 프로젝트를 시작하는 기업이 늘면서 AI/ML의 안전을 확보하는 일이 무엇보다 중요해졌다.

IBM과 모닝 컨설트(Morning Consult)가 5월 발표한 보고서에 따르면, 전 세계 7,500곳 이상의 기업 중에서 35%가 이미 AI를 사용 중이다.

전년 대비 13% 증가한 수치다. AI를 탐색하고 있는 기업은 42%였다. 20%의 기업은 데이터 보안에서 어려움을 겪고 있었고, 이로 인해 AI 도입이 늦춰지고 있다고 답했다.

가트너가 2021년 2월 실시한 설문조사에서도 보안이 AI 도입 시 가장 큰 걸림돌이었다. 보안은 AI 솔루션을 기존 인프라에 통합하는 데 따르는 복잡성과 함께 1위를 차지했다. 

마이크로소프트가 같은 해 3월 발표한 논문에 따르면, 기업의 90%는 적대적 머신러닝(Adversarial Machine Learning)에서 기업 시스템을 보호할 준비가 되어 있지 않다. 논문에서 다룬 28곳의 대/소규모 기업 가운데 25곳에서 ML 시스템 보안에 필요한 툴을 배치하지 않았다. 

AI/ML 시스템 보안은 상당히 어려운 작업이다. 몇몇 어려움은 AI 고유의 특성에 기인한다.

예를 들어 AI/ML 시스템은 데이터를 필요로 하는데, 민감 데이터나 독점적 정보는 공격자의 표적이 된다.

AI/ML 보안의 또 다른 측면은 ‘적대적 머신러닝’처럼 낯설기만 하다.


적대적 머신러닝이란 무엇인가? 

엄밀히 말해 적대적 머신러닝은 이름과는 달리 머신러닝이 아니다. ML 시스템을 공격하는 데 사용되는 일련의 기법이다.

토론토 메트로폴리탄 대학교(Toronto Metropolitan University) 교수이자 글로벌 리서치 연구소(Global Research Institute)의 상임 연구원 알렉세이 루브초이는 “적대적 머신러닝은 ML 모델의 취약점과 특수성을 이용한다”라고 말했다. 루브초이는 최근 금융 서비스 산업 내 적대적 머신러닝에 관한 논문을 발표했다.

예를 들어, 적대적 머신러닝은 ML 매매 알고리즘이 잘못된 매매 결정을 내리도록 만들고, 사기 행위가 검출되기 어렵게 만들고, 부정확한 재무 조언을 제공하도록 만들고, 정서 분석 기반의 보고를 조작하도록 만드는 데 쓰일 수 있다.


적대적 머신러닝 공격 유형 

루브초이에 따르면, 적대적 머신러닝 공격 유형은 크게 ▲중독(Poisoning) ▲회피(Evasion) ▲추출(Extraction) ▲추론(Inference) 4가지 영역으로 나눌 수 있다.


1. 중독 공격 

중독 공격(Poisoning Attack)은 훈련 데이터 세트를 조작하는 것이다.

루브초이는 “훈련 데이터를 의도적으로 편향시키면 ML 시스템의 학습은 잘못된 방향으로 나아간다”라고 말했다.

집에 AI로 구동되는 보안 카메라가 있다고 가정해 보자. 공격자가 매일 오전 3시에 표적의 집을 지나치면서 개가 잔디를 건너게 만들면 보안 시스템이 발동한다.

거주자는 개로 인한 보안 경보를 막기 위해 오전 3시의 경보를 끄게 된다.

매일 오전 3시에 발생하는 보안 경보가 사실상 무해한 것이라는 훈련 데이터가 제공된 셈이다.

시스템이 오전 3시에 발생하는 일이 무엇이든 무시하라고 훈련을 받았을 때가 바로 공격 시점이다.


2. 회피 공격

회피 공격(Evasion Attack)에서는 이미 훈련을 받은 모델의 입력값을 약간 변경한다. 루브초이는 “정지 표지에 스티커를 붙여 시스템이 이를 정지 표지가 아니라 양보 표지로 해석하게 만드는 식이다”라고 설명했다. 앞서 언급한 개 산책 사례로 예를 들면, 도둑이 집에 침입하기 위해 개 복장을 입는 것이다. 루브초이는 “회피 공격은 시스템을 속이는 착시 효과와 같다”라고 말했다.


3. 추출 공격 

추출 공격(Extraction Attack)에서 ‘적’은 AI 시스템 사본을 입수한다.

루브초이에 따르면, 간혹 모델에게 주어진 입력값과 모델이 제공하는 출력값을 보기만 해도 모델을 추출할 수 있다.

모델을 건드려서 반응을 관찰한다. 충분히 건드릴 수 있다면 상대방은 자신의 모델도 동일하게 행동하도록 가르칠 수 있다”라고 말했다.

예를 들어, 2019년 프루프포인트의 이메일 프로텍션(Email Protection) 시스템에서 발견된 취약점은 이메일이 스팸일 가능성에 대한 점수를 담은 헤더를 생성했다. 공격자는 이 점수를 기반으로 프루프포인트의 스팸 검출 엔진을 모방했고, 이메일 프로텍션 시스템을 회피하는 스팸 이메일을 생성했다.

한 기업이 상용 AI 제품을 사용한다면 공격자도 해당 제품 혹은 서비스를 구매해 얼마든지 사본을 얻을 수 있다.

안티바이러스 엔진에 공격자가 자신의 악성코드를 테스트할 수 있는 플랫폼이 있을 수 있으며, 개 산책 사례에서는 공격자가 망원경으로 보안 카메라의 브랜드를 확인하나 후 같은 제품을 구입해 우회할 방법을 찾는 것이다.

 
4. 추론 공격

추론 공격(Inference Attack)에서 공격자는 시스템 훈련에 어떤 데이터를 사용했는지 파악하고 데이터의 취약점이나 편향을 악용한다.

루브초이는 “훈련 데이터를 파악할 수 있다면, 상식이나 정교한 기법을 통해 그 데이터를 활용할 수 있다”라고 말했다.

개 산책 사례에서 공격자가 해당 지역의 일상적인 교통 패턴을 파악하기 위해 집 근처에 잠복해 있으면, 매일 오전 3시에 개를 산책시키는 사람이 지나가는 것을 알아내고, 시스템이 편향되었고, 개를 산책시키는 사람을 무시하도록 학습했음을 파악할 수 있다.


적대적 머신러닝 공격을 방어하는 방법

루브초이는 훈련 데이터가 편향이 없고 공격자가 고의로 데이터를 훼손할 수 없는지 확인하라고 조언했다.

루브초이는 “몇몇 ML 모델은 강화 학습(reinforcement learning)을 통해 새 데이터가 도착하는 즉시 학습한다. 이때는 새로운 데이터를 취급하는 방법에 유의해야 한다”라고 말했다. 

서드파티 시스템을 이용할 때는 솔루션 업체에 적대적 공격에서 시스템을 보호하는 방법을 질문해야 한다.

루브초이는 “어떠한 대비도 하지 않는 솔루션 업체가 많다. 심지어 적대적 머신러닝 공격이 있는지도 모른다”라고 지적했다. 

가트너에 따르면, 일반 소프트웨어에 대한 대다수 공격은 AI에도 적용될 수 있다.

따라서 여러 전통적인 보안 대책은 AI 시스템을 보호하는 데도 쓰인다.

예를 들어, 데이터 액세스나 훼손을 방어하는 솔루션은 훈련 데이터의 조작 역시 보호할 수 있다.

또한 가트너는 AI/ML 시스템을 보유한 기업이 추가 보호 조치를 취해야 한다고 권고했다. 구체적으로 ▲AI 모델의 무결성 보호를 위해 신뢰할 수 있는 AI 원칙을 도입해 모델 검증을 시행하고 ▲AI 훈련 데이터의 무결성 보호를 위해 데이터 중독 검출 기술을 이용하는 것이다.

적대적 전술 및 기법에 대한 업계 표준인 어택(ATT&CK) 프레임워크를 구축한 마이터는 이른바 적대적 머신러닝 위협 매트릭스(Adversarial Machine Learning Threat Matrix)라는 AI 시스템 공격 프레임워크를 개발하기 위해 마이크로소프트를 비롯한 11개 기업과 협력했다. 이는 인공지능 시스템에 관한 적대적 위협 지형(Adversarial Threat Landscape for Artificial-Intelligence Systems, ATLAS)으로 명칭이 변경되었고, ML 시스템 공격의 12단계까지 아우른다.

일부 솔루션 업체는 기업이 AI 시스템을 보호하고 적대적 머신러닝을 방어하는 데 도움을 주는 툴을 배포하기 시작했다. 2021년 5월 마이크로소프트는 AI 시스템의 보안을 테스트하는 오픈소스 자동화 툴인 카운터핏(Counterfit)을 배포했다. 애저 트러스트워시 ML(Azure Trustworthy ML)의 AI 레드팀 책임자인 윌 퍼스는 블로그 게시물에서 “이 툴은 마이크로소프트 AI 시스템의 취약점을 평가하기 위한 자체적인 필요로 개발했다. 카운터핏은 개별 AI 모델을 노리는 공격 각본으로 시작했으며, 이후 다수의 AI 시스템을 규모 있게 공격하는 범용 자동화 툴로 변화했다. 오늘날 우리는 레드팀 활동의 일부로 카운터핏을 일상적으로 사용한다”라고 말했다. 

퍼스에 따르면, 카운터핏은 마이터 어택의 ATLAS 공격 프레임워크 내 기법을 자동화하는 데 유용하다. AI 개발 단계에서 실무 투입 전에 취약점을 포착할 목적으로도 활용할 수 있다.

IBM도 오픈소스 적대적 머신러닝 방어 툴을 보유하고 있다.

적대적 견고성 툴박스(Adversarial Robustness Toolbox)라고 불리는 툴은 현재 리눅스 재단의 프로젝트로 운영된다.

보편적인 ML 프레임워크를 모두 지원하고 중독/회피/추출/추론 4개의 주요 범주로 나뉘는 39개의 공격 모듈을 포함한다. 


AI vs. AI

텍사스 대학교 컴퓨터 과학 교수인 뮤랏 칸타시오글루는 미래에는 공격자가 머신러닝을 이용해 머신러닝 시스템에 대한 공격을 생성할 수 있다고 말했다. 예를 들어, 딥페이크 생성에 주로 사용되는 생성적 적대 신경망(Generative Adversarial Network, GAN)이라는 새로운 AI 유형이 있다. GAN은 지극히 실제적인 사진이나 영상을 만들어 사람이 진짜라고 생각하도록 속인다. 딥페이크는 온라인 사기에 가장 보편적으로 악용되지만, 검출할 수 없는 악성코드를 제작하는 데도 동일한 원리가 적용될 수 있다.

칸타시오글루는 “GAN은 분류망과 생성망으로 나뉘며, 양측은 서로를 공격한다”라고 말했다. 예를 들어, 악성코드 분류 AI는 무엇이 악성코드인지를 파악하려고 시도하며, 악성코드 생성 AI는 분류망이 포착할 수 없는 악성코드를 생성하려고 시도할 수 있다. 두 시스템이 서로 경합하다 보면 최종적으로 검출하기가 거의 불가능한 악성코드가 만들어질 수 있는 것이다.

위 포스팅이 문제 있을 시 삭제 처리하겠습니다.

출처 : https://www.itworld.co.kr/t/69500/AI%E3%86%8DML/242754

댓글 없음:

참고: 블로그의 회원만 댓글을 작성할 수 있습니다.

Powered by Blogger.