90분간의 KT 네트워크 먹통 사태, 관리적·기술적 부실이 낳은 ‘人災’

과기정통부, KT 네트워크 장애 원인분석 결과 발표
부산국사에서 기업망 라우터 교체 작업 중, 작업자가 잘못된 설정 명령 입력해 발생
이번 조사 결과 바탕으로 ‘네트워크 안정성 확보방안’ 마련키로

지난 25일 90분간 많은 국민들의 일상을 멈추게 한 KT 네트워크 장애 사고는 KT 부산국사에서 기업망 라우터 교체 작업 중 작업자가 잘못된 설정 명령을 입력했고, 이후 라우팅 오류로 인해 전국적으로 확대된 것으로 분석됐다.

이는 과학기술정보통신부(장관 임혜숙, 이하 과기정통부)가 10월 25일 발생한 KT 네트워크 장애 사고와 관련해 정보보호, 네트워크 전문가들로 구성된 사고조사반(이하 조사반)과 함께 원인을 조사·분석한 결과에 따른 것이다.

KT 네트워크 장애사고는 25일 11시 16분경부터 시작되어 DNS 트래픽 증가에 이어 네트워크 장애가 발생했고, 12시 45분경 KT의 복구조치가 완료되어 약 89분의 서비스 장애가 발생했다.

사고조사반은 이번 네트워크 장애사고의 원인을 파악하기 위해 ① DNS 서버에 발생했던 급격한 트래픽 증가가 분산서비스거부 공격(이하 DDoS)이었는지, ② 라우팅 오류가 어떻게 발생했고 장애 확산이 되었는지 등을 면밀하게 분석한 결과를 발표했다.

사고 원인과 관련해 25일 11시 16분부터 KT DNS 서버에서 평시에 비해 트래픽이 급증해 KT 측에서 초기에 DDoS 공격이라고 발표하는 등 혼선이 야기됐다. DDoS 공격은 ①1개의 IP가 다량의 도메인 또는 비정상 도메인을 DNS 서버에 질의하는 시스템 자원 공격과 ②대량의 네트워크 패킷을 DNS 서버에 전송하여 서비스 대역폭을 채우는 네트워크 대역폭 공격의 두 가지 유형을 보이게 된다.

이에 조사반은 각 유형별 해당 여부를 패킷, 트래픽 분석 등을 통해 조사한 결과 당시 개별 IP의 DNS 질의는 최대 15개 이내 수준(중앙 1차 DNS 기준)으로, 개별 IP에서 수백, 수천 개의 질의가 발생하는 DDoS 공격과 달리 다량의 도메인 질의는 없었던 것으로 조사됐다. 또한, 트래픽 분석을 실시한 결과에서도 중앙 1차 DNS 서버 대역폭의 최대 8%, 부산 DNS 서버 대역폭의 28% 규모의 트래픽 유입만 있어서 대역폭 대비 충분히 수용 가능한 수준으로 네트워크 대역폭 공격은 아닌 것으로 판단됐다.

결론적으로, DNS 서버에 대한 트래픽 증가는 있었지만, 시스템 자원 DDoS 공격 및 네트워크 대역폭 공격은 확인되지 않은 것이다.

이번 사고 로그기록을 분석한 결과를 바탕으로 장애 원인이 밝혀졌다. 부산국사에서 기업망 라우터 교체 작업 중, 작업자가 잘못된 설정 명령을 입력한 이후 라우팅 오류로 인해 전국적인 인터넷 네트워크 장애가 발생한 것으로 분석됐다.

라우팅 설정 오류에 따른 장애발생 과정을 살펴보면, 인터넷 서비스가 제공될 때 PC, 스마트폰 등 개인의 접속 단말은 지역라우터, 센터라우터 등을 거쳐 국내외 네트워크로 연결되는데, 정상적인 연결을 위해서는 이용자 단말과 접속 대상 IP 주소 사이에 있는 다수의 라우터의 경로정보가 필요하다.

라우터는 네트워크 경로정보를 구성하기 위해 최신의 경로정보를 라우터끼리 교환하는 프로토콜을 사용하는데, KT 네트워크와 외부 네트워크 경로 구성에는 BGP 프로토콜을 사용하고, KT 내부 네트워크 경로 구성에는 IS-IS 프로토콜을 사용하게 된다. 라우터는 이렇게 BGP, IS-IS 등 프로토콜을 통해 교환한 경로정보를 종합해서 최종 라우팅 경로를 설정하게 된다.

댓글 없음:

참고: 블로그의 회원만 댓글을 작성할 수 있습니다.

Powered by Blogger.