이동통신망 자가 치유를 위한 기계학습 연구동향

Research Status on Machine Learning for Self-Healing of Mobile Communication Network

Electronics and Telecommunications Trends. Vol. 35, No. 5, OctOct 20202020, pp. 30-42

doi : http://dx.doi.org/10.22648/ETRI.2020.J.350503

권동승 (Kwon D.S.)
나지현 (Na J.H.)

* 이 논문은 2020년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임[No. 2020-0-009454, 5G 스몰셀을 위한 인공지능 기반 자율구성 네트워크(SON 기술 개발)].

Translated Abstract

Unlike in previous generations of mobile technology, machine learning (ML)-based self-healing research trend are currently attracting attention to provide high-quality, effective, and low-cost 5G services that need to operate in the HetNets scenario where various wireless transmission technologies are added. Self-healing plays a vital role in detecting and mitigating the faults, and confirming that there is still room for improvement. We analyzed the research trend in self-healing framework and ML-based fault detection, fault diagnosis, and fault compensation. We propose that to ensure that self-healing is a proactive instead of being reactive, we have to design an ML-based self-healing framework and select a suitable ML algorithm for fault detection, diagnosis, and outage compensation.

Keywords: SON, Self-Healing, Fault Detection, Fault classification, Diagnosis, Cell outage management, Machine Learning

Ⅰ. 서론

이동통신망은 새로운 기술과 서비스 도입으로 점점 더 복잡해지고 있다. 특히 5G 망 전개 시나리오는 성격이 다른 무선액세스기술(RAT: Radio Access Technology)과 다양한 형태의 셀(클라우드 기지국, 매크로셀, 마이크로셀, 피코셀, 펨토셀)들이 공존하는 Heterogeneous Networks(HetNets)을 특징으로 한다. 이 맥락에서 망 사업자는 CAPEX와 OPEX 모두를 줄이면서 새로운 고품질 서비스를 제공해야 하는 과제에 직면한다. 이를 해결하기 위하여 자가 구성, 자가 최적화와 자가 치유 세 가지 모드로 구성된 자가 구성 네트워크(SON: Self-Organizing Network)에 대한 연구들이 오랫동안 진행되어 오고 있다. 2008년 Next Generation Mobile Networks(NGMN) Alliance는 SON을 차세대 네트워크의 주요 설계 원칙 중 하나로 고려하고 있다. 그러나 기술, 서비스, 셀 유형 등 증가에 따라 망 계획과 운영이 점점 더 복잡해지고 있다. 이러한 복잡성을 해결하기 위해 자율적 망 관리의 대부분 절차를 자동화시키는 SON이 최근 상용화되는 기계학습(ML: Machine Learning)의 발전으로 새로이 각광 받고 있다.

SON 중 자가 치유는 시스템 내 결함이 발생하자 마자 결함을 감지하고 서비스 품질에 미치는 영향을 최소화하는 과정이 자율적으로 동작하는 것을 의미한다. 자가 치유 기능은 다음과 같은 구체적인 원인으로 더 넓은 범위(원인 및 증상 유형에 따라)를 갖는다. 첫째, 셀의 비정상적인 동작이 특정 망 요소와 관련이 없는 경우로 간섭, 이웃 셀의 잘못된 정의, 잘못된 매개 변수 정의 등이 있다. 둘째, 일반적으로 단일 결함이 여러 개 알람을 발생시킬 수 있고, 동일 알람이 다른 결함을 의미할 수 있으며, 일부 망 조건이 변경될 때 결함 없이 일부 알람이 발생하기 때문에 일반적으로 수천 개의 알람에서 원인을 정확하게 판별하는 것은 어렵다. 셋째, 때로 알람 메시지를 전송할 수 없는 경우로 셀 하드웨어 구성 요소가 고장 나거나 outage 상태로 망 상태 정보를 전송하지 않는 수면 셀인 경우가 문제다.

SON 기술 중 자가 구성과 자가 최적화 연구는 활발했지만, 결함 검출, 결함 원인 진단과 outage 복구의 세 가지 모드로 구성된 자가 치유에 대한 연구는 상대적으로 관심이 적었다. 그 이유는 기본적으로 이동통신 동작 환경이 지역별, 시간대별로 달라서 증상에 대한 원인 식별을 전문가에 의존하게 된다는 것으로, 구체적으로 다음과 같은 점이 자가 치유에 대한 연구를 어렵게 한다. 첫째, 복잡하고 다이내믹한 이동통신 운영 환경으로부터 얻은 알람, 측정 데이터, 미 측정된 데이터 등으로부터 결함 검출을 위한 기준이 상황별로 달라서 실시간 결함 검출이 어렵다. 둘째, 검출된 결함을 유발시킨 원인이 셀 동작 조건과 환경에 따라 다양해서 실시간으로 결함 원인을 특정하기 어렵다. 셋째, 결함 원인에 대한 복구 방안도 셀 동작 조건과 환경에 따라 다양해서 최적의 outage 복구 방안 제시가 어렵다. 넷째, 결함 검출과 결함 진단 그리고 outage 복구 전 단계를 자동화시키기 위해서 미 활용된 데이터가 많고, 대처 방안도 일부 전문가의 지식으로 남아 있고, 사업자별로도 Key Performance Indicators(KPIs), 진단 방법, outage 복구 기준이 달라 학문적 연구가 어려웠다는 점이다.

한편, 3GPP(Third Generation Partnership Project)에서는 Rel. 9부터 자가 치유 프로세스와 사례의 표준화를 시작하였으며, 2012년 Rel. 11에서 자가 치유 개념과 요구사항을 만들었다. 최근 많은 관심을 끄는 자가 치유 사례 중 하나는 outage 상태에 있는 셀 자동 검출이다. 자가 치유 솔루션은 outage 시나리오를 극복하고, 망에서 발생하는 disruption 최소화를 위해 복구 메커니즘을 수행해야 한다. 그러나 현 방법은 셀 outage의 수동 검출이므로 검출에 수 일 또는 수 주일이 걸린다. 향후 이동통신의 규모와 복잡성 증가에 따라 수동 절차는 충분하지 않으며 검출과 복구를 포함한 자율 관리가 SON에 제공되어야 한다. 이 outage 문제해결을 위한 지능형 솔루션이 연구되어 왔다.

그럼에도 불구하고 상기 어려움을 해결하기 위해 자가 치유 자동화에 ML 기술을 적용한 학술적 연구는 2000년 중반부터 시작되었다. 그러나 관련 기존 연구들도 서로 다른 용어와 개념을 사용하였으며, 특정 RAT만을 위한 자가 치유를 연구해 왔다. 그리고 미래 이동통신망에서는 결함과 비정상을 예측해서 실제 상황 발생 전에 필요한 조치를 취하는 proactive 시나리오로 전환될 것으로 예상된다. 따라서 자가 치유 관점에서 사전 대응 패러다임으로 전환하기 위해서 우선 ML기반 자가 치유 프레임워크를 설계하고, 운영 전문가가 보유한 데이터와 이동통신망에서 수집된 측정 데이터를 기반으로 검출된 결함, 검출된 결함에 대한 진단, 그리고 그 진단에 대한 outage 복구에 적합한 ML을 선택하기 위한 연구개발이 필요하다.

본 고의 Ⅱ장에서는 자가 치유 프레임워크를, Ⅲ장에서는 ML기반 결함 검출을, Ⅳ장에서는 ML기반 결함 진단을, Ⅴ장에서는 ML기반 outage 복구에 대한 연구 동향을 분석 정리하였다.

Ⅱ. 자가 치유 프레임워크

1. 자가 치유 통합 프레임워크

Barco 등은 2012년 정보 수집, 결함 검출, 결함 진단, 그리고 결함 복구의 4가지 핵심 기능으로 구성된 자가 치유 통합 프레임워크의 참조 모델을 처음 제시했다[1].

가. 데이터 수집

데이터 수집 기능은 자가 치유 프로세스에 사용될 데이터를 수집하는 것으로 해당 데이터는 망 구성 파라미터, 망 요소가 측정한 데이터(트래픽 부하, 자원 가용도 등), 특정 사용자로부터 수집한 데이터, 실시간 모니터링 데이터(트래픽 부하, 핸드오버 등), 커버리지와 간섭 등 현장 측정 데이터, KPIs, 상황 정보(지역 정보, 날씨 등) 등이다. 이 기능에서 도전적인 사항은 분산 혹은 하이브리드 온라인 상태에서 기지국과 사용자 단말로부터 측정값들을 어떻게 결합해서 사용할 것인가이다.

나. 결함 검출

결함 검출 기능은 문제가 있는 셀을 식별하는 것으로, 서비스 outage가 있는 셀(셀 outage 검출)과 서비스 열화가 있는 셀(셀 열화 검출)을 포함한다. 검출은 셀 행동이 일단 비정상 상태인지 또는 비정상 상태 발생 전인지에 따라 reactive 또는 proactive로 분류될 수 있다. 셀 결함 검출 방법은 통상 일부 특정 알람과 KPIs로 식별될 수 있다. KPI 임계값을 설정하고, 측정된 KPI가 이 임계값보다 높으면 비정상적인 동작이라고 검출한다. 다른 방법은 정상적인 행동을 프로파일링하거나 KPI 경향을 분석하는 것을 기반으로 하지만, 일부 셀 결함은 KPI 및/또는 알람으로 운용보전센터(O&M: Operation & Management)에 의해 검출되지만 다른 셀 결함은 몇 시간 또는 며칠 동안 검출되지 않을 수 있다.

이 결함 검출에서 주요 도전 이슈는 세 가지가 있다. 첫째, O&M으로 어떤 알람도 송부하지 않는 sleeping 셀을 어떻게 검출할 것인가이다. 둘째, 일부 문제는 한 개 KPI의 비정상적인 값으로 식별되지 않고 여러 KPI에서 약간의 비정상적인 값으로 식별될 수 있다. 따라서 모든 관련 KPI 및 알람을 고려하고 적절한 결정 논리를 사용하여 outage 또는 성능 열화가 발생했는지 여부를 결정하는 알고리즘을 개발해야 한다. 셋째, 시스템의 점진적인 성능 열화는 임계값으로 검출할 수 없으므로, reactive 검출 대신에 proactive로 검출하는 알고리즘이 필요하다.

다. 결함 진단

진단은 데이터 수집 기능으로부터 KPIs, 구성 파라미터, 알람과 상황 등 데이터를, 결함 검출로부터 결함 셀 데이터를, 전문가로부터 지식을, O&M으로부터 통계 데이터를 받아서 비정상적인 동작 해결을 위한 복구 조치를 식별하는 것이다. 일반적으로 먼저 셀 문제의 결함 원인을 분리(결함 식별)한 다음 해당 원인을 해결하기 위한 복구 조치(조치 식별)를 결정하는 것이다. 그러나 일부 방법은 원인을 명시적으로 식별하지 않고 조치를 직접 결정할 수 있다.

결함 진단 중 결함 식별 기능은 하드웨어 또는 소프트웨어 에러 문제, 잘못된 구성, 통신 실패, 커버리지 부족, 간섭 등의 결함 원인을 식별하는 것이다. 그 원인은 요소 결함과 시스템 결함으로 분류할 수 있다. 요소 결함은 망 요소(하드웨어, 소프트웨어 또는 기능적 자원)의 장애와 관련 있는 원인을, 시스템 결함은 주어진 망 요소와 관련될 수 없는 원인(커버리지, 간섭, 구성 등)을 의미한다. 전통적으로 “결함 관리”는 요소 결함 처리에서 발생된 알람기반으로 원인을 식별하는 것이지만, 요소 결함이 발생한 경우에도 알람 원인을 항상 명확하게 나타내는 것은 아니다. 또한 시스템 결함은 단지 알람만 보고 거의 식별할 수 없으므로 KPI 등의 다른 데이터를 조사해야 한다.

결함 식별에서 주요 도전할 이슈는 다음과 같다. 첫째, 수많은 결함 중에서 가장 관련성이 높은 KPI와 알람을 식별하는 것이다. 둘째, 결함 원인과 KPI 간 비 결정적 관계 때문에 동일한 결함 원인에 대해 특정 KPI의 값이 다른 셀과 다른 시간마다 다를 수 있다. 또한 다른 셀과 시간에서 동일한 결함 원인에 대한 KPI 값의 변동이 커서 특정 원인으로 인해 어떤 KPI에 비정상 값이 있는지 정의하기가 쉽지 않다. 셋째, 셀 동작은 일반적으로 인접 셀의 영향을 받으며, 인접 셀의 결함으로 인해 셀에서 비정상적인 KPI 값이 발생할 수 있으므로 단일 셀 상태로만 결함 셀 식별이 쉽지 않다.

조치 식별 기능은 문제해결을 위한 조치를 제안하는 것으로 조치는 단순 조치와 파라메트릭 조치로 분류할 수 있다. 단순 조치는 추론 없이 직접 실행하는 조치로서, 일반적으로 기능 장애 원인과 해결 방법 간 직접적인 관계가 있으므로 일단 원인이 진단되면 해당 수리 조치도 바로 알 수 있다. 파라메트릭 조치는 즉시 식별될 수 없고 대신 파라미터를 변경해야 할 조치로서 새 파라미터값 계산을 위해 특정 알고리즘을 실행하여 결정하는 것이다. 파라메트릭 조치와 관련된 원인은 일반적으로 전력 조정, 안테나 down-tilt 등을 조절하는 것이다.

가능한 조치의 수가 많고 알고리즘 수가 많으므로 조치 식별에서 주요 연구 이슈는 파라메트릭 조치에 대한 알고리즘 정의와 관련이 있다. 알고리즘은 수동 분석이 필요 없도록 올바른 조치 및 관련 파라미터를 스마트하게 자동 계산해야 한다. 어떤 잘못된 값으로 인해 서비스 성능이 저하되었는지 해당 망 파라미터 값을 자동으로 변경하는 알고리즘 개발이 필요하다. 또한, 주변 셀 성능을 저하시키지 않도록 조치가 주변 셀에 영향을 미치는 방식을 고려해야 한다.

라. 결함 복구

결함 복구는 식별된 복구 조치를 수행하는 것으로 결함 복구와 보고로 구성된다. 결함 복구 기능은 진단 기능과 병렬로 동작하며, 문제가 된 셀로 인한 망 성능 열화를 최소화하기 위해 빠른 조치를 취한다. 문제를 즉시 해결할 수 없는 경우 영향을 받는 셀과 주변 셀이 협력하여 품질 저하를 최소화해야 한다. 결함 복구는 outage 복구를 위해 주변 기지국 구성을 변경해야 하므로, 변경될 파라미터와 그 값을 자동 결정하는 알고리즘을 개발하는 것이 주요 연구 주제이다.

결함 복구에서 주요 연구 이슈는 다음과 같다. 첫째, 일반적으로 오프라인으로 수행되는 자가 최적화 방법과 달리 결함 복구는 즉시 중단에 대응하기 위해 실시간 알고리즘이 필요하다. 둘째, 결함 복구에서 다목적, 예를 들면 커버리지와 품질의 조합을 고려하여 최적화해야 한다. 셋째, 인접 셀 파라미터를 변경하면 해당 셀의 서비스에 영향을 줄 수 있으므로 복구 알고리즘은 outage 혹은 성능 열화 지역에 제공되는 용량/커버리지와 인접 셀에서 경험하는 불가피한 성능 저하 사이의 적절한 균형을 찾아야 한다.

결함 복구에서 보고 기능은 문제를 해결하기 위해 수행된 과정(예, 복구 작업, 분석 된 데이터 등)에 대한 데이터를 저장하는 것이다. 저장된 데이터를 학습함으로써 자가 치유 프로세스를 향상시키는 데 매우 유용하다. 자가 치유 시스템의 출력은 결함 셀의 목록, 각 결함 셀에 대해 진단 원인 및/또는 복구 조치, 복구 전략, 후속 추론과 단계에 대한 보고서이다. 주요 도전 과제는 다음과 같다. 첫째, 이전에 해결된 결함 사례로부터 학습을 통해 자가 치유 절차에 적용하기 위한 알고리즘 개발이 필요하다. 둘째, 운영자가 결함의 감지, 분석 및 해결을 추적에 사용하는 메커니즘에 사용하기 위해 보고 기능을 전통적인 문제 타겟 시스템과 통합하는 것이다.

2. 밀집 HetNets에서 자가 치유 프레임워크

2016년 Onireti 등은 미래의 용량, 서비스 품질과 에너지 효율 요구를 충족시키기는 아키텍처인 제어 평면과 데이터 평면이 분리된 HetNets에서 새로운 셀 outage 관리 프레임워크를 제시했다[2]. 여기서 셀 outage 관리는 셀 outage 검출과 셀 outage 복구로 구성된다. 셀 outage 검출은 전원 또는 망 연결 등의 고장 또는 구성 오류로 인해 제대로 작동하지 않는 outage 셀을 자동 감지하는 것이다. 한편, 셀 outage 복구는 주변 셀의 파일럿 전력, 안테나 down-tilt 및 방위각 등의 적절한 무선 파라미터를 조정하여 outage 열화 효과를 자동 완화시키는 것이다.

전통적인 HetNet 구조에서는 제어와 데이터 기능이 동일한 노드에서 제공되므로 노드에서 outage는 동일 노드에 의해 복구될 수 있다. 그러나, 제어 평면과 데이터 평면이 분할된 HetNets에서는 제어와 데이터 기능이 별도의 노드에서 제공되므로 노드에서 outage는 동일한 기능을 제공하는 다른 노드에 의해서 복구될 수 있다. 저자의 논문 [2]의 그림 1과 같이 제어와 데이터 평면의 이 특징에 대처하기 위해 각각의 평면에 특화된 셀 outage 검출 알고리즘을 두고 이 결과를 셀 outage 복구에 입력하는 통합된 셀 outage 관리 프레임워크를 제안했다.

제어 셀은 데이터 셀보다 상대적으로 많은 수의 가입자가 있으므로 Minimization of Drive Test (MDT) 보고서를 활용하고, 제어 셀 Outage 검출을 위해 ML과 이상 탐지 기술을 적용했다. 즉, 결함없는 운영 시나리오에서 얻은 MDT 보고서를 사용하여 정상적인 망 동작을 프로파일링하고, 학습된 프로파일을 사용하여 제어 셀 outage를 자율적으로 검출한다는 것이다. 특히 입력 데이터 크기에 대처하기 위해 Multi-Dimensional Scaling(MDS)를 사용하여 차원 축소를 했다.

데이터 셀 outage 검출은 제어 셀이 단말과 데이터 셀 연결을 관리한다는 사실을 이용하여 데이터 셀에서 적은 수의 UE와 함께 작동할 수 있는 휴리스틱 그레이 예측기반 접근법을 적용했다.

Outage를 올바르게 검출했다면 outage 영역에서 사용자가 서비스를 계속 제공받게 하려면 온라인 자동 셀 outage 복구 체계가 필요하다. 밀집한 HetNet에서 항상 변화하는 급격한 무선 환경의 역동성과 부하의 높은 변동성을 고려하여 주변 환경과 상호작용으로 outage를 복구할 수 있는 온라인 학습의 Actor-Critic(AC)기반 강화학습(RL: Reinforcement Learning)을 제안했다.

3. Big Data 기반 자가 치유 프레임워크

2014년 Imran 등은 현 SON 패러다임이 5G 요구사항을 충족시키는 데 어떤 문제가 있는지를 처음 검토하고, 5G 요구사항을 만족하기 위한 SON에 빅데이터로 자율권을 주는 포괄적인 프레임워크(BSON: Big Data Empowered)를 제안했다[3]. 빅데이터를 올바른 데이터로 변환하여 쉽게 사용할 수 있는 지식기반을 제공하여 망 종단 간 인텔리전스를 생성하는 데 활용할 수 있는 특정 ML과 데이터 분석 도구와 SON 엔진이 올바른 데이터에서 추출할 수 있는 동적 모델을 구축하는 방법도 제시했다. BSON은 보다 민첩한 역동성으로 SON 패러다임을 reactive에서 proactive으로 전환시켜 5G의 매우 낮은 대기 시간 요구사항 실현에 핵심 요소로 작용할 수 있게 했다. 5G를 가능하게 하는 SON에서 도전 이슈로 종단 간 네트워크 가시성을 위한 대규모 인텔리전스를 SON에 적용, 충돌 없는 안정적인 SON을 위한 자가 조정 기능, 운영자의 신뢰를 얻기 위해 더 투명한 SON 기능, 소규모 시간 스케일에서 대규모 시간 스케일의 SON을 이동, 올바른 KPI 정의를 위한 총체적 접근, reactive에서 proactive SON으로 패러다임 전환을 언급했다.

데이터 수집, 분류, 지식 구축과 해석, SON 엔진으로 구성된 5G용 BSON 프레임워크의 핵심 아이디어는 적절한 머신 러닝 도구를 적용하여 빅데이터에서 지능을 추출하여 망 종단 간 가시성을 개발하는 것으로 최신 SON과 차별화하는 주요 기능은 다음과 같다. 첫째, 현재 망 상태에 대한 완전한 정보, 둘째, 사용자 행동 예측 기능, 셋째, 망 응답을 망 파라미터와 동적으로 연관시키는 기능이다. 제안된 프레임워크를 검증하기 위해 BSON기반으로 망 모니터링과 관찰을 통해 k-NN기반 이상 탐지기와 차원 감소를 수행하기 위해 MDS를 사용한 모델을 이용하여 sleeping 셀 행동 예측으로 sleeping 셀 검출 결과를 제시했다.

본질적으로 reactive한 기존 자가 치유 메커니즘은 복구 시간을 최소화할 수 있지만, 최근 매우 낮은 지연 시간과 높은 QoE 요구사항을 만족시킬 수 없으므로 reactive 대신 proactive 자가 치유 메커니즘을 요구하고 있다. 2017년 Hashmi 등은 약 130만 명의 고객을 가진 전국 광대역 서비스 제공업체로부터 얻은 Network Failure Log(NFL) 데이터세트를 운영자가 운영 비용을 최소화하고 복구 시간을 최소화하며 QoE를 최대화하기 위해 보다 최적의 결정을 내릴 수 있는 지식기반으로 변환하는 연구를 하였다[4]. 사용한 데이터는 특정 시간 동안 특정 지역에 영향을 미치는 네트워크 생성 경보와 함께 고객 불만 사항의 상태를 기록하고 추적하는 회사의 고객 관계 관리 시스템에서 추출된 것이다. 선택한 데이터는 12개월 동안 지속되며 회사의 5개 서비스 지역에서 약 1백만 개의 NFL 데이터 포인트를 포함되어 있다. 추출된 데이터에는 9개의 속성이 있으며, 이 중 5개가 분석 대상으로 선택되었다.

즉, Hashmi는 그동안 Dark Data인 NFL에 다섯 가지 ML(K-means, Fuzzy C-means, SOM, local outlier factor, local outlier probabilities)을 적용하여 reactive에서 proactive 전환할 수 있음을 보였다. 즉, 데이터 마이닝 기술을 적용하여 NFL 데이터 세트 내에서 시공간적 특징이 뚜렷한 클러스터를 식별할 수 있다는 것과 제안된 기술 중에는 최적의 클러스터링 및 이상 감지 결과를 제공하는 여러 머신 ML이 있다는 것을 보여주었다.

4. 자동화된 검출과 진단 프레임워크

Szilágyi 등은 이동통신망에서 비정상을 식별하고, 심각한 문제뿐만 아니라 더 적은 성능 저하에 대해서도 가장 근접한 근본 원인을 찾는 검출과 진단의 통합 프레임워크를 처음 제안했다[5]. 비정상 검출은 무선 측정값과 기타 성능 지표를 모니터링하고, 임계값 혹은 수동 교정 없이 자동으로 구축된 프로파일에 의해 캡처된 정상 동작과 비교를 기반으로 했다. 진단은 다른 성능 지표에 미치는 특성 영향을 식별하고 학습함으로써 이전 결함 사례 보고서를 기반으로 했다. 즉, 제안 프레임워크는 망 결함 없는 환경에서 성능 지표의 프로파일을 자동으로 생성하고 그 동작을 캡처한 후, 나중에 이를 기준으로 통상 동작과 중대한 편차를 식별한다는 것이다. 제안된 알고리즘은 인공적으로 만든 결함 사례가 포함된 LTE 환경에서 평가했다.

우선 저자는 ‘문제 검출’이라는 단어가 문제가 있다는 확인과 문제 자체의 성격이나 유형에 대해 확인한다는 뜻으로 통상 이해하고 있으므로 ‘검출’과 ‘진단’이라는 용어가 종종 암시적으로 이중성을 나타내므로 이동통신망에서 다음과 같이 정의했다.

• 검출은 기본적으로 망에서 이상한 것을 식별하는 것이지만, 제안 통합 프레임워크에서 검출 프로세스 역할은 진단 기능에게 가능한 지표(증상)들에 대한 공통 관점을 제공하여 결함이 있는지 여부 혹은 진단 기능에게 넘길 것을 결정한다.

• 진단은 검출된 증상을 유발할 수 있는 근본 원인을 조사하는 것으로 제안 프레임워크에서 진단의 입력은 검출의 출력이다. 일반적으로 근본 원인의 진단 완료 후 문제를 해결하려면 특정 수정 조치를 수행해야 한다.

제안 통합 프레임워크는 자동화된 기능을 갖춘 검출과 진단 두 가지 요소로 구성된다. 검출은 KPI 별로 수행되는데, KPI 현재 값이 프로파일에서 얼마나 많이 벗어나는지 측정하는 것이 목표다. 측정된 결과는 KPI 레벨의 통일된 인터페이스를 통해 이전 결함 사례가 포함된 데이터베이스의 도움으로 근본 원인 분석을 담당하는 진단 기능에 전달된다. 결함 프로세스에서 의심스러운 KPI를 발견할 때마다 경보를 보내는 대신 결함이 진단된 경우 진단 결과만 운영자에게 전송한다.

기존 검출 방법은 각 KPI별로 사전 정의된 임계값을 위반하면 알람이 발생되는데, 이 방법의 근본 문제는 임계값 위반 여부가 온 혹은 오프로만 표시된다는 것이다. 따라서 대신에 KPI 수준을 대변하는 [0, 1] 내에서 실수로 출력하는 새로운 통합 KPI 인터페이스를 제안했다.

진단에는 진단 목표, 전문가 지식 그리고 스코어링 시스템으로 구성했다. 지금까지 진단 목표는 근본 원인 또는 시정 조치를 의미하는 것으로 이해되었으나 모든 결함이 실제 결함 사례 또는 실제 수정 조치를 식별하는 데 필요한 것은 아니다. KPI 레벨에 따라 실패를 의심할 수 있지만, 비정상적이지만 완벽하게 타당한 KPI의 분포로 결함이 없을 수 있다. 진단 프로세스가 이 상황을 결함이 없는 것으로 명시적으로 인식하게 하여 진단 정확성을 증가시키도록 운영자에 의해 특정 목표로 만들어져야 한다.

오토매틱 프레임워크가 작동하기 위해 운영자가 요구하는 데이터인 전문가 지식은 KPIs와 연관된 진단 목표를 요구한다. 목표-KPI 관계에 대한 선행된 전문가 지식을 기반으로 보고서를 얻거나 결함 기록에서 분석한 이전 결함 사례를 기반으로 망 작동 중에 결함이 지속적으로 발생할 때 지속적으로 추가할 수 있다. 동일 증상의 동일 결함이 여러 번 발생하는 경우 진단 시 대상 빈도를 고려할 수 있도록 보고서와 관련된 대상의 상대적 발생을 모델링하기 위해 매번 동일한 보고서를 추가해야 한다.

진단 프로세스는 KPI 수준을 모니터링하고, 어느 KPI가 어떤 대상에 특징인지를 설명하는 전문가 지식에 따라 목표를 관련성 내림차순으로 나열한다. 목록의 맨 위에는 진단이 실행될 때 가장 관련이 높은 목표가 있다. 이 프로세스는 목표와 관련된 보고서가 현재 각 프로파일과 유의미한 편차를 나타내는 KPI와 전체적으로 얼마나 일치하는지에 따라 각 진단 대상에 점수를 부여하는 스코어링 시스템을 기반으로 한다. 정확히 일치할수록 해당 목표에 부여된 점수가 높아진다.

Nováczki 등은 참고문헌 [5]의 통합 프레임워크 모델에서 프로파일링과 검출 기능을 개선한 것으로 동일 목적의 비정상 검출과 진단 수행을 위해 비정상 분류의 새로운 프로파일 학습 기술을 기반의 검출로 진단 성능을 높이는 결과를 발표했다[6].

상용 이동통신망은 사용자 활동(예, 러시아워, 야간)에 의해 결정되는 매우 역동적인 시스템이며, 이 속성은 KPIs 시계열 특성에도 반영되어 있다. 거의 모든 것이 동일한 변동을 보여주는 실 사용자 행동에 의해 다소 영향을 받으므로, 시스템과 해당 KPI는 여러 상태에 있을 수 있으며 각 상태는 다른 상태와 크게 다르지만 여전히 정상 작동을 나타낼 수 있다. 신뢰할 수 있는 비정상 검출과 진단을 하려면 이런 각 상태를 고려해야 한다. 제안 프레임워크는 이런 상태들 각각이 해당 프로파일과 연관시켰고, 각 알고리즘은 각 비정상 검출 주기에 사용할 올바른 프로파일을 선택하게 했다. 현 프로파일링의 가장 중요한 제한은 운영자가 가능한 한 모든 정상 상태를 식별하고 모든 KPI에 대해 이들 각각을 나타내는 시계열 세그먼트를 명시적으로 선택해야 한다는 것이다. 프로파일 학습의 목표는 망 요소의 과거 성능 데이터에서 KPI의 모든 정상 상태를 식별하는 것이다. 알고리즘으로 식별되는 각 상태는 프로파일과 연관되고, 프로파일은 시스템이 해당 상태에 있을 때 측정된 KPI 샘플의 통계 분포이다. 프로파일 학습은 모든 KPI에 대해 서로 독립적으로 수행되는데, 이는 모든 KPI에 대해 요청 시 실행될 수 있는 오프라인 프로세스이다.

Ⅲ. 기계학습기반 결함 검출

이 장에서는 Ⅱ장의 자가 치유 프레임워크 중 결함 검출에 ML을 적용한 연구 사례를 분석 정리하였다.

Ciocarlie 등은 자동화된 셀 비정상 검출, 특히 셀 성능 열화 문제해결을 위해 정상적인 셀 행동 모델링을 위한 강력한 방법이 필요하다는 것에 주목했다. 특히 매우 동적인 KPI 측정값을 사용하여 셀 상태를 결정해야 하므로, KPI가 시스템 정상 상태에서 시간이 지남에 따라 변동되는 현상에 대처할 수 있는 모델링 기술로 망에서 셀 성능 상태를 모델링하고 결정하는 적응형 앙상블 프레임워크를 제안했다[7]. 저자는 단일 전통적인 시계열 비정상 검출 방법이 원하는 검출 성능을 제공할 수 없다는 가설에 따라 모니터링해야 할 KPI 유형이 넓어졌다. 제안 프레임워크는 서로 다른 분류기를 결합하고 예측에 가중치를 부여해서 새로운 데이터 요소를 분류했다. 모니터링된 데이터를 모델링하여 학습한 최적화 된 가중 파라미터 값을 사용하여 단일 분석법보다 훨씬 우수한 성능을 보여준 새로운 복합 검출 방법을 만들었다. 이 과정에서 특정 KPI를 사용하여 셀 상태를 결정하고, 새로운 관측 데이터 포인트 분류를 위해 Support Vector Machine(SVM) 분류기들의 조합을 사용했다.

Xue 등은 매크로-피코셀의 HetNets에서 시간 영역의 KPI 관찰 결과에 k-NN 분류기를 자동 비정상 검출 메커니즘으로 사용하여 outage 셀(성능이 저하되거나, 서비스 불가 셀)과 인접 셀 간 협력으로 outage 검출 방법을 제안했다[8].

2계층 매크로-펨토셀의 HetNets와 펨토셀의 작은 커버리지 특성으로 펨토셀 망에서 outage 검출이 어렵다. Wang 등은 이 문제해결을 위해 사용자간 공간 상관 관계를 추출할 수 있다는 관찰을 바탕으로 트리거 단계와 감지 단계로 구성된 협력 펨토셀 outage 검출을 제안했다[9]. 트리거 단계는 펨토셀 내 수신된 기준 신호 수신전력 통계에 협업 필터링으로 추출된 상관 정보를 활용하여 셀 간 통신 없이 효율적으로 검출 절차를 작동시킨다. 검출 단계는 탐지 정확도를 높이기 위해 펨토셀 간 수신된 기준 신호 수신전력 통계에 공간적·시간적으로 상관된 사용자 통계를 처리하는 순차적 협력 검출 규칙을 도입 적용했다.

Liao 등은 Principal Component Analysis(PCA)를 이용한 차원 축소와 커널 기반의 fuzzy 분류로 효율적인 망 모니터링과 proactive 셀 비정상 검출의 새로운 프레임워크를 제안했다[10]. 망 상태 특징 추출을 위해 일련의 메트릭을 선택하고 PCA로 데이터를 훨씬 낮은 차원 공간에 매핑했다. 그리고 커널 파라미터를 최적화하여 커널 기반의 fuzzy c-means 알고리즘으로 SON 사용 사례와 관련된 숨겨진 클러스터링 패턴을 배우면서 전문가가 제공하는 사전 지식을 통합했다.

Feng 등은 셀 성능 저하 수준에 따라 셀을 건강, 열화, 손상과 outage 4가지 상태로 분류하고, 3개 레이어의 Back-Propagation(BP) Neural Network(NN)를 설계하고, 모델의 빠른 훈련을 위해 차등 진화(DE: Differential Evolution) 알고리즘을 적용했다[11]. 그룹 기반의 최적화 알고리즘으로 제공되는 DE 알고리즘은 다른 진화 알고리즘에 비해 강력한 글로벌 검색 기능과 제어되지 않은 매개변수를 갖는다. 따라서 DE 알고리즘은 검색 전략을 조정할 수 있고 문제 특성 정보 없이 강력한 수렴과 견고성 기능을 갖추고 있다는 장점과 원칙적으로 간단하고 구현하기 쉽다.

Zoha 등은 셀 outage의 특별한 경우로 도전적인 sleeping 셀 검출을 위해 MDT 보고에 기초한 프로파일링, 검출, 국소화로 구성된 outage 검출 프레임워크를 제안했다[12]. 프로파일링 단계에서 MDT 측정값을 수집하고, 데이터 차원 축소에 MDS를 적용하여 정상적인 무결함 망 시나리오에서 참조 DB를 구축하고, 검출 단계에서는 망 측정값을 분류하고, 셀 outage 결정을 위해 Local Outlier Factor based Anomaly Detector(LOFAD)와 One Class Support Vector Machine based Detector(OCSVMD)의 두 가지 알고리즘을 적용 평가했다[12].

LTE와 LTE-A에서 outage를 자동으로 신속하게 감지하는 것은 어려운 문제이다. 따라서 사업자는 가능한 한 빨리 망의 문제에 대해 알고 있어야 하고, 유지 보수 담당자의 방문이나 광범위한 측정 캠페인없이 최소한의 개입만으로 문제를 식별할 수 있어야 하며, 허위 및 누락 알람 수를 최소화하고, 알고리즘 설정 또는 훈련 단계를 가능한 한 짧게 만들어야 하며, 망 성능 모니터링 시스템의 수동 설정 매개 변수의 양을 최소화하는 것이 매우 중요하다. Sleeping 셀은 기존 망 모니터링으로는 거의 감지할 수 없는 특정 유형의 셀 outage다. MDT 기능 도입으로 측정 캠페인 없이 가입자 단말에서 사용자 수준 통계를 수집할 수 있게 되어 효율적인 sleeping 셀 검출을 위해 MDT 데이터 처리에 데이터 마이닝 기술은 사용할 수 있다. Chernov 등은 sleeping 셀 검출을 위해 MDT 측정값에 데이터 마이닝 기술을 적용하는데, 고장 셀 검출 정확성에 영향을 주는 MDT 측정 위치의 정확성을 개선한 솔루션을 제시했다[13]. 훈련 단계에서 정상적인 망 시나리오에서 모델을 구축한 다음 시험 단계에서 특정 비정상 검출 알고리즘을 적용하여 샘플을 비정상적이거나 아 차원을 줄이고, K-means 비지도 기술을 적용하여 분류했다.

Zoha 등도 sleeping 셀 문제해결을 위해 셀 outage 검출과 복구 메커니즘으로 Fuzzy기반 RL을 이용하여 인접 셀의 안테나와 전력 파라미터를 재구성함으로써 식별된 outage 지역의 사용자에 대한 커버리지 갭을 채우고 서비스 품질을 향상시켰다[14]. MDT를 사용하여 셀 outage 검출을 위해 MDT 측정값을 수집하고 MDS를 사용하여 차원을 줄이고, LOFAD와 OCSVMD를 적용하여 outage 검출했다. 복구 메커니즘으로 안테나 down-tilt와 송신 전력을 조정하고 outage 셀 영향을 최소화하기 위해 RL과 결합된 Fuzzy 컨트롤러를 적용했다.

Alias 등은 셀을 건강, 열하, 절름발이 또는 긴장 4가지 상태로 분류하고, 셀의 현 상태를 자동으로 캡처하고 예상치 못하게 셀 outage를 추정하기 위해 Hidden Markov Model(HMM)기반 솔루션을 제안했다[15].

Chernov 등은 Random Access CHannel 실패로 인한 sleeping 셀 검출에 데이터 마이닝 프레임워크를 제시했다[16]. 우선 사용자 데이터를 수집하고 처리하며, PCA와 MCA로 차원을 축소했다. 그리고 우선 k-NN 비정상 검출 알고리즘을 적용하여 데이터 세트에서 outlier sub-call을 추출하고, 알고리즘으로 각 셀에 sleeping 셀 점수를 할당한다. 점수가 높을수록 셀이 sleeping 상태에 있을 가능성이 높다.

Chernogorov 등은 망 내에 sleeping 셀을 검출하고 그 위치를 파악하기 위해 Diffusion Map(DM)을 차원 축소 기술이 아니라 비정상 검출을 위한 분류도구로 사용했다[17]. DM은 새로운 임베디드 공간에서 비선형 데이터 세트를 선형으로 변환할 수 있으므로 분류 도구로도 사용될 수 있다고 주장했다. 비정상 검출 후, 모든 셀의 서비스 지도를 결정함으로써 그들의 위치를 결정하는 방법을 개발했다. 그리고 생성된 서비스 맵에 따라 비정상이 매핑되고 문제가 있는 셀을 식별했다.

Ⅳ. 기계학습기반 결함 진단

이 장에서는 Ⅱ장의 자가 치유 프레임워크 중 결함 진단에 ML을 적용한 연구 사례를 분석 정리하였다.

Barco 등은 2005년 GSM/GPRS에서 자동화 결함 진단 방법으로 알람과 KPIs를 고려한 추론 엔진과 지식기반 모델을 제안했다[18]. 첫 단계로 알람과 KPIs 기반으로 성능이 저하된 셀을 식별하고, 둘째 단계에서 문제 원인을 찾고, 마지막 단계는 특정 조치를 실행하여 문제해결을 시도한다는 것이다. 추론 엔진으로는 Bayes 규칙을 사용하여 모든 가능한 원인을 계산하는 naive Bayesian 분류기를 사용했다. 이 분류기가 필요로 하는 지식기반 모델(연속 혹은 이산 확률밀도분포)로 정성적 진단 모델과 요소 간 관계를 형성하는 정량적 진단 모델의 두 가지 요소로 구성했다.

정성적 진단 모델은 원인(간섭, 커버리지, 하드웨어, 전송링크 결함 등), 증상(Dropped call, 품질과 수준, 핸드오버 등의 KPI와 on/off 알람)과 조건(기능과 구성)의 세 가지 요소 모두 랜덤변수로 모델링했다. 원인과 조건은 이산 랜덤변수, 증상은 연속 랜덤변수(KPI) 또는 이산 랜덤변수(알람)이다.

정량적 진단 모델에는 주어진 조건과 문제에 대한 각 원인의 확률, 주어진 각 원인에 대한 증상의 확률밀도함수, 주어진 조건에서 알람의 확률밀도함수가 필요하다. 그런데 알람 데이터가 모델 학습에 필요한 정보가 충분하지 않아서 전문가 지식을 기반으로 했다. KPI는 연속 랜덤변수이므로 KPI에 대한 조건 확률밀도함수 정의가 매우 복잡하여 전문가 도움을 받기 위해 이산화했다. 해석 과정을 통해 진단 모델에서 주어진 원인에 대한 모든 증상의 확률밀도함수는 모든 확률의 조합 혹은 베타 밀도 함수로 근사화됨을 보여주었다.

Khanafer 등은 Bayesian 방법을 사용해서 3G에서 자동 진단 방법을 제안했다[19]. 이 방법은 naive Bayesian 분류기를 사용하며, 진단 모델 성능 향상을 위해 Entropy Minimization Discretization(EMD)를 사용하여 입력 증상의 이산화를 위한 최적 세그먼트를 선택했다. 그리고 진단 모델을 실제 3G 망에 적응시키기 위해 O&M으로 복원된 카운터와 KPI를 사용했다.

사업자나 사용자에게는 실내 펨토셀 망 구성 시 발생되는 문제 진단이 중요하지만, 상대적으로 적은 사용자가 있는 실내 펨토셀에서 발생되는 데이터가 적고, 잘 계획된 셀룰라 망과 달리 펨토셀 토폴로지가 매우 역동적이어서 과거 데이터를 사용하기 어려운 문제가 있다. Wang 등은 펨토셀 망 구성에서 진단 모델의 정확성을 높이기 위해 다른 펨토셀 데이터를 활용하여 추가 진단 지식을 추출하는 전이 학습(TL: Transfer Learning)기반 프레임워크를 제안했다[20]. 전통적 진단 방법은 데이터 부족 문제로 펨토셀 망에 적용할 수 없으므로 TL을 사용하여 다른 펨토셀의 과거 데이터를 활용하여 문제를 해결하자는 것이다. 그리고, 펨토셀이 설치되는 무선 환경이 달라서 전통적인 TL 기술을 적용할 수 없으므로 Cell-Aware Transfer(CAT)라는 새로운 모델을 제안했다. 이 기법은 두 개의 분류기를 훈련한 후, 각 분류기를 진단 모델에서 유권자로 취급하고, 최종 진단은 가장 많은 표를 얻은 분류기로 했다.

Gómez-Andrades 등은 무선접속 구간에서 문제를 신속하게 감지하고 해결하기 위한 솔루션으로 셀 추적 기능과 MDT로 자동 수집된 시그널링 메시지, 무선 측정값 그리고 위치 정보를 이용하여 각 셀의 RF 상태를 자동 진단하는 방법을 제안했다[21]. 이 방법을 사용하면 RF 상태의 평가를 기반으로 RF 문제를 정확하게 찾을 수 있음을 보여주었다. 모바일 추적으로 큰 데이터 세트를 구성하며, 분석은 빅데이터 분석 기술을 사용했다. 모바일 추적은 분석할 대량의 데이터와 각 셀의 RF 조건에 대한 기록이 부족하므로 비지도 ML인 SOM을 사용하여 데이터를 분석했다. 그리고 SOM 출력을 셀 수준에서 집계해서 셀의 RF 조건을 분석했다.

Ⅴ. 기계학습기반 Outage 복구

이 장에서는 Ⅱ장의 자가 치유 프레임워크 중 결함 복구에 ML을 적용한 연구 사례를 분석 정리하였다. outage 관리에서 매우 인기 있는 알고리즘으로 피드백 컨트롤러가 있다. 대부분의 방법은 인접 셀의 커버리지를 조정하고 시스템 내 outage 셀의 영향을 최소화하는 특정 메커니즘을 트리거하여 outage 복구 문제를 해결하는 것을 목표로 송신 전력과 안테나 down-tilt 각도 조정하는 것이다. 이동통신망에서 사용자는 임의의 방향과 임의의 속도로 움직이고 무선채널의 페이딩·섀도잉·경로 손실 등 채널 영향으로 통신 환경이 매우 역동적이다. Moysen 등은 이 역동적 환경에서 식별된 outage 영역에서 용량과 커버리지 갭의 복구 방법으로 변동이 심한 주변 환경과 적응적으로 상호작용할 수 있는 Temporal Difference(TD) 학습과 RL기반으로 송신 전력과 안테나 down-tilt 각도를 자동 조정했다[22]. 커버리지를 확장하는 주변 LTE eNB들에 의해 생성될 수 있는 섹터 간 간섭을 피하기 위해, AC 알고리즘은 FFR을 고려하여 outage 영역에 할당된 사용자들에게 특정 대역폭을 할당했다.

Cell Range Expansion(CRE)은 셀 경계 throughput과 전체 네트워크 throughput 향상을 위해 피코셀 전송 전력을 증가시키는 반면 피코셀 수신 전력에 바이어스 값을 추가해서 피코셀 범위를 사실상 확장하는 부하 밸런싱 기술이다. 즉, CRE는 피코셀에서 매크로셀로의 부하를 분산시켜 가입자 outage 수를 줄일 수 있다. Kudo 등은 Q-learning 알고리즘을 사용하여 각 가입자가 가입자 outage 수를 독립적으로 줄이기 위해 어떤 셀에 서비스 요청을 보내야 하는지 과거의 경험으로부터 학습해서 셀을 선택하는 방식을 제안했다[23]. 이 방법은 각 가입자가 바이어스값이 아닌 연결될 셀을 CRE와 직접 선택하여 필요한 메모리 크기를 줄이고 더 빨리 수렴하는 방식이다.

Saeed 등은 인접 셀의 안테나 재구성과 전력 보상으로 커버리지를 최적화해서 커버리지 갭을 채우고 사용자에 대한 QoS를 개선하는 장애 셀 복구 프로세스로 RL과 결합된 Fuzzy 컨트롤러를 이용하여 안테나 down-tilt만 혹은 송신 전력만 조정하거나 둘 다 조정하는 방법을 연구했다[24]. 이렇게 재 구성된 파라미터의 올바른 선택은 퍼지 논리 제어 및 강화 학습과 관련된 프로세스를 통해 결정된다.

Ⅵ. 결론

본 고에서는 기존 세대와 달리 다양한 무선전송 기술이 추가된 HetNets 시나리오에서 동작해야 하는 5G에서 고품질 서비스를 저렴하게 효과적으로 제공하기 위해 다시 주목을 받는 SON 기술 중에서 ML기술 기반의 자가 치유 연구동향을 분석 정리하였다. 자가 치유 기술은 데이터 수집, 결함 검출, 결함 진단, 결함 복구 과정으로 이루어진 자가 치유 프레임워크을 정의하고 있으며, 이를 자동화하기 위하여 머신러닝과의 결합된 연구가 활발히 진행 중임을 알 수 있었다. 자가 치유는 망 결함이 미칠 수 있는 영향을 감지하고 완화하는 중요한 역할을 담당해서 자가 최적화와 함께 가장 많이 연구된 분야 중 하나임에도 불구하고 여전히 개선의 여지가 있음을 확인했다.

향후 이동통신망은 결함과 비정상을 예측해서 실제 상황 발생 전에 필요한 조치를 취하는 proactive 시나리오로 전환될 것으로 예상된다. 따라서 자가 치유 관점에서 사전 대응 패러다임으로 전환하기 위해서 우선 ML기반 자가 치유 프레임워크를 설계하고, 운영 전문가가 보유한 데이터와 이동 통신망에서 수집된 측정 데이터를 기반으로 검출된 결함, 검출된 결함에 대한 진단, 그리고 그 진단에 대한 outage 복구에 적합한 ML을 선택하기 위한 연구개발이 필요하다.

약어 정리

Back-Propagation

CRE

Cell Range Extension

Diffusion Map

HetNets

Heterogeneous Networks

HMM

Hidden Markov Model

k-NN

k-Nearest Neighbor

KPI

Key Performance Indicator

LOFAD

Local Outlier Factor based Anomaly Detector

MCA

Minor Component Analysis

MDS

Multi-Dimensional Scaling

MDT

Minimization of Drive Test

Machine Learning

Neural Network

OCSVMD

One Class Support Vector Machine based Detector

O&M

Operation & Management

PCA

Principal Component Analysis

Q-Learning

RAT

Radio Access Technology

Reinforcement Learning

SOM

Self-Organizing Map

SON

Self-Organizing Network

SVM

Support Vector Machine

Transfer Learning

참고문헌

[1] R. Barco et al., "A unified framework for self-healing in wireless networks," IEEE Commun. Mag., Dec. 2012, pp. 134-142.

[2] O. Onireti et al., "A cell outage management framework for dense heterogeneous networks," IEEE Trans. Veh. Technol., vol. 65, no. 4, Apr. 2016, pp. 2097–2113.

[3] A. Imran et al., "Challenges in 5G: How to empower SON with big data for enabling 5G," IEEE Netw., vol. 28, no. 6, Nov./Dec. 2014, pp. 27–33.

[4] U. S. Hashmi et al., "Enabling proactive self-healing by data mining network failure logs," in Proc. Int. ICNC, Santa Clara, CA, USA, Jan. 2017, pp. 511–517.

[5] P. Szilágyi et al., "An automatic detection and diagnosis framework for mobile communication systems," IEEE Trans. Netw. Service Manag., vol. 9, no. 2, Jun. 2012, pp. 184–197.

[6] S. Nováczki, "An improved anomaly detection and diagnosis framework for mobile network operators," in Proc. 9th Int. Conf. DRCN, Budapest, Hungary, 2013, pp. 234–241.

[7] G. F. Ciocarlie et al., "Detecting anomalies in cellular networks using an ensemble method," in Proc. 9th Int. CNSM, Zürich, Switzerland, Oct. 2013, pp. 171–174.

[8] W. Xue et al., "Classification-based approach for cell outage detection in self-healing heterogeneous networks," in Proc. IEEE WCNC, Istanbul, Turkey, Apr. 2014, pp. 2822–2826.

[9] W. Wang et al., "COD: A cooperative cell outage detection architecture for self-organizing femtocell networks," IEEE Trans. Wireless Commun., vol. 13, no. 11, Nov. 2014, pp. 6007–6014.

[10] Q. Liao et al., "Network state awareness and proactive anomaly detection in self-organizing networks," in Proc. IEEE Globecom Workshops, San Diego, CA, USA, Dec. 2015, pp. 1–6.

[11] W. Feng et al., "Cell outage detection based on improved BP neural network in LTE system," in Proc. 11th Int. Conf. WiCOM, Shanghai, China, Sep. 2015, pp. 1–5.

[12] A. Zoha et al., "Data-driven analytics for automated cell outage detection in self organizing networks," in Proc. 11th Int. Conf. DRCN, Kansas City, MO, USA, Mar. 2015, pp. 203–210.

[13] S. Chernov et al., "Location accuracy impact on cell outage detection in LTE-A networks," in Proc. IWCMC, Dubrovnik, Croatia, Aug. 2015, pp. 1162–1167.

[14] A. Zoha et al., "A learning-based approach for autonomous outage detection and coverage optimization," Trans. Emerg. Telecom. Technol., vol. 27, no. 3, 2016, pp. 439–450.

[15] M. Alias et al., "Efficient cell outage detection in 5G HetNets using hidden Markov model," IEEE Commun. Lett., vol. 20, no. 3, Mar. 2016, pp. 562–565.

[16] S. Chernov et al., "Data mining framework for random access failure detection in LTE networks," in Proc. IEEE 25th Annu. Int. Symp. PIMRC, Washington, DC, USA, 2014, pp. 1321–1326.

[17] F. Chernogorov et al., "Detection of sleeping cells in LTE networks using diffusion maps," in Proc. IEEE 73rd VTC Spring, Yokohama, Japan, May 2011, pp. 1–5.

[18] R. Barco et al., "System for Automated Diagnosis in Cellular Networks based on Performance Indicators," European Trans. Telecommun., vol. 16, no. 5, 2005, pp. 399–409.

[19] R. M. Khanafer et al., "Automated diagnosis for UMTS networks using Bayesian network approach," IEEE Trans. Veh. Technol., vol. 57, no. 4, Jul. 2008, pp. 2451–2461.

[20] W. Wang et al., "Transfer learning based diagnosis for configuration troubleshooting in self-organizing femtocell networks," in Proc. IEEE GLOBECOM, Houston, TX, USA, 2011, pp. 1–5.

[21] A. Gómez-Andrades et al., "Data analytics for diagnosing the RF condition in self-organizing networks," IEEE Trans. Mobile Comput., vol. 16, no. 6, Jun. 2017, pp. 1587–1600.

[22] J. Moysen et al., "A reinforcement learning based solution for self-healing in LTE networks," in Proc. IEEE 80th Veh. Technol. Conf. (VTC Fall), Vancouver, BC, Canada, Sep. 2014, pp. 1–6.

[23] T. Kudo et al., "Q-learning based cell selection for UE outage reduction in heterogeneous networks," in Proc. IEEE 80th VTC Fall, Vancouver, BC, Canada, 2014, pp. 1–5.

[24] A. Saeed et al., "Controlling self-healing cellular networks using fuzzy logic," in Proc. IEEE WCNC, Shanghai, China, Apr. 2012, pp. 3080–3084.