ettrends banner

장수민 (Jang S.M.) 고성능컴퓨팅시스템연구실 선임연구원
안백송 (An B.S.) 고성능컴퓨팅시스템연구실 선임연구원
온진호 (On J.H.) 고성능컴퓨팅시스템연구실 선임연구원
이병규 (Lee B.G.) 고성능컴퓨팅시스템연구실 연구원
전성익 (Jun S.I.) 고성능컴퓨팅시스템연구실 책임연구원

I. 서론

에너지 효율성 컴퓨팅 기술이란 IT시스템 운용 시 사용자로 하여금 에너지 사용 상태를 정확히 인지 및 식별할 수 있도록 함으로써 이를 토대로 에너지 제어를 통한 결과를 예상할 수 있도록 하며 에너지절감 유도까지 가능하게 하는 기술이다. 이는 단순 전력 사용량 측정을 넘어서 시스템 운용 전반에 걸쳐 에너지 사용량 정보를 인지하여 동작하도록 함으로써 성능 및 에너지 효율화를 도모하는 것을 목적으로 한다.

최근 IT시스템의 고성능화 및 대용량화에 따른 에너지 사용량은 지속해서 증가하고 있으며, 이에 대한 해결 방안으로 하드웨어 수준의 전력절감 기능은 이미 상당한 수준에 도달하였음에도 불구하고 이러한 하드웨어를 지원하여 에너지 효율을 향상 가능한 소프트웨어의 기술은 아직 개선해야 할 부분이 적지 않다. 또한, 시장조사기관 Gartner의 자료에서는 2014년부터 향후 몇 년간 서버 관련된 에너지 소비는 꾸준히 연간 15%씩 증가할 것으로 예상한다. 이처럼 국내외적으로 IT부문의 에너지 효율화를 위한 Green IT기술에 대한 요구가 급증하고 있으며, 이에 따라 막대한 전력을 소비하는 데이터센터 내의 서버 에너지 사용량을 절감하기 위한 초저전력 서버 시스템의 개발요구 또한 급증하고 있다. 이러한 시대적 요구에 따라 에너지 효율성 관련 컴퓨팅 기술에 관한 특허 및 표준화 활동으로 미국이 주도적으로 기술개발에 박차를 가하고 있으며 많은 원천 특허를 보유하고 있는 상태다. 국내에서도 연구기관 및 기업체에서 많은 기술개발이 꾸준히 이루어지고 있으며 국내외 관련 IT기업들은 관련 기술개발에 매년 투자비를 증대하고 있다.

본고의 구성은 Ⅱ장에서는 에너지 효율성 관련 컴퓨터 기술에 대한 시장동향에 대하여 언급하고 Ⅲ장에서는 에너지 효율화 관련 기술에 대한 특허 및 표준화 동향을 기술한다. 그리고 Ⅳ장에서는 에너지 효율성 관련 컴퓨팅 기술들로 에너지 인지 운영체제, 저전력 서버플랫폼 기술, 에너지 실측 기술, 동적 에너지절감 기술, 전력제한(Power Capping) 기술, 에너지 효율성 측정 기술에 대한 동향을 기술하고, 마지막으로 Ⅴ장에서는 본고의 결론과 향후 기술동향을 제시한다.

Ⅱ. 데이터센터 에너지 효율성 관련 동향

인텔의 2013년 자료에 따르면, 전체 설치된 물리서버 중 4년이 지난 제품들은 32%를 차지하며, 4년 이상된 서버들이 전체서버 성능에서 총 4%의 퍼포먼스를 담당하면서 전체 에너지 사용량의 65%를 소모하고 있는 것으로 분석하였다.

따라서, (그림 1)과 같이 전체 에너지 사용 증가량보다 데이터센터의 에너지 소모 증가량이 급증하고 있는 상황에서 데이터센터의 IT기기들을 효율이 좋은 최신 제품으로 교체하는 것은 가장 효과적인 방법으로 제안되고 있다.

데이터센터에서 에너지의 소모가 생산에 얼만큼 사용되었는지에 대한 지표인 에너지 생산성은 다음과 같은 식에 의해 계산된다.

(그림 1)
데이터센터 에너지 사용량 전망

에너지 생산성 = Server Utilization * Power Usage Effectiveness(PUE) * Power Supply Efficiency(PSE)

PUE는 데이터센터에서 사용된 총 에너지 사용량 중 IT기기를 위해 사용된 에너지 비율을 의미하며, PSE는 전원 장치의 AC-DC 변환 효율, 그리고 서버 사용률은 CPU, Memory, I/O 등의 사용률로 계산된 전체 사용률을 의미한다.

(그림 2)는 PSE만 증가시켰을 경우, PUE만 증가시켰을 경우, 그리고 서버 사용량을 증가시켰을 경우의 에너지 생산성을 나타낸다. PUE가 2.0, PSE가 65%인 경우 서버 사용량이 7%이면 에너지 생산량은 3%로 이는 100W의 전력이 소비되면 이 중 3W만이 생산적인 에너지로 소비되었음을 의미한다.

(그림 2)
에너지 생산성 분석

(그림 3)은 데이터센터 운용 시 지출된 내역을 각 항목에 따라 분류한 것으로 새로운 서버를 구입하기 위해 지출한 비용은 조금씩 감소하고 있지만, 전력과 쿨링을 위해 지출하는 비용은 해마다 증가하고 서버관리와 관리자들을 위해 지출하는 비용은 매우 큰 폭으로 증가되고 있는 추세이다.

(그림 3)
서버운용 지출비용 추이[1]

새로운 서버의 구입비용 중 물리적 서버 구입비용은 2007년을 기점으로 일정하게 유지되고 있지만, 가상 서버에 대한 지출은 매우 큰 폭으로 증가되고 있는 것으로 분석됐다.

에너지 생산성을 높이기 위한 최적의 방법은 구기종을 최대한 에너지 효율이 높은 최신 제품으로 교체하고 현재 50~70%에 맞먹는 비중으로 사용 중인 쿨링과 같은 부가적인 에너지 소모를 최대한 줄이는 것이다. 또한, 사용 목적에 맞는 다양한 서버(저전력 고집적 저성능의 서버로부터 고집적 고성능의 서버)들을 가상화 기술을 기반으로 최대한 활용하여 서버 사용량을 높이는 것이 효율성을 높이기 위한 가장 확실한 방법으로 제안되고 있다. 이와 같은 이유로 (그림 3)에서 물리서버에 비해 논리서버에 대한 지출비용이 급증하고 있다.

Microserver는 서버를 사용목적에 따라 분류하고 해당 목적에 따라 최적화시켜 서버 사용률을 극대화하고 공간 제약을 극복하여 PUE를 높이기 위한 기술로 (그림 4)와 같이 해마다 매출이 급증하고 있고, 앞으로도 꾸준히 증가할 것으로 예측된다.

(그림 4)
Microserver 매출 추이[2]

데이터센터의 비효율적인 지출 비용을 줄이고 에너지 생산성을 높이기 위해 다음과 같은 기술들이 연구되고 있다.

높은 성능을 지원하고, 데이터 저장공간 활용도를 높이는 고효율을 지원하는 ‘고집적서버’.

  • - 이를 효율적으로 이용하기 위한 Software Defined Anaything/Everything(SDx)

  • - 이를 운용하는 Energy Management System(EMS)을 통한 Extreme Low Energy(ELE) Server

ELE서버는 에너지 최적화를 위한 하드웨어/가상화/소프트웨어 전체 기술을 포함한다. 가트너의 2014 자료에서는 ELE서버 기술을 현재 태동기의 상태에서 거품기로 넘어가고 있으며, 향후 5년에서 10년 사이에 실현될 수 있는 기술로 정의하고 있다.

또한, SDx를 통해 시스템 전체가 비즈니스의 요구사항에 발 빠르게 대처 가능한 형태인 유동적인 통합 시스템으로 전환되고 있으며, 이를 지원하기 위한 정책 기반의 자동화 기술인 chef, puppet 등의 SW자동화 기술이 두드러지고 있다.

이러한 데이터센터의 흐름으로 인해 에너지 효율성 관련 기술들을 에너지 생산성의 관점으로 재해석하고 기술 선점을 위한 핵심기술을 빠르게 확보해야 할 것으로 판단된다.

Ⅲ. 특허 및 표준화 동향

1. 관련 기술 특허 동향

에너지 효율화 관련 기술의 경우, 한국은 2005년 에너지 및 전기절감을 위하여 ‘Standby Korea 2010’ 대기전력 프로그램으로 그린IT를 시작하였으며, 정부의 정책에 힘입어 에너지 효율적인 IT기술에 대한 관심이 급증하였다.

한국에 출원된 특허의 경우, IT부분의 에너지 효율화 관련 특허는 절전기기 및 시스템과 클라우드 컴퓨팅 시스템에 관한 특허의 건수가 많은 수를 차지하고 있다. 전 세계적으로는 최근 5년간 지구 온난화 등에 따른 각국의 에너지절감 정책에 따라 전력절감의 대상이 모바일 기기에서 데이터센터 등 서버 및 컴퓨팅 분야로 확대되어 출원된 특허의 수가 증가하였다.

<표 1>은 IT에너지 효율화 관련 기술에 대하여, 국가별로 비교 분석한 것이다. 표를 보면 한국은 주로 그린IDC센터에 필요한 전력 공급 및 공조, 저전력서버 및 저전력 컴퓨팅 기술, 컴퓨팅 에너지 소모 최적화 기술 등에 특허를 출원하고 있다. 주로 그린IDC 관련 특허는 KT가 주도적으로 기술개발 및 특허를 출원하고 있으며 그 외의 기술들은 ETRI 및 대학 연구소에서 소수의 특허를 출원하고 있는 상태다. 대부분의 기술은 미국이 주도적으로 기술개발에 박차를 가하고 있으며 많은 원천 특허를 보유하고 있는 상태다. 특히 IBM의 경우 그린IT 기술개발에 매년 10억달러를 투자하고 있으며, 그 외 Intel과 HP 같은 서버 제조업체부터 Google이나 Facebook같이 서비스를 제공하는 업체들이 에너지 효율화 기술에 적극적으로 투자하고 있는 상태다.

<표 1>
국가별 에너지 효율화 관련 주요 특허 기술분야

2. 관련 기술 표준화 동향

국내에서의 에너지 효율화 관련 기술에 관한 표준화는 과거 그린IT를 시작으로 하여, IT의 녹색화, IT 기반 녹색 성장 기반구축, 그린IT 기반조성 등을 3대 정책 방향으로 ‘그린IT 산업 전력’을 2009년부터 시작했다. 특히 컴퓨팅 관련 에너지 효율화 기술에서는 그린IDC를 위한 표준화 작업들이 꾸준히 진행됐고 국제 표준화 작업에도 참여하고 있다. 그 결과로 2012년부터는 그린 데이터센터 인증제를 시행하고 있다. 그러나 국내에서는 주로 그린IDC를 위한 기술만이 연구되어왔으며, 데이터센터뿐만 아니라 에너지 효율 향상 기술 및 에너지 관련 등급 측정 기술과 같이 IT기기의 전 범위에 사용 가능한 기술들에 대한 표준화 작업은 진행이 미비한 상황이다.

반면, 국제 표준화는 세계적으로 에너지에 대한 관심이 커지면서 International Telecommunication Union(ITU), International Organization for Standardization(ISO) 등 표준화 기관에서 표준화 작업을 진행하고 있다. ITU-T에서는 Study Group 5(SG5)를 Lead Study Group(LSG)로 지정하고, Q17을 중심으로 에너지 효율화 경향과 용어의 표준화, 에너지 메트릭 및 측정 관련 표준화 등을 진행하고 있다[3]. ISO 역시 50001:2011 및 ISO 50003:2014 등으로 에너지 관리 시스템에 대한 표준화를 진행하였으며[4], 에너지 관리 시스템에 대한 인증을 시행하고 있다. European Computer Manufacturers Association(ECMA)에서는 ECMA-383을 통하여 개인 컴퓨팅 제품에 대하여 에너지 소모 측정에 대한 표준을 진행하고 있다. 그 외에도 Internet Engineering Task Force(IETF)는 Energy Management(EMAN)을 통하여 에너지 효율을 위한 컴퓨팅 기술에 관한 표준화를 진행하고 있으며[5], 벤치마크 표준화 단체인 Spec.org에서는 SPECpower를 통하여 기존의 성능 위주의 벤치마킹이 아닌 에너지 효율 향상 기술에 대한 서버 벤치마킹을 출시하였다. 또한, 국제 표준화 단체 이외에도, 국가별로 미국의 Energy Star는 IT기기 전 범위에 걸쳐 에너지 효율 등급을 정하고, 에너지 효율 등급을 의무화 하고 있다. 다음 <표 2>는 각 표준화 단체에서 진행하고 있는 표준화 작업에 대하여 정리해 놓은 것이다.

<표 2>
표준화 단체별 표준화 작업

Ⅳ. 에너지 효율성 관련 컴퓨팅 기술

에너지 효율성 관련 컴퓨팅 기술은 에너지 사용량을 정확히 측정, 인지 및 관리하여 낭비되는 에너지를 줄이고 에너지 대비 성능을 극대화하는 것을 목적으로 하며, 기술개발 시 다음과 같은 사항을 고려한다.

  • - 최소한의 부하로 에너지 실측을 통한 에너지 인지 및 사용자 인터페이스 기능 제공

  • - 시스템 및 장치 수준 대기 전력절감을 통한 에너지 낭비 최소화

  • - 새로운 에너지 메트릭(전력 대비 성능) 정의를 통한 효율성 평가

  • - 전력 대비 성능개선을 통한 동적 에너지 효율화

    서버 환경에서의 정확한 에너지 인지를 위해서는 다음과 같은 기술이 필요하다.

  • - 전력/에너지 효율화에 최적화된 서버 하드웨어 플랫폼 기술

  • - 에너지 실측(전력 소모량, 온도 변화량, 전류 사용량 등) 및 모니터링 기술

  • - 에너지 인지 운영체제 및 가상화 기술

1. 에너지 인지 운영체제 및 가상화 하이퍼바이저 기술동향

에너지 인지 운영체제 기술은 상술한 에너지 실측데이터를 기반으로 이를 고려하여 시스템을 운용함으로써 에너지절감을 도모하는 기술로, 변화하는 시스템 부하 상황에 적응적으로 대응하여 전력/에너지 소모량 대비 성능을 최대화할 수 있도록 지원한다.

에너지 실측 하드웨어를 통해 측정된 소모량 정보는 스케줄링, 가상메모리 관리, 타이머 관리 등 운영체제 내부 기능 수행 시 함께 고려되어 작동한다. 그뿐만 아니라, 미들웨어, 라이브러리, 에너지 인지 사용자 응용 프로그램을 위한 프로그래밍 인터페이스(API)를 제공함으로써 효율적인 에너지 인지 컴퓨팅 환경을 구축한다. (그림 5)는 에너지 인지 운영체제의 구조를 나타낸 것으로, 기존 운영체제가 제공하는 기능에 추가하여 에너지 인지 컴퓨팅에 필요한 기능을 제공하는 형태로 구성된다.

(그림 5)
에너지 인지 운영체제 구조

서버 가상화 기술의 핵심은 단일 시스템에 하이퍼바이저를 통해 여러 개의 가상 머신을 작동하게 하는 통합(Consolidation)기술로, 이 자체만으로도 물리서버 구동을 최소화함으로써 에너지절감 효과를 기대할 수 있으나, 절감효과를 개선하기 위해서는 보다 본격적으로 에너지 인지기능을 고려한 가상화 기술설계가 필요하다. 가상화 환경에 반영될 수 있는 운영체제 수준 에너지 인지기술은 크게 두 부분으로 나눌 수 있다. 먼저 하이퍼바이저에 에너지 인지기능을 추가함으로써 가상 머신의 자원 관리, 하드웨어 자원 가상화 등의 작업 수행 시 에너지 정보를 고려하여 효율을 개선할 수 있으며, 두 번째로 게스트 운영체제에 에너지 인지기능을 반영하여 가상화된 장치 및 자원을 에너지 효율을 고려하여 사용 및 관리할 수 있다[6].

2. 저전력서버 플랫폼 기술동향

기존 데이터센터용 서버 시장의 대부분은 인텔 x86 아키텍처 기반 제온(Xeon)서버 플랫폼이 차지하고 있을 정도로 인텔의 점유율은 독보적이었다. 이러한 인텔의 독주는 타의 추종을 불허할 만한 압도적인 성능 덕분이나, 동일 성능 대비 서버 운용비용 및 성능향상에 따른 공감 점유증대로 인해 성능 및 에너지 효율 면에서 서서히 한계를 드러내기 시작하였다. 인텔 기반 서버는 강력한 성능을 보여주는 대신 전력 및 에너지 소모량 또한 상당한 수준인 관계로, 최신 클라우드, 빅데이터 처리, 메모리 캐쉬서버 등 CPU 성능뿐만이 아닌 메모리 및 입출력 성능을 모두 고려해야 하는 부하 상황에는 에너지 효율 측면에서 불리하게 되었다.

이에 대응하여 등장한 ARM 기반 저전력서버 기술은 전통적인 인텔 기반 x86 서버보다 전력 소모량, 공간 측면에서 더욱 효율적인 서버 제작이 가능한 기술로, 인텔 CPU보다 절대성능은 떨어지지만, 전력 및 발열 측면에서 압도적으로 우세한 ARM 기반 CPU를 탑재하고 작은 공간에 최대한 많은 수의 서버 모듈을 집적하여 처리율(Throughput)을 높임과 동시에 높은 입출력성능을 도모하는 구조로 설계되어 있다. 2011년 칼제다(Calxeda)는 ARM Cortex-A9 쿼드코어 기반 서버용 System-on-Chip(SoC)인 EnergyCore를 출시하였다. 서버 부하에 적합하도록 공유 L2 캐시 크기를 대폭 늘리고 10GB 이더넷 어댑터 및 네트워크 패브릭을 내장함으로써 고집적 형태의 서버제작이 용이하도록 설계되었다. 인텔서버 대비 약 1/3 수준의 비용으로 운용 가능한 서버임을 강조하였으나 지나치게 열악한 코어 성능, 64비트 주소처리 등 여러 가지 한계로 인해 시장에서 성공하지는 못하였다.

2015년 현재 64비트 기반 ARM 서버용 SoC는 AppliedMicro, AMD, 그리고 Cavium에서 출시되고 있다. 기존 32비트 ARM이 가진 한계점을 극복함과 동시에 서버운용에 필요한 제반 기능(관리 기능, 하드웨어 가상화 등)을 지원하고, 기존 인텔서버에 비해 우월한 전력 소모량, 에너지 대비 성능 효율성을 강조하고 있다. HP에서는 자사의 고집적서버 플랫폼인 Moonshot에 AppliedMicro의 X-Gene SoC를 탑재하여 사용할 수 있도록 제품을 출시하고 있으며[7], Dell 또한 AppliedMicro의 SoC 기반 ARM서버 출시를 고려 중이다. 그뿐만 아니라, 64비트 ARM용 리눅스 커널, 배포판, 클라우드(OpenStack) 및 가상화 하이퍼바이저(Xen, KVM, Container) 등 기본적으로 필요한 소프트웨어 생태계 또한 이미 구축되어 있으며, 시장개척 및 진입을 위한 만반의 준비를 마친 상황이다.

3. 에너지 실측 기술동향

에너지 인지 컴퓨팅을 위해 첫 번째로 고려되어야 할 사항은 현재 시스템의 각 장치에서 소모되고 있는 전력 및 에너지 정보를 정확히 파악 가능한 에너지 실측 기술이다. 시스템 내부의 컴포넌트별 에너지 소모량을 측정함으로써 현재 시스템에 가해진 부하의 특성을 정확히 파악할 수 있으며, 이를 기반으로 에너지 소모량절감 및 예측이 가능해진다.

가. 전력 계측기(Digital Power Meter)

시스템의 전력 및 에너지 사용량을 측정하는 가장 기본적인 방법은, 시스템의 Power Supply Unit(PSU) 직전에 전력 계측기(Digital Power Meter)를 연결함으로써 실시간으로 전력 값을 측정하는 것이다. Yokogawa, ZES Zimmer 등 전문 업체에서 높은 정확도를 보여주는 계측기를 제작 및 공급하고 있으나 제품의 크기 및 무게가 상당한 수준이라 대규모의 서버를 운용하는 상황에 적합하지 않고, 무엇보다 가격대가 대단히 높아 경제적인 측면에서 한계가 있다.

나. 내장 전력 측정센서

최근 출시되는 서버 중 상당수는 전력 측정센서를 내장하여 시스템 전력 소모량을 자체적으로 측정할 수 있도록 지원하고 있다. Cisco, Intel, Dell 등 서버 벤더들은 자체적으로 측정되는 시스템 전력 소모량을 자체 관리 솔루션 또는 IPMI 등 표준 관리 인터페이스를 통해 측정 및 관리할 수 있도록 지원하고 있다. 별도의 장비 지출 없이 측정할 수 있지만 외장 계측기보다 정확도 측면에서 떨어지고 측정 데이터 전송 지연(delay)으로 인해 실시간 전력소비 상황을 정확히 파악하기 힘들다는 한계가 있다.

다. RAPL

시스템 내부의 컴포넌트/장치별 전력 및 에너지 소모량을 파악하기 위해서는 장치별 실측 기능이 필요하다. 인텔은 자사의 CPU 및 메모리의 전력 및 에너지 소모량을 별도의 전력센서 없이도 측정 가능한 Running Average Power Limit(RAPL) 기능을 샌디브릿지 이후 제품에 탑재하여 출시하고 있다.

라. PMIC

서버용 CPU의 경우 CPU의 컴포넌트별(Package, Core, Uncore) 에너지 소모량 및 메모리(DRAM) 에너지 소모량을 실시간으로 측정할 수 있도록 HW 수준 명령어를 제공하고 있다. 또한, 별도의 Power Management IC(PMIC) 칩을 시스템에 내장하여 장치별 전력 소모량을 측정 가능한 시스템이 출시되고 있다. 이렇게 하드웨어를 통해 측정된 전력/에너지 실측데이터는 일반적으로 I2C 버스를 통해 PMBus[8] 프로토콜을 사용하여 소프트웨어 수준에서 인지 및 사용할 수 있도록 처리된다.

4. 동적 에너지절감 기술동향

모바일과 임베디스 시장을 위한 ARM 플랫폼에서는 통일된 방식이 아닌 개발된 하드웨어에 특화된 다양한 방법으로 시스템의 전력을 관리해왔다. 하지만 서버를 위한 고성능의 SoC들이 개발되고 이를 기반으로 한 고집적 저전력서버 플랫폼이 개발되면서, 기존 x86 시스템과 같은 통일된 아키텍처와 이를 위한 전력 관리 방법의 필요성이 대두되었다.

기존 U-Boot에서의 Flattened Device Tree(FDT)기반 방식은 개발되는 각 하드웨어에 따라 독립적으로 개발되고 적용되어야 하므로 동일한 방식으로 서버 플랫폼에 적용하기에는 많은 문제점이 존재하였다. 이러한 문제를 해결하기 위해 x86과 같은 방식으로 Advanced Configuration and Power Interface(ACPI)를 사용할 수 있도록 UEFI를 ARM SoC에 적용하는 방식이 제안되었다. 현재 AArch64 아키텍처를 지원하는 SoC들은 Tia-nocore UEFI bootloader[9]를 통해 ACPI를 지원한다.

가. 동적 CPU 에너지절감 기술

현재의 서버 플랫폼들은 대표적으로 CPU frequency scaling, CPUIdle 기법들을 통해 동적 에너지절감을 수행한다.

1) CPU frequency scaling

ACPI events나 user-space상의 사용자 프로그램에 의해 수동으로 CPU의 P-states를 조절하여 에너지를 절감하는 기술로 리눅스 커널에서는 CPUFreq 프레임워크로 3.4 버전에 기본 실행되도록 결정되었다. 현재 매우 많은 수의 governor가 개발되었으며, mainline kernel에서는 ondemand, performance, conservative, powersave, userspace 이렇게 5개의 governor가 포함되어 있다. 2012년 이후부터 기본 governor인 onde-mand governor의 효용성 문제가 대두되면서, kernel 3.9에 대대적인 수정이 이뤄졌고, 현재는 스케줄러와 통합하기 위해 다양한 연구가 진행 중이다.

2) CPUIdle

CPU가 지원하는 다양한 레벨의 idle 상태를 사용하여 전력절감을 하는 것으로 커널 내에서 정책을 담당하는 idle policy와 idle 드라이버가 분리되어 구현되었다. 현재 ARM SoC를 대상으로 하는 동적 절감 기술은 모바일 대상 SoC에서는 FDT와 독립적인 드라이버를 통한 방식으로 지원하였고, 서버 플랫폼을 위한 ARM SoC에서는 ACPI기반 드라이버를 통해 CPUFreq와 CPUIdle을 지원하고 있다.

나. 동적 Scheduler 에너지절감 기술(Energy-aware Scheduler)

Energy-aware Scheduler(EAS)[10]는 기존의 전력관리 서브시스템의 핵심 모듈인 CPUFreq와 CPUIdle이 지니는 설계상의 구조적 문제를 해결하기 위해 제안되었다.

(그림 6)과 같이 스케줄러, CPUFreq와 CPUIdle 서브시스템들의 동작은 각각 다른 time scale을 기반으로 동작하며, 때때로 서로 다른 서브시스템에 영향을 미친다. 이는 CPUFreq와 CPUIdle 서브시스템이 각각 사용되는 에너지를 절감하기 위해 P-state를 조절하고 CPU들을 idle의 상태로 진입시키기 위해 노력을 하는 동안, 스케줄러는 power cost의 부가적인 반영이 없이 시스템상의 모든 CPU들의 부하의 균형을 유지하기 위해 노력하고 있는 상황이 발생하기 때문이다.

이러한 환경에서 EAS 구현을 위한 이슈 사항은 다음과 같다.

(그림 6)
Power Management(PM) Subsystem 구조
  • Missing power topology information in scheduler

    현재의 스케줄러에서는 에너지 인지 스케줄링을 할 수 있는 power 토폴로지 정보가 포함되어 있지 않다. 서로 다른 클럭으로 실행되고 있는 CPU는 에너지 cost가 서로 다름.

  • Energy-awareness for heterogeneous systems

    현재의 스케줄러는 실행에서의 비결정적 구조로 인해 에너지 소모에 대한 정확한 예측이 불가능함.

  • No understanding of potential CPU capacity

    현재의 CFS 스케줄러는 CPU의 Dynamic Voltage Frequency Scaling(DVFS)에 대한 정보를 알지 못한다. 따라서 CPUFreq governor는 현재의 부하 정보를 통해 실행되어야 할 정보를 계산하지만, 이는 절대적인 idle time이 아닌 실행상태에서의 idle 값만 계산됨.

  • Tracking idle states

    idle state의 단계가 다르므로 wake up 될 때의 latency와 에너지는 서로 다르며 이는 idle time 계산에 반영되어 있지 않음.

  • Frequency and uarch invariant task load

    에너지 인지 태스크 할당은 스케줄러가 특정 태스크가 특정 CPU에서 어떠한 효율로 동작하는지에 대한 정확한 정보가 필요함.

  • Poor and non-deterministic performance on heterogeneous systems

    현재의 heterogeneous 시스템상의 스케줄러는 CPU의 수보다 태스크의 개수가 작거나 같은 경우에 매우 비효율적으로 동작함.

이러한 현재 스케줄러의 문제점을 해결하기 위해 Linaro의 EAS 워킹 그룹에서 (그림 7)과 같이 매우 간단한 구조로 EAS의 구조가 제안되었다.

제안된 구조를 통해 기존의 다음과 같은 문제점들을 해결할 수 있다.

(그림 7)
Energy-aware Scheduler 구조
  • - 에너지 절약과 성능을 이해 스케줄러가 최적화된 상태로 시스템을 조절

  • - big.LITTLE 시스템의 스케줄 문제를 해결

  • - SMP 시스템상의 전력관리 성능을 크게 향상

  • - 시스템 온도 관리를 위한 새로운 메커니즘을 포함.

5. 전력제한(Power Capping) 기술동향

가. 전력제한 기술

전력제한 기술은 시스템이 실제로 사용하고 있는 전력 사용량을 사용자 또는 관리자가 설정한 전력제한 값으로 전력 사용량을 제한하는 방법이다. 전력제한 기술은 대규모의 전력을 사용하는 IDC에 있는 서버들을 대상으로 사용된다. 서버에 전력을 공급하는 전력 공급장치들은 서버들의 최대 전력 소비량의 합을 기준으로 배치되나 실제로 동시에 대규모 서버들이 최대로 전력을 사용하는 경우는 흔치 않다. 그래서 전력제한 기술은 비용문제를 고려하여 최대 전력 소비량의 합보다 작게 설정하고 실제로 모든 서버가 한꺼번에 최대로 전력을 소비하는 경우에 최대 전력 소비량이 전력 공급장치가 제공하는 전력량이 넘어가지 않도록 제한하는 데 사용한다. 또한, 전력 공급장치의 기계적 결함 등과 같은 이유로 서버가 요구하는 전력 요구량보다 충분한 전력량을 공급하지 못하는 경우에도 전력제한 기술을 사용한다.

전력제한 기술은 실제 전력을 제한하는 컨트롤 파트와 사용자가 전력을 제한하는 대상에 대하여 전력을 모니터링하는 파트, 그리고 사용자가 전력을 제한하는 대상에 전력제한 값을 설정할 수 있는 인터페이스 파트로 구성된다. 전력을 제한하는 컨트롤 파트는 다양한 방법으로 전력제한 대상의 전력 사용량을 조절할 수 있다.

1) 에너지 효율적인 전력제한 기술

최근에는 데이터센터에 상주하는 서버의 성능이 고도화되면서 서버에서 제일 큰 전력을 사용하는 하드웨어인 CPU의 평균 사용률은 10~50% 정도로 낮은 값을 보인다. 즉, CPU의 성능이 고성능화되면서 단기간에 작업을 처리하고 CPU와 서버가 유휴상태로 있는 시간이 많아지고 있다. 따라서 앞에서 설명한 전력제한의 목적보다는 서버의 워크로드에 따라 서버의 에너지 효율을 높이기 위한 한 방법으로써, 전력제한 기술이 이용되거나 연구되고 있다[11]. 변화된 전력제한 기술의 목표는 다음과 같이 크게 네 가지로 분류할 수 있다.

  • - 데이터센터에 공급하는 전력에 대하여 과부하 방지

  • - 작업이 수행되는데 필요한 에너지 소모량을 측정하고, 이것을 기반으로 작업에 대하여 에너지 소모량을 최적화

  • - 서버에서 수행되는 작업에 대하여 전력 소모 경향을 파악

  • - Total Cost of Ownership(TCO: 한 대의 컴퓨터를 이용하는 데 필요한 비용)을 최적화

나. 계층별 전력제한 기술

여러 서버를 공급하는 업체들과 하드웨어 업체들은 전력제한 기술을 탑재하여 제품을 생산하는데 가상화 계층, 응용프로그램 계층, 운영체제 계층, Basic Input/Output System(BIOS) 계층과 같은 여러 가지 계층별로 적용하고 있다.

1) 가상화 계층

동적으로 가상 머신을 물리 머신 사이에서 이주시키는 방법으로 물리 머신의 전력 사용량을 제한시키는 방법이다. 예를 들어, 하나의 물리 머신에서의 전력 사용량이 사용자 또는 관리자가 설정한 전력 사용량을 초과하는 경우, 해당 물리 머신에 존재하는 가상 머신을 다른 물리 머신으로 이주하는 형태로 동작한다. 그러나 물리 머신 사이에 가상 머신을 실제로 이주하는 데 필요한 자원 사용량 및 에너지 사용량을 고려하면, 에너지 효율 면에서 효과는 떨어진다고 할 수 있다. 현재 사용되고 있는 제품군으로는 Intel의 서버 관리도구인 DCM의 가상화를 이용한 전력제한 기능이 있다.

2) BIOS 계층

IBM이나 HP, DELL과 같은 서버제조 업체에서 서버 판매를 목적으로 제작된 BIOS 계층의 서버 관리프로그램에 전력제한 기술을 탑재하고 있다.

3) 운영체제 계층

Intel의 Sandy Bridge 세대 또는 그 이후에 나온 세대의 Intel CPU에서 제공하는 RAPL 기능을 이용하여 전력제한 기술의 프레임 워크를 리눅스 메인 커널에 반영하였다.

4) 응용프로그램 계층

IBM에서 CPU의 DVFS를 이용하여 전력제한 기능을 제공하는 오픈프로젝트인 Pwrkap이 있다. 또한 Intel에서 RAPL을 이용하여 전력제한 기능을 제공하는 Power Governor라는 프로그램이 있다.

6. 에너지 효율성 측정 기술동향

가. 데이터센터의 에너지 효율성 측정

에너지절감의 이슈 중에 가장 많이 언급되는 부분이 데이터센터의 에너지절감이다. 데이터센터의 전체적인 에너지절감은 데이터센터를 구성하는 여러 가지 요소들의 에너지 소모량의 절감과 밀접한 관계를 맺고 있다. 데이터센터의 에너지절감은 이처럼 구성요소들에 대한 에너지절감 기술을 통하여 에너지 효율성을 높이는 것이 일반적인 데이터센터의 에너지절감을 위한 것이지만, 데이터센터의 에너지절감을 최적화시키기 위해서는 데이터센터의 설계할 때부터 에너지 효율화를 고려하여 데이터센터 구성 요소들의 최적화를 추구해야 한다.

데이터센터의 에너지 효율화 정도를 측정하는 지표는 전력사용효율(PUE)가 있고 PUE는 미국 그린 그리드(The Green Grid) 컨소시엄에서 공표한 에너지 효율 표준지표다. 또한, 데이터센터 인프라 효율화(Data Center Infrastructure Efficiency: DCiE)와 데이터센터 에너지 생산성(Data Center energy Productivity: DCeP)이 있다. PUE 또는 DCiE는 데이터센터에서 사용되는 에너지 총량과 IT 관련장비가 사용한 에너지양의 비율로 표시된다.

국내에서는 에너지 효율성을 평가할 별다른 지표가 없어 PUE를 기준으로 에너지 효율 정도를 측정해 왔다. 하지만 이 지표는 에너지 효율성을 판단하는 데 여러 가지 문제점을 가지고 있다. 가장 큰 문제는 IT기술을 활용한 장비의 효율 향상을 지원하지 못하는 것이다. 예를 들면, 가상화 기술을 활용하여 데이터센터 내 서버장비의 이용률을 향상함으로써 전체서버의 물리적인 수를 줄이고 에너지를 절감할 수 있다. 그러나 이러한 경우를 PUE 기반 에너지 효율 측정 지표에서는 반영하지 못하는 문제가 있다. 그리고 DCeP는 데이터센터의 성능과 사용한 에너지와 연관되어 있다.

나. 에너지 벤치마크(Energy Benchmarks)

에너지 비용과 에너지에 대한 관심의 증가로, 성능측정에 가장 유명한 산업표준협회인, Transaction Processing Performance Council(TPC), Standard Performance Evaluation Corporation(SPEC), Storage Performance Council(SPC), United States Environmental Protection Agency(EPA)들은 에너지 효율성에 많은 관심을 두고 있다. 이러한 성능측정 산업표준협회의 주요 구성원들은 주요 컴퓨터와 시스템 벤더들로 구성되어 있고 각 협회가 추구하는 성능측정에는 방법이나 특징이 서로 다르지만, 이들 모두는 최근에 에너지 효율성을 측정하는 기준이나 측정방법들을 제공하고 있다[12].

1) TPC-Energy

TPC-Energy[13]는 TPC에서 추가한 에너지 효율성 측정 벤치마크이다. TPC-Energy에서 정의한 주요 기준은 ‘Watts per performance’이다.

TPC-Energy Metric = (REC Energy Consumption) / (SUT Work Completed)

REC Energy Consumption은 측정 기간에 전체 모든 Power Management Unit(PMU)에서 소모한 전체 에너지를 의미한다. SUT Work Completed는 벤치마크 실행에서 사용된 컴포넌트들이 완료된 전체 워크를 의미한다. TPC-Energy의 벤치마크의 한계는 많은 일반적인 IT애플리케이션들을 반영하여 벤치마크를 실행하지만, 전체 IT애플리케이션들을 반영하는지 못하는 제한을 가지고 있고 벤치마크를 실행하는 워크로드에 그 결과가 매우 의존적인 것이라는 한계를 가지고 있다.

2) SPC-1/E, SPC-1C/E

SPC은 비영리 단체로서 저장 서브시스템에서의 성능 향상을 위한 도구를 제공한다. SPC 벤치마크의 주요 비교 기준은 저장성능, 가격대비성능, 사용된 에너지 등이다. SPC에서 SPC-1/E, SPC-1C/E가 에너지에 관련된 벤치마크이다. SPC 벤치마크의 워크로드는 실 세계에서 사용되는 I/O 워크로드에 유사하도록 만들기 위해 순차적인 애플리케이션과 Online Transaction Processing (OLTP)에서 사용되는 I/O 워크로드를 포함시켰다.

3) SPECpower_ssj2008

SPEC은 2007년 12월에 발표된 SPECpower_ssj2008[14]에서 정의한 주요 기준은 ‘Performance per watts’이다. 각각 다른 작업 부하에서 와트당 성능에 기초하여 시스템을 측정합니다. 전반적으로 ssj_ops/ watt 수치가 높을수록 서버가 소비하는 에너지에 비해 더 많은 성능을 제공한다는 것을 의미합니다. 이 벤치마크 결과를 통해 전원 특성을 참고하고 이와 함께 다른 기준을 고려해서 데이터센터의 효율성을 높일 수 있습니다. (그림 8)은 SPECpower 제어 및 수집 시스템의 구성도를 보여준다. Workload와 Control and Collect System(CCS)이 분할되어 있는 것이 특징적이다.

(그림 8)
SPECpower 제어 및 수집 시스템의 구성도

Ⅴ. 결론

향후 서버 관련된 에너지 소비는 꾸준히 증가할 것으로 예상되며 국내외적으로 IT부문의 에너지 효율화를 위한 Green IT기술에 대한 요구가 급증하고 있다. 그래서 에너지 효율적인 컴퓨팅 핵심기술은 이러한 요구에 맞추어 발전하고 있으며 부분적으로 혹은 전체적으로 신기술들로 대체되어 가고 있다. 에너지 인지 OS, 에너지 효율적인 가상화 기술, 에너지 측정 효율화 등은 데이터센터의 에너지절감과 직결되는 인프라 기술로 산업체 및 학계에서 여러모로 활발한 연구 및 개발이 진행되고 있다.

기존 컴퓨팅 기술에 대한 에너지 효율화 기술은 부분적인 적용이 아닌 총체적으로 적용될 것이다. 따라서 에너지 비례 컴퓨팅이나, 에너지 효율적인 HPC, 에너지 효율적인 네트워킹 등과 같은 신기술이 각광을 받게 될 것이다. 더 나아가 엑사스케일 컴퓨터나 매니코어 컴퓨터 시대와 같은 대규모, 고성능 컴퓨팅 기술개발에 있어서 에너지 효율화는 선택이 아니라 필수 요소가 될 것이다.

약어 정리

ACPI

Advanced Configuration and Power Interface

BIOS

Basic Input/Output System

DCeP

Data Center energy Productivity

DCiE

Data Center Infrastructure Efficiency

DVFS

Dynamic Voltage Frequency Scaling

EAS

Energy-aware Scheduler

ECMA

European Computer Manufacturers Association

ELE

Extreme Low-Energy

EMAN

Energy Management

EMS

Energy Management System

EPA

United States Environmental Protection Agency

FDT

Flattened Device Tree

HPC

High-Performance Computing

IETF

Internet Engineering Task Force

IPMI

Intelligent Platform Management Interface

ISO

International Organization for Standardization

ITU

International Telecommunication Union

LSG

Lead Study Group

OLTP

online transaction processing

PMIC

Power Management IC

PMU

Power Management Unit

PSE

Power Supply Efficiency

PUE

Power Usage Effectiveness

PSU

Power Supply Unit

RAPL

Running Average Power Limit

SDx

Software Defined Anaything/Everything

SG5

Study Group 5

SoC

System-on-Chip

SPC

Storage Performance Council

SPEC

Standard Performance Evaluation Corporation

TCO

Total Cost of Ownership

TPC

Transaction Processing Performance Council

References

[1] “IDC Shows How VCE Saved Customers Time and Money,” 2013, http://ads.madisonlogic.com/clk?pub= 81& pgr=68& src=4712& ctg=1& tstamp=20130507T174638& ast=26613& cmp=8170& crv=0& frm=293&yld=0
[2] BARRON’S, “ARM Holdings: FBR Starts at Buy on Microserver Promise,” Dec. 12th, 2013, http://blogs.b arrons.com/techtraderdaily/2013/12/12/arm-holdings -fbr-starts-at-buy-on-microserver-promise/?mod= BOLBlog
[3] ITU-T SG5: Environment and Climate Change, http://www.itu.int/en/ITU-T/studygroups/2013-2016 /05/Pages/default.aspx
[4] ISO 50001–Energy Management, http://www.iso.org/i so/home/standards/management-standards/iso50001 .htm
[5] B. Schoening, M. Chandramouli and B. Nordman, “Energy Management (EMAN) Applicability Statement,” Nov. 12th, 2015, https://www.ietf.org/id/draft-ietf-eman-applicability-statement-11.txt
[6] Y. Liu and H. Zhu, “A Survey of the Research on Power Management Techniques for High Performance Systems,” J. Software—Practice & Experience, vol. 40, no. 11, Oct. 2010, pp. 943-964.
[7] QuickSpecs–HP ProLiant m400 Server Cartridge, http://h20195.www2.hp.com/v2/getpdf.aspx/c04392921.pdf?ver=1.0
[8] PMBus 1.3 Agenda, http://pmbus.org/Assets/PDFS/P ublic/20130912PMBus_1-3_DPF.pdf
[9] UEFI, http://www.uefi.org/specifications
[10] Energy-aware Scheduler, https://www.linaro.org/blo g/core-dump/summary-energy-aware-scheduling-workshop-linux-kernel-summit-2014/
[11] IT@Intel Brief, “Data Center Energy Efficient with Intel Power Management Technologies,” Feb. 2010.
[12] M. Poess et al., “Energy Benchmarks: a Detailed Analysis,” ACM, 2010.
[13] TPC Energy Specification Version 1.5.0, http://www.t pc.org/information/current_specifications.asp
[14] SPECpower_ssj2008, http://www.spec.org/power_ssj 2008/

(그림 1)

f001

데이터센터 에너지 사용량 전망

(그림 2)

f002

에너지 생산성 분석

(그림 3)

f003

서버운용 지출비용 추이<a href="#r001">[1]</a>

(그림 4)

f004

Microserver 매출 추이<a href="#r002">[2]</a>

<표 1>

t001

국가별 에너지 효율화 관련 주요 특허 기술분야

<표 2>

t002

표준화 단체별 표준화 작업

(그림 5)

f005

에너지 인지 운영체제 구조

(그림 6)

f006

Power Management(PM) Subsystem 구조

(그림 7)

f007

Energy-aware Scheduler 구조

(그림 8)

f008

SPECpower 제어 및 수집 시스템의 구성도