메타버스 상호작용 기술 동향 및 발전 전망

Metaverse Interaction Technology Trends and Development Prospects

저자
백성민실감상호작용연구실
이용호실감상호작용연구실
김주영콘텐츠융합연구실
박상헌콘텐츠융합연구실
길연희실감상호작용연구실
권호
39권 2호 (통권 207)
논문구분
공간현실로 발전하는 초실감 메타버스 기술
페이지
12-23
발행일자
2024.04.01
DOI
10.22648/ETRI.2024.J.390202
본 저작물은 공공누리 제4유형: 출처표시 + 상업적이용금지 + 변경금지 조건에 따라 이용할 수 있습니다.
초록
The Metaverse industry is developing rapidly, and related technologies are being actively improved. Tools such as controllers, keyboards, and mouses are used to interact in the Metaverse, but they are not natural and intuitive interfaces to resemble real-world interactions. Immersive interaction in a Metaverse space requires the engagement of various senses such as vision, touch, and proprioception. Moreover, in terms of body senses, it requires a sense of body ownership and agency. In addition, eliciting cognitive and emotional empathy based on non-verbal expression, which cannot be suitably conveyed to the digital world, requires higher-level technologies than existing emotion measurement solutions. This diversity of technologies can converge to build an immersive realistic Metaverse environment. We review the latest research trends in technologies related to immersive interactions and analyze future development prospects.
   546 Downloaded 839 Viewed
목록

Ⅰ. 서론

메타버스는 XR 기술을 사용하여 사용자가 액세스하고 상호 연결되어 상호작용(Interaction)할 수 있는 가상의 3차원 공간 플랫폼이다. 포스트 코로나 시대 비대면·디지털화가 새로운 일상이 되고 디지털 네이티브 세대의 소통과 현실을 뛰어넘는 자아실현의 수단으로 메타버스가 주목받고 있으나, 메타버스 생태계의 지속적인 발전을 위해 현 수준을 뛰어넘는 몰입형 메타버스가 요구되고 있다.

본고에서는 몰입형 메타버스 서비스 핵심 기술인 상호작용에 관해 기술하고자 한다. 여기에는 사용자의 동작을 통해 가상 객체와 소통하는 기술, 촉감과 복합적 감정인식 기술을 기반으로 원격 교감하는 기술들이 포함된다. 또한, 향후 메타버스 상호작용의 발전에 대해 전망하고자 한다.

Ⅱ. 메타버스 상호작용 기술 동향

1. 사용자 자세 추정 기술

사람의 자세 추정(HPE) 기술은 컴퓨터 비전 연구에서 가장 근본적인 주제 중 하나라고 할 수 있다. 이전에는 Template matching 또는 Local detector를 사용하여 RGB 이미지에서 신체 부위를 찾아내고 상호 연관성을 파악하여 사람의 자세 관절을 찾지만, 이러한 방법은 신호 변환에서 가려짐, 조명, 색상, 가장자리, 특징 설명과 같은 수작업으로 만들어진 특징들이 필요하므로 실제 환경 조건에서 성능이 낮고 계산량이 많다는 문제가 있다. 이러한 문제를 해결하기 위해 제안된 몇 가지 연구 방향을 살펴보도록 한다.

가. HMD/IMU 기반

최근 HMD의 성능이 많이 향상되었으며, 가상환경에서 HMD와 컨트롤러를 이용하여 상호작용할 수 있는 콘텐츠들도 많이 출시되고 있다. HMD와 컨트롤러는 6 자유도(위치 및 회전)를 가지고 있어 역운동학(Inverse Kinematics) 기법을 적용하면 캐릭터의 상반신을 제어할 수 있다.

Meta CTO 앤드루 보스워스는 하반신을 정확하게 추적하는 것은 매우 어려우며 기존 HMD의 물리학적 관점으로는 실행할 수 없다는 견해를 나타냈지만[1], 최근 하반신 동작을 보완하기 위해 HMD와 두 개의 컨트롤러로부터 신호를 받아 물리적으로 그럴듯하게 보이는 전신 동작을 시뮬레이션하는 강화 학습 구조를 제시하였다[2]. 더 나아가 물리 시뮬레이션 및 환경 관찰과 결합하여 발이 지면 아래로 내려가거나 미끄러지는 현상과 같은 일반적인 아티팩트 없이 상호작용하는 사실적인 전신 자세를 생성할 수 있음을 보여주었다[3].

관성 측정장치(IMU) 기반 모션 캡처 시스템은 특히 재활 분야에서 사용이 증가하고 있다. 관성 센서는 일반적으로 가속도계, 자이로스코프, 자력계 및 신호 전송 칩으로 구성되며, 저렴한 비용, 맞춤화, 유연한 적용, 착용 편의성 등 여러 가지 장점을 가지고 있다.

Noitom(NOITOM LTD.)이나 Xsens(Xsens Technologies BV)와 같은 관성 모캡 시스템이 이미 성공적으로 상용화되어 있으며[4,5], 재활센터 등에서는 이와 같은 상업용 제품을 이용해 뇌졸중 후 보행 장애 특징인 보행 속도 감소, 보폭 단축, 보행 비대칭 등을 분석하는 데 많이 활용하고 있다.

단점으로는 드리프트가 발생하거나, 착용 방법에 따라 동작할 때 센서가 움직이면서 상대 위치가 변경되어 센싱 결과가 달라지는 문제가 있다. 또한, 자력계는 외부 자기장의 영향을 받기 쉬우므로 환경에 따라 결과의 정확성에 영향을 미치게 된다. 이러한 문제를 해결하기 위해 데이터 수정을 위한 알고리즘 적용, 드리프트 자동 보정 사용, 포괄적인 측정을 위한 다른 시스템과의 융합 등 여러 가지 솔루션이 제안되고 있다.

나. 딥러닝 기반

2014년부터 자세 추정 기술에 콘볼루션 신경망(CNN)을 도입하면서 대규모 일반화 기능과 자동화된 특징 추출 프로세스로 인해 성능이 크게 향상되었다[6]. 이후 단일 컬러 이미지로부터 3D 자세를 추정하는 기술이 나오면서 3D 자세에 대한 자연스러운 표현을 생성하고 관절 좌표의 직접 회귀에 비해 성능이 크게 향상되었다[7].

HPE 방법은 1인(Single Person)과 다인(Multiple Person) 자세 추정으로 분류할 수 있다.

1인 자세 추정은 입력 이미지에 한 사람만 있어야 하며, 여러 명이 등장하는 영상에서는 인물을 개별적으로 구분하는 방법이 필요하다.

1인 접근법은 일반적으로 회귀 문제를 해결한다. 직접 회귀에서는 단일 히트맵을 생성하여 회귀에 직접 사용하는데, 가장 간단하고 효율적인 방법이지만, 인체 관절 간의 상관관계에 대한 성능이 낮고 훨씬 높은 이미지 해상도가 필요한 경우가 많다. 그러나, 단일 구조로 되어 있어 알려진 추론 엔진으로 쉽게 최적화가 가능하다. 히트맵 기반 관절 위치 예측 기법은 각 인체 관절에 대한 히트맵을 생성한다[8]. 히트맵 기반 접근 방식은 최종 자세를 형성하기 위해 휴리스틱 히트맵 조작이 필요하므로 더 복잡하지만, 가려짐 및 스케일과 같은 더 많은 문제를 처리할 수 있다는 장점이 있다.

다중 사용자 자세 추정은 하향식(Top-down)과 상향식(Bottom-up)의 두 가지 방법으로 구분된다.

하향식 방법은 사람 감지에 중점을 두기 때문에 1인 추정 방식과 유사하며 관절 정확도가 높지만, 감지와 추정으로 분리되어 있어 비효율적이라는 문제가 있다. 이러한 문제를 극복하기 위해 제안된 Mask R-CNN [9]은 백본의 동일한 특징 맵을 통해 사람의 바운딩 박스와 사람의 관절을 예측할 수 있다. 또 다른 방법으로는 다운샘플링과 업샘플링 하위 네트워크를 통해 입력 이미지에서 저수준 및 고수준 특징을 생성하여 더 나은 자세 추정을 유도하는 HR Net이 있다[10].

상향식 방법은 이미지 내에서 모든 인체 관절을 감지한 다음 사용자별로 그룹화하기 때문에 객체 감지 제약 조건을 무시한다. 이 방법에서 획기적인 방법 중 하나는 Open-Pose로, 각 특징점을 연결할 때 관절의 위치와 방향을 나타내는 Affinity Fields(2D 히트맵)를 학습시켜 각 관절을 연결한다[11]. 또 다른 제안으로는 지도 콘볼루션 네트워크(Supervised CNN)에서 연관 임베딩이라는 탐지 및 그룹화를 수행하는 방법을 사용한다[12]. 이 접근 방식에서는 사람의 관절 탐지를 위한 히트맵과 관절 그룹화를 위한 히트맵 두 종류가 동시에 생성된다.

정확도는 하향식 방법에 비해 떨어지지만, 객체 검출 과정이 없으므로 속도가 빨라 실시간 처리에 사용할 수 있다.

다. Body 모델 기반

운동학 모델(Kinematic Model)은 인체 골격 구조를 따르며, 이는 사전 정의된 모델과 학습된 그래프 구조의 두 가지 유형으로 나눌 수 있으며, 두 모델 모두 관절의 위치와 방향을 효과적으로 표현할 수 있다.

2D 자세 추정에서 가장 널리 사용되는 그래프 모델은 PSM(Pictorial Structure Model)이며[13], 이후 시간상으로 일관된 3D PSM 방법이 제안되었다[14]. 간단하고 유연한 방식이지만, 텍스처 정보가 부족하여 모델에서 몸체의 폭과 윤곽이 손실된다는 문제가 있다.

윤곽선 기반 모델은 신체 부위의 연결과 외형을 캡처하는 것 외에도 평면형 모델로도 학습할 수 있다. 일반적으로 신체 너비와 윤곽에 대한 대략적인 정보가 있는 모델은 초기 2D 자세 추정에 많이 사용되었다. 예를 들어, Active Shape 모델(ASM)은 인체를 묘사하고 신체 윤곽 변형이 발생하는 동안 통계를 얻을 수 있다[15]. 카드보드(Cardboard) 모델은 직사각형 모양을 통해 신체 부위를 표현하고 신체의 색상 정보를 포함한다[16].

볼류메트릭 모델(Volumetric Model)은 인체 자세를 사실적으로 표현한다. 볼류메트릭 모델은 원통, 원뿔 등 다양한 기하학적 모양과 삼각 메시로 구성된다. 고전적인 모델로는 피부가 있는 다인 선형 모델(SMPL) [17], 형상 완성 및 사람 애니메이션(SCAPE) [18], 통합 변형 모델[19] 등이 있다. 특히, SMPL은 형태 파라미터와 자세 파라미터라는 두 가지 유형의 파라미터로 피사체를 인코딩하는 통계 모델이다. SMPL 모델은 많은 연구에서 3D 인체 자세를 추정하는 데 사용되었다. 볼류메트릭 모델은 인체 자세에 대한 정보가 풍부하다는 장점이 있지만, 계산 비용은 큰 문제로 꼽힌다.

2. 햅틱 기반 상호작용 기술

햅틱 기술은 사용자에게 감각적인 피드백을 제공하여 현실감과 참여도를 높이는 데 기여한다. 터치, 진동, 압력 등의 다양한 감각적 요소를 결합함으로써 단순히 시각적 정보를 받는 것을 넘어서 새로운 감각 경험을 제공할 수 있다. 최근 햅틱 기술은 현실적인 터치 피드백과 세밀한 감각 표현이 강조되고 있는 추세이다. 여기서는 햅틱 디바이스의 종류 및 국내외 기술 동향에 대해 살펴본다.

가. 햅틱 디바이스의 종류

1) 근감각 햅틱 장치

근감각(역감) 햅틱 장치는 사용자의 근육과 관련된 감각인 근감각을 모방하거나 전달하는 데 중점을 둔다. 기계적 장치를 제어하여 사용자의 명령을 가상이나 원격지의 물체에 전달하고 상호작용할 때 발생하는 힘을 사용자에게 되돌려준다. 따라서 사용자의 입력을 정밀하게 측정하여 가상 또는 원격 환경에 전달할 수 있어야 하며, 임의의 방향으로 사용자의 움직임을 전달하고, 원하는 크기의 힘을 정확하게 생성할 수 있어야 한다. 이러한 특성을 민첩성(Dexterity)이라고 하며, 햅틱 장치의 성능을 평가하는 중요한 요소로 사용된다[20]. 근감각 햅틱 장치는 기준에 따라 크게 테이블 등에 올려놓고 사용하는 데스크톱 타입과 신체에 부착할 수 있는 외골격 타입으로 나눌 수 있다.

2) 피부 감각 햅틱 장치

피부 감각(촉감) 햅틱 장치는 물체의 형태나 단단함뿐만 아니라 물체 표면의 거친 정도나 요철의 정도를 다양한 방법으로 전달하는데, 이는 전기적 방식과 기계적 방식으로 구현된다.

전기적 방식은 피부와 장치 표면이 절연체를 이루고, 투명 전극과 피부 내의 조직이 전기적 도체 역할을 하여 축전기의 구조가 되며, 여기에 교류 전기 신호를 걸어주면 정전기력이 발생하여 사용자의 손가락이 장치 표현을 옆으로 움직이면서 만지면 기계적인 진동을 느끼게 된다.

기계적 자극 방식은 선형 공진 모터나 피에조 모터와 같은 구동이 단순하며 작은 구동기를 사용한다. 이러한 장치는 사용자에게 진동이나 압력을 전달하여 피부 감각을 모방한다.

나. 햅틱 디바이스 기술 동향

햅틱 피드백에 관한 연구는 주로 대학과 연구소를 중심으로 진행되고 있다. 다양한 햅틱 디바이스 중에서 많이 활용되고 있는 글러브, 슈트, 컨트롤러 형태에 대한 국내외 웨어러블 기술 동향을 살펴보고, 피부에 직접 부착하는 형태 등 다양한 모듈에 대해 알아본다.

1) 햅틱 글러브

가상현실에서 물체를 만질 때 실제 객체를 만지는 듯한 촉각과 열감을 전달하는 햅틱 글러브 연구를 국내 UNIST-서울대에서 진행하고 있다[21].

기존 VR 장갑은 유연하지 않아서 손의 움직임을 제한하고, 측정 정확도가 떨어진다는 문제점을 해결하기 위해 액체 금속을 유연하고 부드러운 폴리머에 프린팅할 수 있는 기술이 제안되었다[22]. 얇고 유연하게 제작된 부품들로 손가락을 굽히거나 움직였을 때 움직임을 측정하고 가상 객체에서 발생하는 열과 진동을 사용자가 느낄 수 있게 하였다.

국내 비햅틱스는 플레이스테이션 VR에 사용할 수 있는 새로운 버전의 햅틱 글러브를 개발하였다[23]. 이는 기존 제품에 비해 호환성, 편안함, 섬세한 촉각 피드백을 제공하는 것이 특징으로 10ms의 진동 파형을 생성시켜 민감한 움직임 표현이 가능하다.

미국 HaptX의 Gloves G1은 손등, 손바닥을 모두 감싸는 135개의 공기 방울을 세밀하게 조절하여 물체 재질에 따라 달라지는 촉감을 구현하였다[24]. 또한, 물체의 무게와 저항의 구현도 가능하여 가상에서 손으로 벽을 밀면, 마치 실제 벽이 버티고 서있는 듯한 느낌과 테이블을 누르면 실제로 딱딱한 테이블을 누르는 느낌을 받을 수 있다.

2) 햅틱 컨트롤러

기존 컨트롤러는 진동을 사용해 물체와의 상호작용에 대한 피드백을 제공하지만, 이는 손에 쥐고 있는 물체의 움직임과 두께감 등 다양한 물리적 요소들을 표현하는 데 한계가 있다.

최근 KAIST에서는 마이크로소프트와 협업하여 회전하는 원판을 활용한 6 자유도 햅틱 컨트롤러를 개발하였다[25]. 움직이는 물체의 이동 속도와 방향, 두께감을 표현할 수 있으며, 한 쌍의 회전 원판과 피버팅(이차적 축 회전) 메커니즘을 활용하여 사용자가 쥐고 있는 가상 물체가 손가락 사이를 통과하는 속도, 방향, 두께의 감촉을 사실적으로 체험할 수 있도록 설계되었다.

미국 스탠퍼드 대학에서는 손목 착용형 촉각 장치인 PIVOT을 이용해 공간 어디에서나 물체를 잡거나 던지는 촉각 감각에 관한 연구를 진행하고 있다[26]. 손목 착용형 밴드 형태로 햅틱 핸들을 사용자의 손 안팎으로 회전시키는 단일 작동 조인트로 구성되어 있으며, 물체를 움켜잡는 감각을 렌더링하고 빠르게 움직이는 물체를 잡고 던지는 동작을 시뮬레이션한다. 착용 상태에서도 사용하지 않을 때는 사용자가 손을 자유롭게 사용할 수 있다는 장점이 있다.

일본 Sony의 PlayStation 5는 DualSense 컨트롤러를 터치 센서와 햅틱 모터에 결합하여 게임에서 일어나는 다양한 상황에 따라 사용자에게 현실적인 터치 및 진동 피드백을 제공한다[27]. 일본 FirstVR에서는 근 변위 센서를 이용하여 팔이나 손 근육의 움직임을 검출하고, 손 제스처에 의한 진동 피드백을 제공하는 컨트롤러를 개발하고 있다[28].

3) 햅틱 슈트

국내 KAIST에서는 형상기억합금 와이어를 오그제틱(Auxetic) 구조로 매듭짓고, 일반 구조에서는 볼 수 없는 3D 방향으로 구조 전체가 동시에 수축·이완하는 특성을 구현했다[29]. 이를 통해 굴곡진 신체 표면에 순응하여 사이즈가 자동으로 조절되는 옷감형 액추에이터를 세계 최초로 선보였다. 8개 영역을 개별적으로 수축 제어할 수 있게 설계하여, 사용자에게 촉감 피드백으로 9개 방향과 타이밍 정보를 전달할 수 있다.

스페인 OWO에서는 상용화된 촉각 슈트를 선보였다[30]. 진동 대신 전기 펄스를 사용하여 피부 속까지 침투하는 느낌을 준다. 직접 피부에 밀착시켜야 하며 16단계로 자극의 단계를 조정할 수 있다. 전기자극은 실제 감각과 다르지만 서로 다른 감각 차이를 느낄 수 있도록 구현되었다.

프랑스 액트로니카의 햅틱 슈트는 조끼 형태로 착용하며, 가상 세계에서 총알, 화염, 빗방울 자극 등을 체험할 수 있다. 몸의 움직임에 따라 자극의 위치가 변해서 현실적인 자극을 느낄 수 있다[31].

영국 테슬라 슈트는 10개의 IMU 센서를 활용하여 신체 동작을 추적하는 동시에 80개의 전기자극 채널을 통해 신체 피드백을 제공할 수 있는 전신 슈트를 개발하였다[32]. 사용자의 피부에 터치, 압력, 온도 등 다양한 감각을 전달하여 몰입감 있는 가상 현실 체험을 가능하게 한다.

4) 햅틱 모듈 기술

한국전자통신연구원에서는 기존 촉감 재현 장치의 몰입 저해 요소를 극복하고, 피부에 밀착하여 촉감 피드백을 제공하는 피부부착형 텔레햅틱 기술을 개발했다[33]. 스티커 형태로 접착할 수 있어 기존 장치의 부피와 성능의 한계를 극복하였으며, 다양한 재질의 구별뿐만 아니라 동적인 느낌까지 정밀하게 측정하고 재현할 수 있고, 고해상도 센서가 위치별로 미세하게 다른 촉각 패턴까지 인식할 수 있다.

미국 MIT에서는 가상환경에서 현실감을 향상시키고 가상 물체의 식별을 돕기 위한 열 촉감 디스플레이에 관한 연구를 진행하고 있다[34]. 열감 및 촉감 신호가 사용자에게 동시에 전달되며 열 패턴은 피부 온도의 변화 방향, 속도 및 지속 시간에 따라 변화한다.

미국 뉴욕대학에서는 가상 세계에서 물리적인 힘을 가하기 위해 사용자의 근육 활성화 패턴을 식별하는 연구를 진행하고 있다[35]. 사용자 전완 피부에 경량 근전도 센서를 착용하여 손 활동에 대한 입력 신호를 획득하고 실시간으로 각 손가락의 힘을 3.3%의 평균 오차로 해독할 수 있다.

독일 HassoPlattner 연구소의 VR 햅틱 시스템은 근육으로의 전기신호 전송을 이용해서 가상공간에만 존재하는 벽, 무거운 물체 등의 역감을 구현하는 EMS 기술을 개발하였다[36].

3. 감정인식 및 교감 기술

감정은 상황에 대한 심리적, 생리적 반응으로 상호작용의 결과물인 동시에 새로운 상호작용을 촉발하는 시작점으로 볼 수 있다. 메타버스 사용자들에게 실제와 같은 상호 연결성을 지원하려면, 상호작용 간의 연결고리 역할인 감정 교류는 필수적이라 할 수 있다. 이 절에서는 가상, 증강, 혼합현실을 아우르는 확장 현실(XR) 환경에서 감정을 인식하고 표현 및 공감하는 기술에 대해 살펴보도록 한다.

가. 감정인식

인간의 감정은 주로 Ekman의 6가지 기본 감정(행복, 슬픔, 분노, 놀람, 공포, 혐오)[37] 또는 흥분 정도와 긍정·부정 수준을 함께 나타내는 AV(Arousal-Valence) 평면 내의 연속적인 값으로 구분된다[38]. 기존의 감정인식 기술은 얼굴 영상을 기반으로 표정을 분류하거나, 음성 및 생체신호 등의 정보로 감정 상태를 추정하는 연구가 주를 이루었다. XR 환경에서의 감정인식은 HMD 착용 상태에서의 제약을 극복하는 방향으로 연구가 지속되고 있다.

1) 영상 기반 감정인식

감정의 외적 표현은 표정, 즉 얼굴 근육 움직임을 통해 가장 강하게 나타난다. 초기 HMD는 얼굴 영상 획득이 불가능했기 때문에 미리 설정된 애니메이션을 활용하여 아바타의 표정을 구현했다. 이를 극복하기 위해 사용자를 바라보는 외부 카메라를 부착하여 얼굴 일부분을 촬영하는 연구를 기점으로[39] HTC에서는 VIVE 하단에 부착할 수 있는 별도의 Facial Tracker를 출시하였다[40].

이후 Meta에서 코, 동공 및 하관을 부분 촬영하는 센서를 HMD에 내장하여 전반적인 사용자의 표정을 인식할 수 있는 Quest Pro를 발표하였다. 이는 원하는 감정 표현을 일일이 지정하여 표현했던 기존 아바타 간 상호작용 방식에 엄청난 편의성과 실감을 가져왔다[41]. Meta는 이후에도 사용자 혀를 추적하는 기능을 추가하였고[42], 이와 별개로 Codec Avatar 프로젝트를 통해 사용자의 실제 얼굴까지 그래픽으로 구현하는 기술을 꾸준히 개발하고 있다[43].

2) 생체신호 기반 감정인식

앞서 서술한 영상 기반 감정인식 기술은 엄밀히 말하면 ‘표정’ 인식 기술이기 때문에, 사용자의 정서적 상태를 알아내려면 내적 신호를 함께 관찰할 필요성이 있다. 따라서 많은 연구자가 XR 환경에서 감정이 발생하는 신경생리학적 메커니즘을 규명하는 데 중점을 두고 연구를 진행하였다. 뇌의 전기적 활동을 측정하기 때문에 정서적 경험과 관련된 다양한 패턴 및 비대칭성을 식별할 수 있는 뇌파(EEG), 혈류량을 이용하여 심박 변이도(HRV)를 추정함으로써 정서적 각성 및 스트레스 정도를 파악할 수 있는 맥파(PPG), 심장의 전기적 활동을 기록하여 맥파와 유사한 역할을 할 수 있는 심전도(ECG), 땀샘 활동의 영향을 받는 피부의 전기 전도 수준을 측정하여 본인의 감정을 의식하기 전에 빠르게 변화를 관찰할 수 있는 피부 전도도(SCR), 정서적 반응, 특히 스트레스와 관련이 있는 체온(SKT), 근육의 전기적 활동을 기록하여 특정 근육 활동 패턴으로 표정, 목소리 톤 변화, 신체적 언어를 추정할 수 있는 근전도(EMG) 등 다양한 생체신호가 감정인식에 활용되고 있다.

기존에는 감정과 생체신호가 XR 환경에서 어떠한 상호 관계성을 갖는지에 관한 연구가 많이 이루어졌다[44]. 최근에는 한 단계 나아가 몰입형 콘텐츠에서 감정과 관련된 특징을 추출하고 개인의 감정 상태를 자동 식별하는 데 중점을 두고 있다[45]. 또한 관련 데이터 세트가 매우 부족한 관계로 감정 유발 시나리오를 직접 설계하고, 피험자 생체신호의 주파수 대역별 데이터 세트를 구축하는 연구가 이루어지고 있다[46].

감정을 인식하는 방법론에 대해서도 전통적인 통계 분석에서 지도 학습으로의 전환이 이루어졌다. 여전히 많은 연구가 직접 데이터를 해석한(Hand-crafted) 특징을 기반으로 기계 학습을 수행하지만[47], 딥러닝을 활용하여 학습 과정에서 자체적으로 특징을 추출하고 예측하는 연구가 많아지고 있다[48]. 이러한 과정에서 멀티모달 데이터를 활용하는 연구도 자연스럽게 HMD 환경에서 이루어지고 있다. 감정인식을 위한 생리학적 데이터는 생체 신호뿐만 아니라 머리, 시선, 손 등을 추적한 행동 데이터도 포함된다. 특히 시선 정보의 경우 뇌파와 관련이 있고 사용자의 인지 상태가 외적으로 표현되는 정보이기 때문에 꾸준히 연구되고 있으며[49], HMD 환경에서 심전도, 피부 전도도 등과 함께 활용되는[50] 등 다양한 멀티모달 데이터 세트를 구축하는 연구가 늘어나고 있다.

나. 감정 표현 및 공감

인간은 표정, 몸짓, 언어를 이용하여 본인의 감정을 드러내는데, XR 환경에서는 앞서 소개한 사용자 자세 추정 및 표정 인식 기술 외에도 다양한 방법을 활용하여 감정을 풍부하게 표현하고 공유할 수 있다. 다음으로는 상호작용의 효과를 극대화하기 위한 감정 표현 및 공감 기술에 관한 연구를 소개하고자 한다.

1) 감정 표현 기술

이제 대부분의 얼굴 근육 움직임은 최신 HMD의 안면 추적 기능을 사용하여 FACS(Facial Action Coding System) 정보를 아바타에 연동해 표현할 수 있게 되었다. 따라서 최근에는 음성 정보를 분석하여 감정에 따른 입술 움직임을 표현하는 등 추가 센서 및 데이터를 이용하여 미세한 표정까지 표현하는 연구가 이루어지고 있다[51].

표정의 변화와 더불어 사용자(아바타) 주위에 그래픽 효과를 구현하여 감정의 전달을 증폭시키는 연구도 꾸준히 이루어지고 있다. 심전도로 추정한 감정 상태를 사용자 머리 주변에 파형으로 증강하거나[52], 뇌파와 호흡수를 아바타 주위에 고리 형태로 표현하여 주변 조명환경에 영향을 주는[53] 등 새로운 시스템이 개발되고 있다. 최근에는 감정과 관련된 생체정보를 가시화하는 방법(아이콘, 파티클 등)에 따른 인지·정서적 영향력을 분석하는 심층적인 연구도 이루어지고 있다[54].

사용자 감정 상태에 따라 가상환경 자체를 변화시키는 연구도 최근 등장하기 시작했다. 다중 생체 신호를 기반으로 감정을 예측하여 VR 환경 및 가상 파트너의 외모나 톤을 실시간으로 조정하는 공감 상호작용 기술이나[55], 더 나아가 생리적 정보로부터 추정된 개인의 감정 상태에 따라 주변 사물과 배경 자체가 변화하는 컨셉의 메타버스까지 제안되고 있다[56].

또한, 원격협업 상황에서 개개인의 감정 상태 및 피로도 등을 실시간으로 인터페이스화하여 공유하는 솔루션을 개발하는 등[57] 메타버스 기반 교육·훈련 상황에 적용할 수 있는 기술들도 개발되고 있다.

2) 공감 기술

공감은 다른 사람의 감정을 이해하고 느끼는 능력을 말한다[58]. 태어날 때부터 타고나는 능력이지만, 발전시키려면 다양한 상황에서 감정을 교류해 보는 의도적인 경험이 필요하다고 알려져 있다[59].

VR은 HMD를 통해 재현된 타인의 삶을 직접 체험할 수 있다는 점에서 감정 공유를 위한 ‘궁극의 공감 기계’로 지지받고 있다[60]. 난민과 같이 어려운 처지에 있는 사람들에 대한 감정적이고 인지적인 공감을 위한 연구부터[61], 최근에는 일상적인 대화가 메타버스상에서 이루어질 때 XR 기술이 감정을 더 잘 전달할 수 있는가에 관한 연구도 진행되고 있다[62].

하지만 XR 환경의 공감 기술에 관한 본격적인 연구가 시작된 것은 2020년 이후이며, 공감 수준을 측정하는 방법은 전통적으로 주관적인 설문지 방식에 의존해왔다[63]. 생체신호나 행동 데이터를 활용하여 객관적으로 공감과의 상관관계를 분석한 연구는 10건 미만인데, 이중 공감 수준을 정량화하는 연구는 단 한 건[64]에 불과할 정도로 새로운 연구가 필요한 분야이다.

Ⅲ. 메타버스 상호작용 발전 전망

1. 사용자 자세 추정 기술 발전 전망

메타버스에서 상호작용은 몰입감에 중요한 부분을 차지하며, 사용자 편의를 위해 점차 HMD로 이동하는 추세이다.

애플은 2023년 6월 Vision Pro를 발표하면서 공간 컴퓨팅을 표방하고 있다[65]. 이는 디지털 콘텐츠가 마치 실제 공간에 물리적으로 존재하는 것과 같은 느낌을 사용자에게 제공한다는 것을 의미한다.

최근에는 사용자와 같이 이동할 수 있는 Egocentric 시점 데이터로부터 관절을 추정하는 방법도 연구되고 있다. 기존 HPE 기술은 Outside-In 방식으로 센서(카메라 등)를 외부에 설치하여 데이터를 획득하는 반면, Egocentric 시점은 사용자의 머리 위치에 설치하여 자기 자신을 바라보는 시점으로 데이터를 획득한다는 점에서 큰 차이가 있다. 대표적으로 독일 MPI에서는 넓은 영역의 화각을 확보하기 위해 어안(Fisheye) 렌즈를 헬멧에 부착한 후 사용자의 움직임을 미리 학습하고 사용자가 움직이면서 캡처된 자기중심적 라이브 스트리밍 영상으로부터 3D 자세를 추적하는 연구를 발표하였다[66]. 이후 글로벌 좌표계에서 3D 자세 추적 연구 발표하였으며[67], 최근에는 환경 정보(추정된 깊이 데이터)를 활용하여 자세 추정 성능을 향상시키는 기술을 제안하였다[68].

또 다른 기술 방향으로는 사용자 이동 중 신체 자세를 추적하기 위해 사용자가 소유한 장치(스마트폰, 스마트워치, 이어버드 등)에 있는 IMU를 사용하여 신체 자세를 추정하는 기술이 발표되었다[69].

아직 정확도 측면에서는 부족하지만, 추가적인 장치 없이 전신 자세를 추정한다는 점에서 향후 메타버스 상호작용이 나아가야 할 방향에 대한 시사점이 될 수 있다.

2. 햅틱 상호작용 기술 발전 전망

햅틱 상호작용은 메타버스에서 촉각 현실감을 제공하기 위하여 필수적이며, 착용이 가능한 슈트와 글러브 형태로 발전하고 있다. 메타버스 환경에서 사용자 사이에 상호작용이 발생할 때 높은 몰입감과 현실감을 제공하기 위하여 단순 진동뿐만 아니라 다양한 형태의 물리적 감각(압력, 열감 등)을 적용하는 방식의 기술 발전이 필요하다.

기존 역감 및 열감 렌더링 기술의 경우 높은 연산 비용으로 인하여 실시간 및 고해상도 구현이 어렵고 손과 같은 비정형 객체에 대한 렌더링 해상도의 한계가 존재한다. 또한, 햅틱 상호작용을 위한 의도 파악 기술이 요구된다. 현재 손 자세를 파악하기 위하여 광학적 감지, IMU 센서 기술 등이 활용되지만, 실제 환경에서는 가림 현상, 센서 노이즈 등으로 인해 정확한 손 자세 추정이 어렵고, 동시 손 자세 추정 및 압력 추정의 오차율이 큰 수준이다.

현재 햅틱 상호작용 기술은 빠른 손 추적 계산을 통한 저지연, 높은 해상도 지원 기술을 기반으로 촉감, 역감, 열감 등 다양한 감각을 제공하는 착용형 멀티모달 햅틱 렌더링을 구현하는 연구가 진행되고 있다. 또한 멀티모달 센서(근전도, 관성, 생체 음향 신호 등)를 입력받아 AI와 접목하여 동시 손 자세 및 압력 추정 기술로 발전시키고 있다. 전신 햅틱 상호작용이 가능하도록 슈트와 글러브를 연결하고, 신체 관절에 모터를 이용한 모멘텀을 형성하여 동적 역감을 제공하는 전신 햅틱 기술도 연구가 되고 있다.

앞으로 인간의 신경계에 직접 접촉하여 AI를 기반으로 촉감을 생성함으로써 메타버스 환경에서의 몰입도가 대폭 향상될 것으로 예상된다. 햅틱 기술의 발전은 몰입형 콘텐츠 제작에 있어 촉각적 요소를 추가하여 사용자의 상호작용 실재감을 향상시킬 수 있으며, 메타버스의 새로운 진화를 경험할 수 있게 될 것이다. 또한 엔터테인먼트 분야뿐만 아니라 교육, 의료, 제조업 등 다양한 분야에서의 햅틱 상호작용 대중화를 촉진할 것으로 예상된다.

3. 감정인식 및 교감 기술 발전 전망

메타버스에서의 사용자 감정인식 기술은 HMD의 제약을 극복해나가는 방향으로 이루어질 것이다. 현재 Meta Quest Pro는 안면 추적에 총 5대의 IR 카메라를 활용하고 있는데, 카메라의 수를 줄이면서 인공지능 모델을 고정밀 경량화하는 방향으로 표정 인식 기술은 발전해 나갈 것이다. 여기에는 음성, 생체신호, 행동 데이터 등 미세 근육 움직임을 더 잘 예측하고 표현할 수 있는 멀티모달 정보가 활용될 수도 있다.

생체신호 기반의 감정인식 기술도 표정 인식 기술과 궤를 같이할 것으로 전망된다. 뇌파 장비와 팔등에 패치 형태로 붙는 센서는 데이터 잡음으로 인해 움직임이 매우 제한되고 시스템이 커진다는 문제점이 있다. 따라서 rPPG 같은 원거리 센서나 머리부착형 센서를 활용한 일체형 디바이스의 개발이 중요할 것으로 예상된다. 감정인식 기법 또한 기존의 정형적인 딥러닝 모델이 아니라 실제 신경과학적 프로세스를 재현하는 연구가 시도될 것으로 전망된다.

감정 표현 기술 분야는 사용자(아바타)와 환경을 다감각적인 방법으로 변화시켜 감정전달을 극대화하는 연구가 지속될 것으로 예상된다. 가상훈련 또는 감성 치유 상황에서의 사용자 상태를 시각화하고 피드백하거나, 사용자 자세 추정 및 햅틱 기술과 어우러져 감정이 전달되는 복합적인 원격협업 솔루션 등 실질적인 산업계 적용을 위한 연구가 시작되고 있으므로, 사용자의 기술 만족도 증진을 위한 연구도 필요할 것이다.

공감 기술 분야는 객관적인 데이터(생체신호 및 행동 데이터)와 기존의 체계적인 설문지 방법을 모두 활용하여 공감의 생리학적 메커니즘을 모델화함으로써 공감 수준을 정량화하는 연구가 중요할 것으로 전망된다. XR 환경의 어떠한 상호작용 요소가 효과적으로 감정을 표현하고 전달하는지에 관한 연구는 이제 시작 단계이기 때문에 감정인식 및 교감 기술의 전반적인 발전을 위한 중요한 연구 주제가 될 것으로 예상된다.

Ⅳ. 결론

메타버스가 발전함에 따라 가상 커뮤니티는 더욱 복잡해지고 통합될 것으로 예상된다. 실시간 사용자 동작은 가상 세계에서 그대로 적용되고, 햅틱 피드백은 새로운 형태의 의사소통을 가능하게 하며, 사용자 감성은 더욱 생생한 아바타 및 사회적 환경과의 상호작용을 강화할 수 있게 될 것이다.

이처럼 메타버스에서의 사회적 상호작용은 단지 물리적 세계를 반영할 뿐만 아니라 개인을 연결하고, 상호 간 협력하고, 커뮤니티를 구축할 수 있는 새로운 방법을 제공할 것으로 보인다.

완전한 메타버스로 가는 길은 여전히 도전과제로 가득 차 있지만, 이러한 디지털 진화를 헤쳐나감에 따라 메타버스는 어느새 현실과 가상의 구분이 없이 우리 생활의 일부로 스며들게 될 것이다.

용어해설

피버팅 회전 움직임 중에서 특히 어떤 중심점 주위를 회전하는 동작

오그제틱 구조 수직, 수평 방향으로 인장 시 팽창하고, 압축 시 수축하는 특성을 갖는 구조

텔레햅틱 촉각을 원격으로 전송하고 재현

약어 정리

CNN

Convolutional Neural Network

ECG

Electrocardiography

EEG

Electoencephalography

EMG

Electromyography

EMS

Electrical Muscle Stimulation

HMD

Head Mounted Display

HPE

Human Pose Estimation

HRV

Heart Rate Variability

IMU

Inertial Measurement Unit

PPG

Photoplethysmography

rPPG

remote Photoplethysmography

SCR

Skin Conductance Response

SKT

Skin Temperature

XR

eXtended Reality

참고문헌

[1] 

MIT Technology Review, "Meta is desperately trying to make the metaverse happen," 2022. 10. 11.

[2] 

A. Winkler, J. Won, and Y. Ye, "QuestSim: Human motion tracking from sparse sensors with simulated avatars," in Proc. SA, (Daegu Rep. of Korea), Nov. 2022, pp. 1-8.

[3] 

S. Lee, "QuestEnvSim: Environment-aware simulated motion tracking from sparse sensors," in Proc. SIGGRAPH, (Los Angeles, CA, USA), Jul. 2023, pp. 1-9.

[6] 

A. Toshev et al., "Deeppose: Human pose estimation via deep neural networks," in Proc. CVPR, (Columbus, OH, USA), June 2014.

[7] 

G. Pavlakos et al., "Coarse-to-fine volumetric prediction for single-image 3d human pose," arXiv preprint, CoRR, 2017, arXiv: 1611.07828.

[8] 

S. Wei et al., "Convolutional pose machines," in Proc. CVPR, (Las Vegas, NV, USA), June 2016.

[9] 

K. He et al., "Mask r-cnn," in Proc. ICCV, (Venice, Italy), Oct. 2017.

[10] 

K. Sun et al., "Deep high-resolution representation learning for human pose estimation," in Proc. CVPR, (Long Beach, CA, USA), June 2019.

[11] 

Z. Cao et al., "Realtime multi-person 2d pose estimation using part affinity fields," in Proc. CVPR, (Honolulu, Hi, USA), Jul. 2017.

[12] 

A. Newell, Z. Huang, and J. Deng, "Associative embedding: End-to-end learning for joint detection and grouping," arXiv preprint, CoRR, 2017, arXiv: 1611.05424.

[13] 

V. Belagiannis et al., "3D pictorial structures revisited: Multiple human pose estimation," IEEE Trans. Pattern Anal. Mach. Intell., vol. 38, no. 10, 2016, pp. 1929-1942.

[14] 

V. Belagianniset et al., "Multiple human pose estimation with temporally consistent 3D pictorial structures," in Computer Vision-ECCV 2014 Workshops, vol. 8925, Springer, 2014, pp. 742-754.

[15] 

T. Cootes et al., "Active shape models-their training and application," Comput. Vis. Image Underst., vol. 61, no. 1, 1995, pp. 38-59.

[16] 

S.X. Ju et al., "Cardboard people: A parameterized model of articulated image motion," in Proc. Int. Conf. Automatic Face Gesture Recognition, (Killington, VT, USA), Oct. 1996, pp. 38-44.

[17] 

M. Loper et al., "SMPL: A skinned multi-person linear model," ACM Trans. Graph., vol. 34, no. 6, 2015, pp. 1-16.

[18] 

D. Anguelov et al., "SCAPE: Shape completion and animation of people," ACM Trans. Graph., vol. 24, no. 3, 2005, pp. 408-416.

[19] 

H. Joo, T. Simon, and Y. Sheikh, "Total capture: A 3d deformation model for tracking faces, hands, and bodies," in Proc. CVPR, (Salt Lake City, UT, USA), June 2018, pp. 8320-8329.

[20] 

연구개발특구진흥재단, "유망시장 Issue Report 햅틱 기술," 2021. 7.

[21] 

S. Jeong et al., "Pattern design of a liquid metal based wearable heater for constant heat generation under biaxial strain," iScience, vol. 26, no. 7, 2023.

[22] 

H. Kim and J. Bae, "Analysis of electrical resistance changes in liquid metal printed wires under strain for stretchable electronics," Smart Mater. Struct., vol. 30, no. 9, 2021, article no. 095004.

[25] 

M. Kim et al., "SpinOcchio: Understanding haptic-visual congruency of skin-slip in vr with a dynamic grip controller," in Proc. ACM CHI, (New Orleans. LA. USA), Apr. 2022, pp. 1-14.

[26] 

R. Kovacs et al., "Haptic PIVOT: On-demand handhelds in VR," in Proc, UIST, (Minneapolis, MN, USA), Oct. 2020.

[29] 

S. Oh et al., "Easy-to-wear auxetic SMA knot-architecture for spatiotemporal and multimodal haptic feedbacks," Adv. Mater., vol. 35, no. 47, 2023.

[33] 

T. Yang et al., "Recent advances and opportunities of active materials for haptic technologies in virtual and augmented reality," Adv. Funct. Mater., vol. 31, no. 39, 2021, pp. 1-30.

[34] 

A. Singhal and L.A. Jones, "Perceptual interactions in thermo-tactile displays," in Proc. IEEE WHC, (Munich, Germany), Jul. 2017.

[35] 

Y. Zhang et al., "Force-aware interface via electromyography for natural VR/AR interaction," ACM Trans. Graph., vol. 41, no. 6, 2022, pp. 1-18.

[37] 

P. Ekman, "Basic emotions," in Handbook of Cognition and Emotion, Wiley, 1999, pp. 45-60.

[38] 

J.A. Russell, "A circumplex model of affect," J. Pers. Soc. Psychol., vol. 39, no. 6, 1980.

[39] 

K. Olszewski et al., "High-fidelity facial and speech animation for VR HMDs," ACM Trans. Graph., vol. 35, no. 6, 2016, pp. 1-14.

[40] 

Road to VR, HTC Announces Face-tracker for Vive Pro and Vive Tracker 3.0, Mar. 10, 2021, https://www.roadtovr.com/htc-vive-facial-tracker-3-0-announcement-release-date-price/

[41] 

MIXED Reality News, Meta Quest Pro: What the new eye and face tracking can do, Oct 25, 2022, https://mixed-news.com/en/meta-quest-pro-what-the-new-eye-and-face-tracking-can-do/

[42] 

UploadVR, Quest Pro Now Has Tongue Tracking, Dec 18, 2023, https://www.uploadvr.com/quest-pro-tongue-tracking/

[43] 

Meta, Pixel Codec Avatars, Jun. 19, 2021, https://research.facebook.com/publications/pixel-codec-avatars/

[44] 

M. Horvat et al., "Assessing emotional responses induced in virtual reality using a consumer EEG headset: A preliminary report," in Proc. MIPRO, (Opatija, Croatia), May 2018, pp. 1006-1010.

[45] 

N.S. Suhaimi, J. Mountstephens, and J. Teo, "A dataset for emotion recognition using virtual reality and EEG (DER-VREEG): Emotional state classification using low-cost wearable VR-EEG headsets," Big Data Cognit. Comput., vol. 6, no. 1, 2022.

[46] 

M. Yu et al., "EEG-based emotion recognition in an immersive virtual reality environment: From local activity to brain network features," Biomed. Signal Process. Control, vol. 72, 2022, article no. 103349.

[47] 

K. Gupta et al., "Affectivelyvr: Towards vr personalized emotion recognition," in Proc. ACM VRST, (Virtual), Nov. 2020, pp. 1-3.

[48] 

Q. Wu et al., "Emotion classification on eye tracking and electroencephalograph fused signals employing deep gradient neural networks," Appl. Soft Comput., vol. 110, 2021, article no. 107752.

[49] 

J.Z. Lim et al., "Emotion recognition using eye-tracking: Taxonomy, review and current challenges," Sensors, vol. 20, no. 8, 2020.

[50] 

VREED: Virtual Reality Emotion Recognition Dataset Using Eye Tracking & Physiological Measures.

[51] 

N. Hube, K. Vidackovic, and M. Sedlmair, "Using expressive avatars to increase emotion recognition: A pilot study," in Proc. CHI EA, (New Orleans, LA, USA), Apr., pp. 1-7.

[52] 

A. Valente et al., "Empathic AuRea: Exploring the effects of an augmented reality cue for emotional sharing across three face-to-face tasks," in Proc. VR, (Christchurch, New Zealand), Mar. 2022, pp. 158-166.

[53] 

M. Salminen et al., "Evoking physiological synchrony and empathy using social vr with biofeedback," IEEE Trans. Affect. Comput., vol. 13, no. 2, 2019, pp. 746-755.

[54] 

S. Lee et al., "Understanding and designing avatar biosignal visualizations for social virtual reality entertainment," in Proc. CHI, (New Orleans, LA, USA), Apr. 2022, pp. 1-15.

[55] 

K. Gupta et al., "VRdoGraphy: An empathic VR photography experience," in Proc. VRW, (Shanghai, China), Mar. 2023, pp. 1013-1014.

[56] 

Y.S. Pai et al., "The empathic metaverse: An assistive bioresponsive platform for emotional experience sharing," arXiv preprint, CoRR, 2023, arXiv: 2311.16610.

[57] 

T. Rinnert et al., "How can one share a user’s activity during VR synchronous augmentative cooperation?," Multimodal Technologies and Interaction, vol. 7, no. 2, 2023.

[58] 

T.M. Michaels et al., "Cognitive empathy contributes to poor social functioning in schizophrenia: Evidence from a new self-report measure of cognitive and affective empathy," Psychiatry Res., vol. 220, no. 3, 2014, pp. 803-810.

[59] 

S.H. Konrath et al., "Changes in dispositional empathy in American college students over time: A meta-analysis," Pers. Soc. Psychol. Rev., vol. 15, no. 2, 2011, pp. 180-198.

[60] 

C. Milk, "How virtual reality can create the ultimate empathy machine," TED Talk, vol. 22, 2015.

[61] 

K.E. Stavroulia et al., "The role of perspective-taking on empowering the empathetic behavior of educators in VR-based training sessions: An experimental evaluation," Comput. Edu., vol. 197, 2023, article no. 104739.

[62] 

M. Tassinari et al., "Investigating the influence of intergroup contact in virtual reality on empathy: An exploratory study using AltspaceVR," Front. Psychol., vol. 12, 2022, article no. 815497.

[63] 

M.H. Davis, "Measuring individual differences in empathy: Evidence for a multidimensional approach," J. Pers. Soc. Psychol., vol. 44, no. 1, 1983.

[64] 

E. Parra Vargas et al., "Virtual reality stimulation and organizational neuroscience for the assessment of empathy," Front. Psychol., vol. 13, 2022, article no. 993162.

[65] 

애플 뉴스룸, "Apple, 최초의 공간 컴퓨터 Apple Vision Pro 발표," 2023. 6. 5.

[66] 

W. Xu et al., "Mo2Cap2: Real-time mobile 3D motion capture with a cap-mounted fisheye camera," arXiv preprint, CoRR, 2019, arXiv: 1803.05959.

[67] 

J. Wang et al., "Estimating egocentric 3D human pose in global space," in Proc. IEEE/CVF ICCV, (Virtual), Oct. 2021, pp. 11500-11509.

[68] 

J. Wang et al., "Scene-aware egocentric 3D human pose estimation," arXiv preprint, CoRR, 2023, arXiv: 2212.11684.

[69] 

V. Mollyn et al., "IMUPoser: Full-body pose estimation using IMUs in phones, watches, and earbuds," in Proc. CHI, (Hamburg Germany), Apr. 2023, pp. 1-12.

Sign Up
전자통신동향분석 이메일 전자저널 구독을 원하시는 경우 정확한 이메일 주소를 입력하시기 바랍니다.