Research Stories 게시판읽기 ( 효율적인 3D 장면 표현 방법 개발 )

Research Stories

효율적인 3D 장면 표현 방법 개발

기계학습 최우수 학술대회 ICLR 2024 Spotlight, 컴퓨터비전 최우수 학술대회 CVPR 2024 Highlight 선정

인공지능학과 박은병, 고종환 교수 · 이주찬 연구원

전자전기공학부 및 인공지능학과 박은병, 고종환 교수 연구팀은 복잡한 3차원 장면을 신경망 기반의 새로운 모델 구조를 사용하여 효율적으로 나타내는 두 가지 혁신적인 미디어 표현 기법을 발표했다. 이들의 첫 번째 방법론은 뉴럴 네트워크와 전통적인 자료구조인 그리드 방식의 표현을 융합하는 것이며, 두 번째는 소형화된 3D 가우시안 표현을 통해 장면을 표현하는 기법에 관한 것이다.

1) Coordinate-Aware Modulation (CAM)

3차원 이미지 혹은 비디오 등을 표현하는데 있어서 일반적으로 그리드에서 특징벡터를 추출한 뒤 뉴럴 네트워크가 이를 처리하는 방식이 사용되는데, 본 연구에서 제안하는 방식은 뉴럴 네트워크의 각 레이어 마다 모듈레이션 방식으로 그리드의 특징 벡터를 융합하였다. 기존의 그리드 사용 방식은 큰 용량을 필요로 하는 반면, 본 연구에서는 매우 소형의 그리드를 사용하여 고주파 신호를 효율적으로 표현했다.

[그림1] 제안된 CAM 구조

연구팀이 새로 개발한 방식을 이미지, 비디오, 3차원 모델, 3차원 비디오 등 다양한 미디어 데이터에 적용한 결과 그 성능이 매우 우수하며 또한 매우 적은 네트워크의 크기로 우수한 신호 복원 능력을 보여주었다.

[그림2] 다양한 미디어 도메인에서의 CAM 구조 적용 방안

[그림3] 다양한 미디어 도메인에서의 성능 비교 평가

2) Compact 3D Gaussian Splatting (C3DGS)

최근 3차원 공간을 3D 가우시안 형태의 포인트로 표현하여 100 FPS 이상의 빠른 렌더링이 가능해 졌지만, 이런 방식의 장면 표현 기법은 매우 큰 저장용량을 필요로 한다. 본 연구에서는 공간을 표현하는 가우시안의 수를 렌더링 성능 감소 없이 획기적으로 줄이는 데에 성공하였다. 또한, 가우시안을 나타내는 새로운 방법론을 제시하여 고성능, 빠른 렌더링 뿐만 아니라 매우 효율적인 저장 공간 요구량을 달성하였다.

[그림4] 3D 가우시안 형태로 표현된 장면과 C3DGS 적용 결과

다양한 실제 데이터셋을 통해 이뤄진 성능평가에서, 연구팀이 제안하는 방식은 렌더링 품질 저하 없이 25배 이상의 저장용량 감소와 렌더링 속도 향상을 이뤄냈다.

[그림5] 다양한 데이터셋에서의 성능 비교 평가

박은병 교수는 “기존의 방식에서 벗어난 새로운 모델 구조를 사용하여 복잡한 3차원 장면을 효율적으로 표현할 수 있는 방식들을 제안하여, 최근 각광받고 있는 NeRF나 생성 모델 등에 매우 효과적으로 사용될 수 있을 것”이라고 말했다.

연구팀의 첫 번째 연구 결과는 NeurIPS, ICML과 더불어 기계학습 분야 최우수학술대회로 꼽히는 ICLR 2024 (International Conference on Learning Representations)에 게재 승인되었고, 제출된 논문의 상위 6%에 해당하는 Spotlight에 선정되었다. 또한, 두 번째 연구 결과는 컴퓨터비전 분야 최우수학술대회인 CVPR 2024 (The IEEE/CVF Conference on Computer Vision and Pattern Recognition)에 게재 승인되었고, 제출된 논문의 상위 3%에 해당하는 Highlight에 선정되었다.

논문명: Coordinate-Aware Modulation for Neural Fields

연구 홈페이지: https://maincold2.github.io/cam/

저자: 이주찬 (제1저자, 인공지능학과 석박통합과정), 노다니엘 (인공지능학과 석사졸업, 현 KT), 남승태 (인공지능학과 박사과정), 고종환 (교신저자, 전자전기공학부 교수), 박은병 (교신저자, 전자전기공학부 교수)

논문명: Compact 3D Gaussian Representation for Radiance Field

연구 홈페이지: https://maincold2.github.io/c3dgs/

저자: 이주찬 (제1저자, 인공지능학과 석박통합과정), 노다니엘 (인공지능학과 석사졸업, 현 KT), Xiangyu Sun (인공지능학과 박사과정), 고종환 (교신저자, 전자전기공학부 교수), 박은병 (교신저자, 전자전기공학부 교수)

Research Stories

효율적인 3D 장면 표현 방법 개발

연구자(교수) 정보

()

Fields of Specialization

Publications

Proceedings

Patent