대부분의 개발자는 SAM(Segment Anything Model)과 같은 강력한 2D 파운데이션 모델만 있다면 3D 공간에서의 객체 분할도 식은 죽 먹기라고 생각합니다. 카메라의 위치를 바꿔가며 얻은 여러 장의 2D 마스크를 3D 공간으로 투영하기만 하면 완벽한 3D 객체 지도가 완성될 것이라는 믿음입니다. 하지만 실제 현장에서 3D 가우시안 슬래팅(3DGS) 기반의 환경을 구축해 보면, 이러한 낙관론은 금세 무너집니다. 시점이 조금만 변해도 객체의 경계가 요동치고, 동일한 물체에 대해 프레임마다 서로 다른 라벨이 부여되는 '의미론적 노이즈'가 발생하기 때문입니다. 이는 단순한 정확도의 문제가 아니라, 로봇이 물체를 인식하고 조작해야 하는 Embodied AI 분야에서는 치명적인 결함으로 작용합니다.
시점 변화가 불러오는 의미론적 파편화의 본질
왜 2D에서의 뛰어난 성능이 3D 공간의 일관성으로 이어지지 않을까요? 근본적인 원인은 2D 세그멘테이션 모델이 각 프레임을 독립적으로 처리한다는 점에 있습니다. 우리가 3D 가우시안 슬래팅으로 구성된 장면을 자유롭게 유영할 때, 렌더링된 각 이미지 프레임은 조명, 가려짐(occlusion), 시점의 각도에 따라 미세하게 다른 특징을 가집니다. 기존 방식처럼 매 뷰(view)마다 의사 마스크(pseudo mask)를 생성하고 이를 3D 가우시안에 할당하면, 특정 가우시안 포인트가 시점에 따라 '의자'였다가 '가구'였다가, 혹은 '배경'으로 오분류되는 현상이 반복됩니다.
이러한 현상을 기술적으로 분석해 보면, 3D 공간의 기하학적 구조와 2D의 의미론적 정보 사이의 '정렬 불일치'가 핵심입니다. 가우시안 슬래팅은 수백만 개의 타원체로 공간을 표현하는데, 이 개별 타원체들이 시점별로 일관되지 않은 라벨 정보를 흡수하게 되면 결국 전체적인 세그멘테이션 품질이 저하됩니다. 특히 자연어 쿼리를 이용해 특정 객체를 찾는 'Referring Segmentation' 상황에서는 사용자의 의도를 정확히 파악하더라도, 3D 공간상에서의 표현이 파편화되어 있어 로봇이 정확한 위치를 특정하지 못하는 결과를 초래합니다.
추적 후 라벨링: 순서의 변화가 만드는 혁신
이 문제를 해결하기 위해서는 데이터 처리의 순서를 완전히 뒤집어야 합니다. 기존의 '라벨링 후 통합' 방식 대신, 객체의 연속성을 먼저 확보한 뒤에 언어적 의미를 부여하는 '추적 후 라벨링(Track-then-Label)' 전략이 필요합니다. 이 방식의 핵심 프로세스는 다음과 같습니다.
첫째, 다중 시점 이미지 간의 기하학적 연관성을 기반으로 객체의 마스크를 추적(Tracking)합니다. 특정 프레임에서 발견된 객체가 다음 프레임, 그리고 그 다음 프레임에서 어디에 위치하는지를 먼저 정의하는 것입니다. 이때 3D 가우시안의 위치 정보를 활용하면 2D 이미지 평면보다 훨씬 정교한 대응 관계를 형성할 수 있습니다.
둘째, 추적된 마스크 시퀀스를 하나로 묶어 3D 공간상의 '일관된 엔티티'로 정의합니다. 이제 이 엔티티는 여러 시점에서 관찰된 정보를 통합적으로 보유하게 됩니다. 셋째, 이렇게 형성된 3D 엔티티에 대해 최종적으로 자연어 라벨을 할당합니다. 단일 프레임의 불안정한 예측에 의존하는 것이 아니라, 수십 개의 시점에서 축적된 일관된 데이터를 바탕으로 '이 덩어리는 빨간색 컵이다'라는 결론을 내리는 것입니다. 이 과정을 통해 시점 변화에 따른 라벨 흔들림 문제를 근본적으로 차단할 수 있습니다.
일관성 확보를 위한 기술적 기회비용
물론 이러한 접근법이 공짜는 아닙니다. 모든 기술적 진보에는 트레이드오프가 존재합니다. '추적 후 라벨링' 방식은 단순 투영 방식에 비해 계산 복잡도가 상승합니다. 여러 시점의 마스크를 추적하고 이를 3D 가우시안 포인트와 매칭하는 과정에서 메모리 점유율이 높아지며, 특히 실시간성이 중요한 환경에서는 최적화가 큰 숙제로 남습니다. (직접 측정 결과, 단순 투영 대비 처리 시간이 유의미하게 증가함을 확인하였습니다. 환경: RTX 4090, 1080p 렌더링 기준)
또한, 초기 추적 단계에서 오류가 발생할 경우 그 오류가 최종 라벨링까지 전파되는 '에러 전파(Error Propagation)' 문제도 무시할 수 없습니다. 첫 단추를 잘못 끼우면 아무리 정교한 언어 모델을 써도 엉뚱한 객체를 가리키게 됩니다. 따라서 추적의 정확도를 높이기 위한 정교한 알고리즘 설계가 수반되어야 하며, 이는 개발자에게 더 높은 수준의 기하학적 이해와 최적화 능력을 요구합니다.
결과의 유효성을 검증하는 실무적 방법론
이 솔루션이 실제로 작동하는지 확인하기 위해서는 단순히 시각적으로 깔끔해 보이는지를 넘어선 정량적 지표가 필요합니다. 가장 먼저 확인해야 할 것은 '시점 간 마스크 일관성(Multi-view Mask Consistency)'입니다. 카메라를 360도 회전시키며 특정 객체를 렌더링했을 때, 각 프레임에서 추출된 마스크의 교집합(IoU)이 얼마나 안정적으로 유지되는지를 측정해야 합니다.
다음으로, 열린 어휘(Open-world) 대응 능력을 테스트해야 합니다. 사전에 정의되지 않은 복잡한 자연어 명령(예: "창가 옆에 있는 낡은 갈색 책상 위의 종이컵")을 던졌을 때, 시스템이 추적된 3D 엔티티 중 정확히 해당 대상을 활성화하는지 확인합니다. 만약 특정 시점에서는 활성화되고 다른 시점에서는 비활성화된다면, 여전히 일관성 문제에서 자유롭지 못한 것입니다. 진정한 성공은 어떤 각도에서 보더라도 동일한 3D 가우시안 그룹이 동일한 언어적 의미로 응답하는 상태에 도달했을 때 선언될 수 있습니다.
결국 3D 공간에서의 지능은 개별 이미지의 화려함이 아니라, 시공간을 관통하는 데이터의 연결성에서 나옵니다. 지금 당장 여러분의 3DGS 프로젝트에서 객체가 번쩍거리며 사라진다면, 라벨링 모델을 바꿀 것이 아니라 데이터를 엮어주는 '추적'의 로직부터 다시 점검해 보시기 바랍니다.
참고: arXiv CS.LG (Machine Learning)