1. 한 줄 결론
이 전환의 핵심은 representation과 inference 방식이 동시에 바뀐다는 점이다. 과거에는 SfM/MVS/SLAM식 기하 최적화가 중심이었고, NeRF/3DGS 시기에는 differentiable rendering과 scene representation이 중심이었다. 2026년에는 feed-forward visual geometry model이 pose, depth, point map, Gaussian, occupancy, 4D scene을 한꺼번에 연결하려 한다.
2. 과거, 현재, 미래
3. 2026년의 진단
3.1 VGGT는 현상명이 아니라 증상이다
relevance-curated pass에서 core + strong bridge 안의 VGGT/feed-forward geometry 신호는 48편으로 남았다. 숫자만 보면 Gaussian이나 general reconstruction보다 작지만, 의미는 크다. VGGT류 논문은 “기하 추론을 최적화 루프에서 foundation prior 기반 추론으로 옮기려는 시도”를 보여준다.
따라서 블로그에서 VGGT를 다룰 때는 “VGGT 논문이 몇 개인가”보다 “왜 그렇게 많은 논문이 VGGT류 prior를 segmentation, detection, dynamic reconstruction, autonomous driving, Gaussian occupancy로 가져가는가”를 물어야 한다.
3.2 3DGS는 rendering 기술에서 map representation으로 넘어간다
core + strong bridge 기준으로 Gaussian/radiance/view synthesis 신호는 250편, general reconstruction 신호는 338편으로 남았다. 이는 3DGS가 더 이상 novel view synthesis용 표현에 머물지 않고, reconstruction, surface, dynamic scene, pose-free setup, SLAM-like mapping으로 확장되고 있음을 뜻한다.
3.3 Dynamic / 4D가 진짜 난도 테스트다
core + strong bridge 기준 dynamic/4D 신호는 138편이다. 이 수치는 2026년 3D recon이 static scene 복원에서 moving object, long sequence, temporal consistency, deformable scene, streaming update로 넘어가고 있음을 보여준다.
Static 3D는 이제 “잘하면 좋은” 문제가 아니라 baseline에 가까워지고 있다. 연구적으로 더 중요한 질문은 움직임, 시간, occlusion, changing topology, online update를 어떻게 representation에 넣느냐이다.
3.4 남은 병목은 metric reliability다
core + strong bridge 기준 pose/calibration/localization 신호는 108편이다. Feed-forward 3D가 강해져도 실제 시스템에서는 scale, pose, calibration, temporal drift, uncertainty, loop consistency 문제가 남는다.
3.5 Robotics/SLAM 쪽 기회가 커졌다
mapping/autonomous/embodied 후보는 251편이고, general reconstruction과 robotics mapping의 교차는 141편이다. 이는 CVPR식 3D reconstruction과 robotics식 map building이 점점 가까워지고 있음을 뜻한다. 하지만 둘은 아직 완전히 합쳐지지 않았다.
CVPR 쪽은 representation과 prior가 강하고, robotics 쪽은 online update, uncertainty, metric consistency, closed-loop deployment가 강하다. 이 간극이 2027년 연구 주제의 핵심이다.
4. 2027년 연구 주제 제언
1. Metric Feed-forward 3D + Backend Optimization
VGGT-like model이 point map, depth, pose prior를 빠르게 예측하고, factor graph나 differentiable BA backend가 metric consistency와 uncertainty를 보정하는 구조.
VGGTfactor graphuncertaintymetric scale
논문 질문: feed-forward geometry prior는 어디까지 믿고, 어디서부터 optimization이 개입해야 하는가?
- AMB3R: Accurate Feed-forward Metric-scale 3D Reconstruction with Backend
- Dynamic Visual SLAM using a General 3D Prior
- Learning 3D Reconstruction with Priors in Test Time
- Rethinking Pose Refinement in 3D Gaussian Splatting under Pose Prior and Geometric Uncertainty
이 논문들은 feed-forward 3D prior가 metric reconstruction과 SLAM backend로 들어오기 시작했음을 보여준다. 하지만 아직 “prior가 틀렸을 때 backend가 어떻게 거부하고 수정하는가”, “uncertainty를 factor graph나 online BA에 어떻게 넣는가”는 열린 문제다.
2027 주제화좋은 주제는 단순히 VGGT를 SLAM에 붙이는 것이 아니라, feed-forward prior의 confidence를 factor로 만들고, pose/scale/drift를 online으로 보정하는 metric 3D foundation backend다.
2. Dynamic 4D SLAM with Object-Centric Memory
moving object를 outlier로 지우는 SLAM이 아니라, object trajectory와 deformable geometry를 persistent memory로 유지하는 4D SLAM.
4D reconstructiondynamic SLAMobject memoryscene graph
논문 질문: dynamic object는 제거할 노이즈인가, 장기적으로 추적해야 할 map entity인가?
- DynamicVGGT: Learning Dynamic Point Maps for 4D Scene Reconstruction in Autonomous Driving
- Revisiting Monocular SLAM with Spatio-Temporal Scene Modeling
- Flow4DGS-SLAM: Optical Flow-Guided 4D Gaussian Splatting SLAM
- Catch Me if You Can: Active Mapping of Moving 3D Objects
2026년 논문들은 dynamic scene을 더 이상 단순 outlier로 버리지 않고 4D point map, optical flow, spatio-temporal scene model로 다루기 시작했다. 한계는 object identity, long-term memory, occlusion 후 재등장, topology 변화가 아직 통합 map의 기본 기능으로 정착하지 않았다는 점이다.
2027 주제화moving object를 제거하는 SLAM에서 벗어나, object-centric 4D memory를 유지하고 재관측 때 map entity를 갱신하는 dynamic SLAM이 유망하다.
3. Gaussian-Occupancy Hybrid Maps for Embodied AI
Gaussian은 appearance와 rendering에 강하고, occupancy/mesh는 planning과 collision에 강하다. 둘을 분리하지 않고 하나의 embodied map으로 결합하는 연구.
3DGSoccupancyplanningembodied AI
논문 질문: robot에게 필요한 map은 예쁜 rendering인가, action 가능한 geometry인가, 아니면 둘 다인가?
- Generalizing Visual Geometry Priors to Sparse Gaussian Occupancy Prediction
- Deformable Gaussian Occupancy: Decoupling Rigid and Nonrigid Motion with Factorized Distillation
- OnlinePG: Online Open-Vocabulary Panoptic Mapping with 3D Gaussian Splatting
- Gaussian Mapping for Evolving Scenes
Gaussian이 rendering representation에서 occupancy, panoptic mapping, evolving scene map으로 확장되는 신호가 뚜렷하다. 하지만 Gaussian은 appearance에는 강해도 collision, traversability, freespace, object affordance 같은 actionability를 직접 보장하지 않는다.
2027 주제화3DGS를 planning 가능한 occupancy/mesh/scene graph와 결합하고, agent가 질의할 수 있는 semantic-spatial map으로 만드는 연구가 설득력 있다.
4. Calibration-Free and Pose-Free Multi-Sensor Reconstruction
camera pose, calibration, depth sensor 품질이 불완전한 상황에서도 일관된 3D를 만드는 문제. real deployment에 가장 가까운 병목이다.
pose-freecalibration-freemulti-sensorrobustness
논문 질문: 모델은 sensor geometry를 얼마나 스스로 추론할 수 있는가?
- No Calibration, No Depth, No Problem: Cross-Sensor View Synthesis with 3D Consistency
- BA-GS: Bayesian Adaptive Gaussian Splatting for SFM-Free 3D Reconstruction
- AeroGS: Scale-Aware Gaussian Splatting for Pose-Free Dynamic UAV Scene Reconstruction
- Learning 3D Representations for Spatial Intelligence from Unposed Multi-View Images
pose-free, SfM-free, calibration-free reconstruction이 본격적으로 등장하고 있다. 이는 deployment 관점에서 매우 중요하다. 한계는 “pose 없이도 결과가 나온다”와 “metric하게 신뢰할 수 있다” 사이의 간극이다. 특히 scale, cross-sensor alignment, temporal drift의 검증이 부족할 수 있다.
2027 주제화내년 주제로는 calibration-free reconstruction을 uncertainty-aware metric evaluation과 묶는 것이 좋다. 단순 demo가 아니라, 센서 배치가 바뀌어도 localization과 map update가 안정적인지 보여줘야 한다.
5. Continual Spatial Memory for Vision-Language-Action Agents
VLA/embodied agent가 장면을 한 번 복원하는 것이 아니라, 시간에 따라 기억하고, 갱신하고, 질의하고, 틀렸을 때 수정하는 spatial memory.
spatial memoryVLAworld modelonline update
논문 질문: 3D reconstruction은 perception output인가, agent의 working memory인가?
- GeoWorld: Geometric World Models
- Spatia: Video Generation with Updatable Spatial Memory
- WorldStereo: Bridging Controllable Video Generation and Scene Reconstruction via 3D Geometric Memories
- RAYNOVA: Geometry-Free Auto-Regressive 4D World Modeling with Unified Spatio-Temporal Representation
world model, spatial memory, geometric memory라는 표현이 2026년 seed list에 반복적으로 나타난다. 다만 많은 논문은 video generation이나 representation learning 쪽에 가까워, agent가 실제로 기억을 갱신하고 행동에 쓰는 closed-loop 검증은 아직 약하다.
2027 주제화spatial memory를 VLA agent의 persistent state로 정의하고, 재방문, 질의, 실패 수정, manipulation/navigation 성공률로 평가하는 주제가 좋다.
6. Failure-Aware 3D Foundation Model Evaluation
reflective, transparent, low-texture, dynamic, night, rain, sparse view, rolling shutter, fisheye 등 real failure mode를 benchmark로 체계화하는 연구.
benchmarkfailure modesafetyuncertainty
논문 질문: 3D foundation model은 언제 자신이 틀렸다는 것을 아는가?
- 3DReflecNet: A Large-Scale Dataset for 3D Reconstruction of Reflective, Transparent, and Low-Texture Objects
- 4DWorldBench: A Comprehensive Evaluation Framework for 3D/4D World Generation Models
- Emergent Outlier View Rejection in Visual Geometry Grounded Transformers
- VarSplat: Uncertainty-aware 3D Gaussian Splatting for Robust RGB-D SLAM
reflective/transparent/low-texture, 4D world generation, outlier view rejection, uncertainty-aware SLAM 같은 failure-aware 신호가 이미 있다. 하지만 failure mode가 개별 논문별로 흩어져 있고, 3D foundation model이 “모르는 것을 모른다”고 말하는 평가 체계는 아직 약하다.
2027 주제화좋은 benchmark 주제는 평균 성능을 재는 것이 아니라, sparse view, dynamic object, bad calibration, reflective surface에서 failure prediction과 abstention을 평가하는 것이다.
5. 5년 뒤 전망: 2031년의 3D reconstruction
| 전망 | 가능한 변화 | 연구자에게 주는 의미 |
|---|---|---|
| Reconstruction은 독립 task가 아니게 된다 | 3D reconstruction은 VLA, robot navigation, video generation, simulation, AR, digital twin의 공통 spatial layer가 된다. | “더 좋은 reconstruction”보다 “어떤 downstream decision을 가능하게 하는 geometry인가”가 중요해진다. |
| Feed-forward prior와 optimization이 공존한다 | 대형 모델이 초기 geometry를 만들고, classical optimization이 metric consistency와 long-term stability를 보정한다. | 순수 딥러닝도, 순수 SLAM도 아닌 hybrid system 설계가 강해진다. |
| Gaussian 단독 시대는 짧을 수 있다 | Gaussian은 중요한 intermediate representation이지만, planning과 interaction에는 occupancy, mesh, scene graph, physics state가 필요하다. | 3DGS 자체보다 Gaussian을 다른 map representation과 어떻게 결합할지가 더 오래가는 주제다. |
| Dynamic world model이 중심이 된다 | static scene reconstruction은 commodity화되고, moving objects, human-object interaction, deformable scene, causal dynamics가 중심 문제가 된다. | 4D reconstruction과 physical reasoning을 같이 다루는 연구가 커진다. |
| 평가는 perceptual quality에서 actionability로 이동한다 | PSNR/LPIPS/Chamfer만으로는 부족하고, navigation success, manipulation success, collision prediction, localization stability가 평가 축이 된다. | robotics benchmark와 CV benchmark의 경계가 흐려진다. |
| 3D spatial memory가 foundation model의 기본 기능이 된다 | VLM/VLA가 장면을 텍스트로만 이해하지 않고, persistent 3D memory를 유지하며 질의와 행동에 사용한다. | SLAM은 사라지는 것이 아니라 foundation model 내부의 memory/update 문제로 재정의된다. |
6. 블로그 글의 최종 포지셔닝
추천 제목
CVPR 2026에서 3D Reconstruction은 어디로 가는가: VGGT 이후의 Feed-forward Geometry, Gaussian Maps, 4D Worlds
추천 메시지 구조
- 도입: VGGT를 검색하면 많은 논문이 걸리지만, VGGT는 검색어가 아니라 현상을 보여주는 렌즈다.
- 1부: Feed-forward geometry가 classical multi-view pipeline을 압박한다.
- 2부: Gaussian/radiance representation은 rendering에서 map으로 이동한다.
- 3부: Dynamic/4D가 static reconstruction 이후의 진짜 난도 테스트다.
- 4부: Pose, calibration, localization, uncertainty가 실제 시스템화를 막는 병목이다.
- 결론: 2027년의 좋은 연구 주제는 feed-forward prior와 metric online mapping을 결합하는 것이다.
가장 강한 문장
주의할 점
관련 산출물: 방법과 결과 문서, curated relevance audit, seed list CSV, seed list HTML audit, Excel workbook.