3세대 VLN/Embodied 메모리 동향 분석

1. 큰 그림: VLN 메모리 연구의 세대 구분

VLN/Embodied 에이전트의 메모리 연구는 지난 3년간 명확히 세대가 갈렸다.

세대	시기	핵심 질문	대표 키워드
1세대	2023~2024	어떻게 표현할까	voxel grid, scene graph, NeRF/3DGS, persistent node
2세대	2025	어떻게 LLM/VLM과 붙일까	text summarization memory, frontier-based exploration, MLLM-as-brain
3세대	2026~	어떻게 운영할까	분리, 반성, 망각, 가중치 적응, reranking

3세대의 공통 메시지를 한 줄로 요약하면 다음과 같다.

메모리를 "어떻게 쌓을지"의 시대는 끝났고, "무엇을 기억하고 / 잊고 / 꺼낼지의 정책"이 새로운 전장이다.

표현 자체는 거의 "주어진 것"으로 두고, 그 위에서 무엇을 어떻게 다룰지가 경쟁 포인트가 됐다.

1.5. 연대기로 톺아보기: ChatGPT에서 ReMEmbR, 그리고 5편으로

세대 구분만으로는 왜 지금 이 흐름이 왔는지 잘 안 와닿는다. 5편이 등장한 맥락을 시간 순으로 짚어보자.

2022년 11월 — ChatGPT가 모든 것을 흔들다

ChatGPT 출시 이전 로봇 메모리 연구의 중심은 metric/semantic map이었다. SLAM 커뮤니티가 수십 년간 다듬어온 점유 격자, 토폴로지 맵, 그리고 그 위에 객체 라벨을 붙인 semantic map이 표준이었다. 메모리는 곧 "지도"였고, 질의는 곧 "어디에 무엇이 있는가"였다.

ChatGPT가 등장하면서 두 가지가 바뀌었다.

첫째, 자연어로 물을 수 있다는 기대치가 생겼다. 사용자는 더 이상 "좌표 (3.2, 5.7)에 무엇이 있나"가 아니라 "어제 부엌에서 뭘 봤어?"를 묻기 시작했다. 둘째, LLM을 reasoning 엔진으로 쓰면 어떨까라는 질문이 모든 분야에 동시 발생했다. 로보틱스도 예외가 아니었다.

2023년 — VLM/MLLM의 폭발과 1세대 메모리

CLIP(2021)이 닦아둔 visual-language alignment 위에, 2023년 GPT-4V, LLaVA, Qwen-VL 같은 multimodal LLM이 쏟아진다. 동시에 VLN(Vision-and-Language Navigation) 분야가 단순 instruction-following에서 벗어나 long-horizon 환경으로 확장되기 시작한다.

이 시기의 메모리 연구는 "어떻게 표현할까"가 핵심이었다. NeRF/3DGS의 부상과 맞물려 ConceptGraphs, OctoMap-LLM, 3D scene graph 등 공간 표현의 새 후보들이 경쟁했다. 메모리는 여전히 "지도"였지만, 그 지도에 LLM이 읽을 수 있는 메타데이터를 어떻게 붙일지가 관건이었다.

2024년 — Long-horizon 문제의 자각

문제가 드러나기 시작한 건 2024년이다. 로봇이 5분이 아니라 수 시간, 수일 단위로 운영되기 시작하면서, 기존 메모리 표현의 한계가 명확해졌다.

Transformer 기반 short-term 메모리는 1~2분이 한계
Scene graph는 시간 축을 다루기 어려움
LLM의 context window는 늘어나도 비용이 폭증

이 시점에 NVIDIA + USC + UT Austin이 ReMEmbR를 발표한다 (arXiv 2024.09, ICRA 2025 채택). 제목이 모든 걸 말한다. "Retrieval-augmented Memory for Embodied Robots". 핵심 아이디어는 단순하다.

로봇 경험을 비디오 QA 문제로 재정의하고, RAG로 풀자.

ReMEmbR는 두 단계로 나뉜다. Memory-building에서 비디오를 3초 단위로 자르고 캡션 생성 후 임베딩으로 저장. Querying에서 text/position/time 세 종류의 retrieval로 관련 메모리만 꺼내 LLM이 답한다. NaVQA 데이터셋도 함께 공개해서 spatial/temporal/descriptive 질문에 대한 평가 표준을 제시했다.

ReMEmbR가 중요한 이유는 단순한 성능 개선이 아니라 프레이밍 전환 때문이다. 그전까지 로봇 메모리는 "지도를 어떻게 그릴까"였는데, ReMEmbR는 "기억을 어떻게 검색할까"로 질문 자체를 바꿔버렸다. RAG 패러다임이 NLP에서 로보틱스로 본격 이식된 분기점이다.

2025년 — 2세대의 본격화

ReMEmbR 이후 1년간 비슷한 결의 작업이 쏟아진다. RAG 기반 메모리, MLLM-as-brain 구조, frontier exploration과 LLM의 결합 등. 표현(1세대)은 거의 commodity가 되고, LLM/VLM과의 결합 방식이 경쟁 영역이 된다. 이 시기를 2세대로 부를 수 있다.

다만 2세대도 곧 한계를 드러낸다.

Retrieval은 되는데 부정확한 후보가 너무 많이 섞여 나옴
메모리는 계속 쌓이는데 언제 무엇을 버려야 할지 모름
같은 환경을 반복 방문하면서도 이전 경험을 활용 못함
환경이 바뀌면(주야간, 신 변화) catastrophic forgetting 발생

문제는 명확해졌고, 답이 필요했다.

2026년 — 5편이 동시다발적으로 답하다

그 답이 2026년 1분기에 집중적으로 등장한 5편이다.

시점	논문	핵심 답변
2026.02	HIMM	메모리를 episodic / semantic으로 분리하라
2026.03	RAGNav	Retrieval에 spatial 구조를 넣어라
2026.03	TuKA	가중치를 Tucker로 분해해 환경별로 적응하라
2026.04	MetaNav	메타인지로 자기 전략을 점검하라
2026.04	H-EMV	사용자에 맞춰 선택적으로 잊어라

5편이 우연히 같은 시기에 나온 게 아니다. 2세대가 남긴 4가지 한계(retrieval 정밀도, 망각, lifelong 적응, 메타인지)에 각각 답하고 있다. 표현은 더 이상 논쟁거리가 아니다. 표현 위에서 어떻게 운영할지가 모두의 관심사가 됐다.

이 5편이 보여주는 패러다임 전환을 본격적으로 분해하는 것이 다음 장의 목표다.

2. 3세대를 구성하는 4가지 축

3세대 연구는 크게 4가지 축으로 묶인다.

축 A: 메모리의 종류 분리

하나의 통합 메모리는 한계가 있다는 진단이 공유되고 있다. 추상화 수준이 다른 메모리는 분리해서 관리해야 한다는 흐름.

HIMM (Tsinghua, arXiv:2602.15513)

MLLM 기반 embodied agent에서 episodic memory와 semantic memory를 명시적으로 분리
Episodic = 과거 관측을 semantic similarity로 recall 후 exploration map 위에서 visual reasoning으로 verify (geometric alignment 강제 안 함, 환경 변화에 강건)
Semantic = program-style rule extraction으로 경험을 재사용 가능한 규칙으로 변환 (cross-environment generalization)
A-EQA에서 LLM-Match 7.3% 향상, GOAT-Bench SR 7.7% 향상
인지과학(Tulving의 episodic/semantic 구분)에서 출발

RAGNav (서남재경대, arXiv:2603.03745)

Multi-Goal VLN을 위한 Dual-Basis Memory: low-level topological map + high-level semantic forest
Anchor-guided conditional retrieval + topological neighbor score propagation
일반적 RAG paradigm의 spatial hallucination과 planning drift 문제를 정조준
RAG 시스템의 spatial 약점에서 출발

두 논문은 출발점이 다르지만 결론은 같다. 하나의 평면적 메모리로는 부족하다.

축 B: 메모리 위에서의 메타인지 / 리트리벌 정책

메모리를 어떻게 운영할지, 언제 전략을 바꿀지의 문제.

Stop Wandering / MetaNav (중남대, arXiv:2604.02318)

Training-free VLN agent의 고질병인 local oscillation, redundant revisiting을 "메타인지 부재" 문제로 재정의
세 컴포넌트: spatial memory (영구 3D semantic map) + history-aware planning (revisit penalty) + reflective correction (stagnation 감지 시 LLM이 corrective rule 생성)
Reasoning 과정에서 "지금 잘 가고 있나"를 스스로 점검하는 능력에 초점

RAGNav (재등장)

위의 축 A와 겹치지만, retrieval 단계에서의 정밀도 문제도 다룸
Anchor-guided conditional retrieval은 "무엇을 꺼낼지"의 정책

이 축은 메모리의 내용보다 메모리를 다루는 컨트롤러에 집중한다.

축 C: 잊기와 평생배포

메모리를 무한정 쌓을 수 없다, 무엇을 버릴지가 핵심이라는 문제의식.

Learning to Forget / H-EMV (KIT/ARMAR, arXiv:2604.11306)

Hierarchical EM의 incremental 구축 + LM 기반 relevance estimation을 통한 selective forgetting
자연어 rule conditioning, 사용자 피드백으로 rule 업데이트
ARMAR-7 실로봇 20.5시간 실환경 평가 + simulated household
QA 정확도 유지하면서 메모리 45% 감소, query-time compute 35% 감소
2-round queries에서 정확도 70% 향상 (user priority에 적응)
핵심은 personalization — 환경이 아니라 사용자에 적응하는 lifelong

TuKA / All-day Multi-scenes Lifelong VLN (CAS Shenyang, arXiv:2603.14276, ICLR 2026)

AML-VLN(All-day Multi-scenes Lifelong VLN) 문제 정의 — low-light, overexposure, scattering 등 day/night 환경
LoRA의 2D 한계 지적 → Tucker 분해 기반 고차 텐서 어댑터
Multi-hierarchical task knowledge를 shared subspace + scenario-specific experts로 분리
핵심은 environment generalization — 사용자가 아니라 환경에 적응하는 lifelong

이 축의 흥미로운 지점: 두 논문에서 "forgetting"이 정반대 의미로 쓰인다.

TuKA: forgetting은 막아야 할 것 (catastrophic forgetting)
H-EMV: forgetting은 활용해야 할 도구 (selective forgetting)

같은 lifelong 문제를 데이터/메모리 측(H-EMV) vs 가중치 측(TuKA)에서 푸는 쌍둥이.

축 D: Retrieve의 정밀도 (떠오르는 4번째 축)

축 A~C가 본격 부상한 반면, 4번째 축으로 retrieved 후보의 정밀도 문제가 떠오르고 있다. RAGNav가 일부 다루지만 대부분의 작업이 아직 retrieve 자체에 머물러 있고, reranking을 본격적으로 다룬 사례는 드물다.

3. 4분면 요약

3세대 작업들을 두 축(데이터-가중치 / Storage-time-Query-time)으로 펼치면 다음과 같이 정리된다.

	Storage-time	Query-time
Data / Memory	H-EMV (forget rules), HIMM (rule 추출)	RAGNav (retrieval), MetaNav (reflection)
Weights	TuKA (Tucker adapter)	(사례 적음)

가중치 측 query-time 적응(예: test-time training 기반 메모리)은 아직 덜 탐색된 영역.

4. 관통하는 5가지 트렌드

5편을 가로질러 보면 다음 패턴이 반복된다.

(1) 인지과학 메타포의 정착
Episodic/semantic 분리(HIMM), 메타인지(MetaNav), 망각(H-EMV) 모두 인간 기억 시스템의 명시적 차용. 단순 비유가 아니라 시스템 설계의 직접 가이드로 작동.

(2) LM/LLM이 controller로
HIMM의 rule extraction, MetaNav의 reflective correction, H-EMV의 relevance estimation 모두 LM을 메모리 조작의 의사결정자로 사용. 메모리 자체가 아니라 메모리에 대한 정책을 LM이 만든다.

(3) Spatial structure를 버리지 않음
Foundation model 시대에도 RAGNav의 topological map, MetaNav의 3D semantic map, HIMM의 exploration map 모두 명시적 spatial 표현 유지. 순수 텍스트화 메모리는 한계가 명확.

(4) Real-world 평가 비중 증가
H-EMV의 ARMAR-7 20.5시간 기록, TuKA의 multi-scene 평가 등. 시뮬레이션-only 평가의 설득력이 빠르게 줄고 있음.

(5) Personalization과 generalization의 분기
H-EMV는 user-specific, TuKA는 environment-general. 둘 다 lifelong이지만 적응 대상이 정반대. 이 분기는 향후 더 명확해질 것으로 보임.

5. 빈 자리

3세대에서 아직 덜 채워진 영역:

Query-time weight adaptation: 테스트 시점에 메모리에 따라 동적으로 가중치를 조정하는 작업
Memory lifecycle 통합: storage(forget) + query(retrieve/rerank)를 하나의 통합 framework에서 다루는 시도가 거의 없음
Multi-robot shared memory: 5편 모두 single-agent 가정. 협력 환경에서의 메모리 공유/충돌은 미개척
Memory의 unlearning과 privacy: H-EMV가 forgetting을 다루지만 user privacy 관점은 빠져 있음

6. 정리

VLN/Embodied 메모리 연구는 2026년을 기점으로 명확히 운영의 시대에 진입했다. 표현(1세대)과 LLM 결합(2세대)을 거쳐, 이제는 메모리를 분리하고, 반성하고, 잊고, 적응시키는 정책이 핵심 경쟁 영역이다.

5편의 논문은 각각 다른 축에 위치하지만, 공통적으로 메모리를 수동적 저장소가 아닌 능동적으로 관리되는 자원으로 본다. 이 패러다임 전환이 3세대의 본질이다.

References

ReMEmbR: Building and Reasoning Over Long-Horizon Spatio-Temporal Memory for Robot Navigation (arXiv:2409.13682, ICRA 2025) — 2세대의 분기점
HIMM: Improving MLLMs in Embodied Exploration and Question Answering with Human-Inspired Memory Modeling (arXiv:2602.15513)
RAGNav: A Retrieval-Augmented Topological Reasoning Framework for Multi-Goal Visual-Language Navigation (arXiv:2603.03745)
Stop Wandering / MetaNav: Efficient Vision-Language Navigation via Metacognitive Reasoning (arXiv:2604.02318)
Learning to Forget / H-EMV: Hierarchical Episodic Memory for Lifelong Robot Deployment (arXiv:2604.11306)
TuKA: All-day Multi-scenes Lifelong Vision-and-Language Navigation with Tucker Adaptation (arXiv:2603.14276, ICLR 2026)