Survey · Embodied AI Memory

3세대 VLN/Embodied 메모리 동향 분석

2026년 4월 기준, 최근 arXiv 논문 5편을 중심으로

1. 큰 그림: VLN 메모리 연구의 세대 구분

VLN/Embodied 에이전트의 메모리 연구는 지난 3년간 명확히 세대가 갈렸다.

세대시기핵심 질문대표 키워드
1세대2023~2024어떻게 표현할까voxel grid, scene graph, NeRF/3DGS, persistent node
2세대2025어떻게 LLM/VLM과 붙일까text summarization memory, frontier-based exploration, MLLM-as-brain
3세대2026~어떻게 운영할까분리, 반성, 망각, 가중치 적응, reranking

3세대의 공통 메시지를 한 줄로 요약하면 다음과 같다.

메모리를 "어떻게 쌓을지"의 시대는 끝났고, "무엇을 기억하고 / 잊고 / 꺼낼지의 정책"이 새로운 전장이다.

표현 자체는 거의 "주어진 것"으로 두고, 그 위에서 무엇을 어떻게 다룰지가 경쟁 포인트가 됐다.

1.5. 연대기로 톺아보기: ChatGPT에서 ReMEmbR, 그리고 5편으로

세대 구분만으로는 왜 지금 이 흐름이 왔는지 잘 안 와닿는다. 5편이 등장한 맥락을 시간 순으로 짚어보자.

2022년 11월 — ChatGPT가 모든 것을 흔들다

ChatGPT 출시 이전 로봇 메모리 연구의 중심은 metric/semantic map이었다. SLAM 커뮤니티가 수십 년간 다듬어온 점유 격자, 토폴로지 맵, 그리고 그 위에 객체 라벨을 붙인 semantic map이 표준이었다. 메모리는 곧 "지도"였고, 질의는 곧 "어디에 무엇이 있는가"였다.

ChatGPT가 등장하면서 두 가지가 바뀌었다.

첫째, 자연어로 물을 수 있다는 기대치가 생겼다. 사용자는 더 이상 "좌표 (3.2, 5.7)에 무엇이 있나"가 아니라 "어제 부엌에서 뭘 봤어?"를 묻기 시작했다. 둘째, LLM을 reasoning 엔진으로 쓰면 어떨까라는 질문이 모든 분야에 동시 발생했다. 로보틱스도 예외가 아니었다.

2023년 — VLM/MLLM의 폭발과 1세대 메모리

CLIP(2021)이 닦아둔 visual-language alignment 위에, 2023년 GPT-4V, LLaVA, Qwen-VL 같은 multimodal LLM이 쏟아진다. 동시에 VLN(Vision-and-Language Navigation) 분야가 단순 instruction-following에서 벗어나 long-horizon 환경으로 확장되기 시작한다.

이 시기의 메모리 연구는 "어떻게 표현할까"가 핵심이었다. NeRF/3DGS의 부상과 맞물려 ConceptGraphs, OctoMap-LLM, 3D scene graph 등 공간 표현의 새 후보들이 경쟁했다. 메모리는 여전히 "지도"였지만, 그 지도에 LLM이 읽을 수 있는 메타데이터를 어떻게 붙일지가 관건이었다.

2024년 — Long-horizon 문제의 자각

문제가 드러나기 시작한 건 2024년이다. 로봇이 5분이 아니라 수 시간, 수일 단위로 운영되기 시작하면서, 기존 메모리 표현의 한계가 명확해졌다.

이 시점에 NVIDIA + USC + UT Austin이 ReMEmbR를 발표한다 (arXiv 2024.09, ICRA 2025 채택). 제목이 모든 걸 말한다. "Retrieval-augmented Memory for Embodied Robots". 핵심 아이디어는 단순하다.

로봇 경험을 비디오 QA 문제로 재정의하고, RAG로 풀자.

ReMEmbR는 두 단계로 나뉜다. Memory-building에서 비디오를 3초 단위로 자르고 캡션 생성 후 임베딩으로 저장. Querying에서 text/position/time 세 종류의 retrieval로 관련 메모리만 꺼내 LLM이 답한다. NaVQA 데이터셋도 함께 공개해서 spatial/temporal/descriptive 질문에 대한 평가 표준을 제시했다.

ReMEmbR가 중요한 이유는 단순한 성능 개선이 아니라 프레이밍 전환 때문이다. 그전까지 로봇 메모리는 "지도를 어떻게 그릴까"였는데, ReMEmbR는 "기억을 어떻게 검색할까"로 질문 자체를 바꿔버렸다. RAG 패러다임이 NLP에서 로보틱스로 본격 이식된 분기점이다.

2025년 — 2세대의 본격화

ReMEmbR 이후 1년간 비슷한 결의 작업이 쏟아진다. RAG 기반 메모리, MLLM-as-brain 구조, frontier exploration과 LLM의 결합 등. 표현(1세대)은 거의 commodity가 되고, LLM/VLM과의 결합 방식이 경쟁 영역이 된다. 이 시기를 2세대로 부를 수 있다.

다만 2세대도 곧 한계를 드러낸다.

문제는 명확해졌고, 답이 필요했다.

2026년 — 5편이 동시다발적으로 답하다

그 답이 2026년 1분기에 집중적으로 등장한 5편이다.

시점논문핵심 답변
2026.02HIMM메모리를 episodic / semantic으로 분리하라
2026.03RAGNavRetrieval에 spatial 구조를 넣어라
2026.03TuKA가중치를 Tucker로 분해해 환경별로 적응하라
2026.04MetaNav메타인지로 자기 전략을 점검하라
2026.04H-EMV사용자에 맞춰 선택적으로 잊어라

5편이 우연히 같은 시기에 나온 게 아니다. 2세대가 남긴 4가지 한계(retrieval 정밀도, 망각, lifelong 적응, 메타인지)에 각각 답하고 있다. 표현은 더 이상 논쟁거리가 아니다. 표현 위에서 어떻게 운영할지가 모두의 관심사가 됐다.

이 5편이 보여주는 패러다임 전환을 본격적으로 분해하는 것이 다음 장의 목표다.

2. 3세대를 구성하는 4가지 축

3세대 연구는 크게 4가지 축으로 묶인다.

축 A: 메모리의 종류 분리

하나의 통합 메모리는 한계가 있다는 진단이 공유되고 있다. 추상화 수준이 다른 메모리는 분리해서 관리해야 한다는 흐름.

HIMM (Tsinghua, arXiv:2602.15513)

RAGNav (서남재경대, arXiv:2603.03745)

두 논문은 출발점이 다르지만 결론은 같다. 하나의 평면적 메모리로는 부족하다.

축 B: 메모리 위에서의 메타인지 / 리트리벌 정책

메모리를 어떻게 운영할지, 언제 전략을 바꿀지의 문제.

Stop Wandering / MetaNav (중남대, arXiv:2604.02318)

RAGNav (재등장)

이 축은 메모리의 내용보다 메모리를 다루는 컨트롤러에 집중한다.

축 C: 잊기와 평생배포

메모리를 무한정 쌓을 수 없다, 무엇을 버릴지가 핵심이라는 문제의식.

Learning to Forget / H-EMV (KIT/ARMAR, arXiv:2604.11306)

TuKA / All-day Multi-scenes Lifelong VLN (CAS Shenyang, arXiv:2603.14276, ICLR 2026)

이 축의 흥미로운 지점: 두 논문에서 "forgetting"이 정반대 의미로 쓰인다.

같은 lifelong 문제를 데이터/메모리 측(H-EMV) vs 가중치 측(TuKA)에서 푸는 쌍둥이.

축 D: Retrieve의 정밀도 (떠오르는 4번째 축)

축 A~C가 본격 부상한 반면, 4번째 축으로 retrieved 후보의 정밀도 문제가 떠오르고 있다. RAGNav가 일부 다루지만 대부분의 작업이 아직 retrieve 자체에 머물러 있고, reranking을 본격적으로 다룬 사례는 드물다.

3. 4분면 요약

3세대 작업들을 두 축(데이터-가중치 / Storage-time-Query-time)으로 펼치면 다음과 같이 정리된다.

Storage-timeQuery-time
Data / MemoryH-EMV (forget rules), HIMM (rule 추출)RAGNav (retrieval), MetaNav (reflection)
WeightsTuKA (Tucker adapter)(사례 적음)

가중치 측 query-time 적응(예: test-time training 기반 메모리)은 아직 덜 탐색된 영역.

4. 관통하는 5가지 트렌드

5편을 가로질러 보면 다음 패턴이 반복된다.

(1) 인지과학 메타포의 정착
Episodic/semantic 분리(HIMM), 메타인지(MetaNav), 망각(H-EMV) 모두 인간 기억 시스템의 명시적 차용. 단순 비유가 아니라 시스템 설계의 직접 가이드로 작동.

(2) LM/LLM이 controller로
HIMM의 rule extraction, MetaNav의 reflective correction, H-EMV의 relevance estimation 모두 LM을 메모리 조작의 의사결정자로 사용. 메모리 자체가 아니라 메모리에 대한 정책을 LM이 만든다.

(3) Spatial structure를 버리지 않음
Foundation model 시대에도 RAGNav의 topological map, MetaNav의 3D semantic map, HIMM의 exploration map 모두 명시적 spatial 표현 유지. 순수 텍스트화 메모리는 한계가 명확.

(4) Real-world 평가 비중 증가
H-EMV의 ARMAR-7 20.5시간 기록, TuKA의 multi-scene 평가 등. 시뮬레이션-only 평가의 설득력이 빠르게 줄고 있음.

(5) Personalization과 generalization의 분기
H-EMV는 user-specific, TuKA는 environment-general. 둘 다 lifelong이지만 적응 대상이 정반대. 이 분기는 향후 더 명확해질 것으로 보임.

5. 빈 자리

3세대에서 아직 덜 채워진 영역:

6. 정리

VLN/Embodied 메모리 연구는 2026년을 기점으로 명확히 운영의 시대에 진입했다. 표현(1세대)과 LLM 결합(2세대)을 거쳐, 이제는 메모리를 분리하고, 반성하고, 잊고, 적응시키는 정책이 핵심 경쟁 영역이다.

5편의 논문은 각각 다른 축에 위치하지만, 공통적으로 메모리를 수동적 저장소가 아닌 능동적으로 관리되는 자원으로 본다. 이 패러다임 전환이 3세대의 본질이다.


References