핵심: "기존이 X를 못한다 → 우리가 모듈을 붙였다"는 motivation이지 novelty가 아니다.
Top-tier 논문은 항상 "왜 그 모듈이 그 형태여야 하는가"에 원리적으로 답한다.
아래 명작 3편이 motivation에서 novelty로 어떻게 도약했는지 살펴보자. 같은 문제를 풀더라도 2티어 논문은 motivation 단계에서 멈추고, top-tier 논문은 한 걸음 더 나아간다.
Motivation에 머문 신호 (위험)
- "기존 X가 Y 상황에서 잘 못한다"로 contribution이 끝남
- 새 모듈을 붙였지만 왜 그 구조여야 하는지 설명 못함
- 실패 사례만 보여주고 원인 분석이 없음
- Related work가 5편 미만, 모두 같은 그룹/연도
- Method 섹션이 system diagram + 박스 설명뿐
- "우리도 비슷한 문제를 본다"가 contribution
Novelty에 도달한 신호 (안전)
- 왜 기존 방식이 실패하는지 원리적 이유를 댈 수 있음
- 모듈의 형태/하이퍼파라미터가 그 원리에서 도출됨
- 관련 연구 20편 이상, naive baseline과 차이 명확
- Ablation으로 각 design choice의 필요성 입증 가능
- "왜 더 단순하게 못하나?"에 답할 수 있음
- 실패 모드(failure mode)를 스스로 정의하고 분석함
가상의 연구 미팅 대화
이론만으론 안 보인다 — 실제 미팅 맥락에서 Motivation과 Novelty가 어떻게 구분되는지 확인해보세요
교수: "기존 방법만으로는 안 된다, 그러니까 scene context를 판단하는 모듈이 앞에 붙어야 한다" — 여기까지가 모티베이션이에요. 아직 연구가 시작도 안 된 거죠.
학생: 그러면 저희가 지금 어디쯤 있는 건가요?
교수: 인트로 두 번째 문단까지 온 거예요 ...
가상의 연구 미팅 대화 전문 보기
Case 1. ResNet (He et al., CVPR 2016 Best Paper)— "왜 ResNet은 명작인가"
사실: 1,000+ layer 네트워크를 학습 가능하게 만든 단일 아이디어· 200,000+ citations
관찰
(motivation)
"VGG처럼 layer를 늘리면 성능이 올라야 하는데, 어느 순간부터 training error가 오히려 증가한다. 이건 overfitting이 아니다 (training error도 증가하니까). 따라서 optimization 문제다."
→ 여기까지가 motivation. 2티어 논문이라면 "그래서 우리는 새 optimizer를 제안한다"로 끝났을 것.
원리적 분석
(insight)
"만약 추가된 layer가 identity mapping이라도 학습할 수 있다면, 깊은 네트워크가 얕은 네트워크보다 나빠질 이유가 없다. 그런데 plain network는 identity를 학습하기 어렵다 — 여러 비선형 layer를 쌓아 정확히 f(x)=x를 만드는 건 optimizer 입장에서 hard task다."
해법의 도출
(novelty)
"Identity가 어렵다면, 그걸 default로 만들자. H(x) = F(x) + x로 reparameterize하면, F(x)=0만 학습하면 identity가 자동으로 보장된다. 이제 네트워크는 'identity로부터의 residual'만 학습하면 된다."
→ 모듈의 형태(skip connection)가 문제 분석에서 자연스럽게 도출됨. 이게 novelty다.
검증의 정밀함
Plain-34 vs ResNet-34 직접 비교, ResNet-18/34/50/101/152 scaling 실험, projection vs identity shortcut ablation, bottleneck 설계 정당화, CIFAR-10에서 1202-layer 극단 실험까지. 각 design choice를 ablation으로 입증.
학생이 배울 점: "Deep network가 잘 학습이 안 된다"는 motivation은 누구나 관찰한다. ResNet의 진짜 기여는 "왜 안 되는가"를 identity mapping의 학습 난이도라는 한 문장으로 정리한 것, 그리고 그 분석이 skip connection이라는 단 하나의 형태를 강제했다는 점이다. 2티어 논문은 "deeper network를 위해 새 학습 기법 제안" 수준에서 멈춘다.
Case 2. Transformer (Vaswani et al., NeurIPS 2017)— "Attention is all you need"의 진짜 의미
사실: RNN을 쓰지 않고 self-attention만으로 SOTA 달성· 150,000+ citations · LLM 시대의 시작
관찰
(motivation)
"RNN은 sequential하다 보니 (1) 병렬화 불가, (2) long-range dependency를 capture하기 위한 path length가 O(n)으로 길다. Attention을 RNN에 붙여 보완하는 연구는 많았다."
→ 2티어 논문 패턴: "RNN + attention + 새 모듈 X = 약간 더 좋은 BLEU"
원리적 분석
(insight)
"Attention이 RNN의 보완이 아니라 대체가 될 수 있는가? 세 가지 기준으로 비교하자: (1) layer당 computational complexity, (2) parallelizable한 연산량, (3) long-range path length. Self-attention은 세 항목 모두 RNN/CNN보다 우월하다."
→ "기존의 어떤 한계를 푸느냐"가 아니라, "어떤 축으로 비교할 것인가"부터 새로 정의함.
해법의 도출
(novelty)
"Recurrence를 완전히 제거하고 self-attention만 쓰자. Path length가 O(1)이 되니 long-range가 쉬워진다. 단, sequence order 정보가 사라지므로 positional encoding으로 보충. 단일 attention의 표현력 한계는 multi-head로 해결."
→ 각 component(positional encoding, multi-head, scaled dot-product)가 모두 "recurrence 제거"라는 단일 선택의 필연적 귀결.
검증의 정밀함
Head 수, key/value dimension, dropout, label smoothing, positional encoding 종류 등 거의 모든 design choice에 대해 ablation. WMT 영-독, 영-불 + English constituency parsing으로 generality도 입증.
Case 3. NeRF (Mildenhall et al., ECCV 2020 Best Paper)— SLAM/3D vision 학생을 위한 사례
사실: MLP 하나로 photorealistic novel view synthesis· 10,000+ citations · 3D vision의 패러다임 전환
관찰
(motivation)
"Discrete voxel grid는 high resolution에서 메모리 폭발. Mesh는 topology 제약. Multi-view 이미지로부터 continuous 3D scene을 표현하고 싶다."
→ 2티어 패턴: "기존 voxel/mesh의 문제를 해결하기 위해 MLP를 사용한다." (왜 MLP가 답인지 설명 없음)
원리적 분석
(insight)
"Coordinate-based MLP F(x,y,z,θ,φ) → (RGB, σ)는 메모리 ∝ resolution이 아니라 ∝ scene complexity. 좋다. 그런데 실제로 돌려보니 detail이 안 산다. Rahaman et al.(2018)에 따르면 MLP는 low-frequency function에 bias가 있다 — 즉 'spectral bias'로 high-frequency detail을 못 학습한다."
→ 실패의 원인을 기존 이론에서 찾아냄.
해법의 도출
(novelty)
"MLP가 high-freq를 못 본다면, 입력을 high-freq로 lifting하자. γ(x) = [sin(2⁰πx), cos(2⁰πx), ..., sin(2^L πx), cos(2^L πx)]로 positional encoding. 추가로, ray sampling이 비효율적이니 hierarchical sampling (coarse→fine)으로 visible content에 capacity 집중."
→ Positional encoding은 transformer에서 빌려왔지만, 여기서의 역할은 다름 (sequence order가 아니라 frequency lifting). 빌려쓴 도구의 새로운 의미를 부여한 것 자체가 novelty.
검증의 정밀함
No PE / No view dir / No hierarchical / Fewer images 4가지 ablation 표가 메인 페이퍼에 등장. 각 component가 PSNR을 얼마나 올리는지 정량 입증.
학생이 배울 점: NeRF의 진짜 contribution은 "5D coordinate + MLP + volume rendering"이라는 조합이 아니다. 그건 누가 시도해도 떠올릴 수 있다. 진짜 contribution은 "왜 naive MLP는 안 되는가"를 spectral bias로 정확히 진단하고, "그래서 입력을 frequency-lifting해야 한다"는 결론을 도출한 것이다. 실패 원인 진단의 깊이가 novelty의 깊이를 결정한다.
Top-tier vs 2티어: 같은 데이터, 다른 논문— Stage-by-stage comparison
| 단계 |
Top-tier 패턴 (ResNet/Transformer/NeRF식) |
2티어/incremental 패턴 |
| Motivation |
"X가 잘 안 된다" + 왜 안 되는지 원리적 진단 (degradation, sequential bottleneck, spectral bias) |
"X가 잘 안 된다"에서 멈춤. 원인 진단이 "그래서 deep learning이 어렵다" 수준. |
Problem formulation |
기존과 다른 비교 축을 새로 정의 (e.g., path length, parallelism, frequency response) |
기존 벤치마크 점수만 비교 ("우리가 +1.2% 더 좋다") |
Method derivation |
해법의 형태가 분석에서 강제적으로 도출됨. "왜 이 형태?"에 답 가능. |
해법이 "이런 모듈을 붙여봤더니 됐다"식. Component가 swap 가능 (= novelty 약함). |
| Ablation |
각 design choice가 왜 그 값/형태여야 하는지 ablation으로 입증 |
"전체 시스템 vs baseline"만 있고 내부 component ablation 없음 |
| Generality |
2개 이상의 task/domain에서 검증 (Transformer: NMT + parsing; ResNet: ImageNet + COCO + CIFAR) |
단일 dataset, 단일 task에서만 결과 보고 |
Failure analysis |
언제, 왜 실패하는지 명시 (NeRF: dynamic scene 안 됨; Transformer: O(n²) 메모리) |
실패 사례 언급 없음 또는 "future work"로 회피 |
Reviewer 질문 대응 |
"왜 더 단순하게 못하나?" "왜 X 대신 Y인가?"에 한 문장으로 답 가능 |
해당 질문이 오면 "그건 future work" 또는 "실험을 안 해봤다" |
핵심 진단법: 너의 논문 초안을 위 표의 오른쪽 열(2티어 패턴)에 대입해보라. 만약 7개 행 중 4개 이상에서 오른쪽이 맞다면, 너는 motivation 단계에서 멈춰있는 것이다. 메소드 섹션을 다시 써야 할 시점이다.
제출/미팅 전 8문항 자가진단— Self-diagnosis checklist
-
1. Naive baseline을 한 줄로 정의하고, 왜 안 되는지 원리적으로 답할 수 있는가?
ResNet식: "Plain deep network를 그냥 쌓으면 → identity mapping을 학습 못해서 degradation 발생". 이 수준의 원리적 답을 못 내면 motivation이 weak하다.
-
2. 내 method의 각 component를 하나씩 빼면 무엇이 깨지는가? Ablation 설계가 가능한가?
NeRF는 PE 빼면 blurry, hierarchical sampling 빼면 느리거나 부정확, view dir 빼면 specular 안 됨. 각 component가 swap 가능하면 novelty가 아니다.
-
3. "왜 더 단순한 X로는 안 되나?"의 X 후보 3개를 댈 수 있는가?
Transformer 저자가 "왜 RNN이 아닌가"에 답하기 위해 path length, complexity, parallelism 3개 축을 만들었듯, 너도 비교 축을 가져야 한다.
-
4. 내 문제를 한 문장 + 수식 한 줄로 정의할 수 있는가?
ResNet: "
H(x) = F(x) + x로 reparameterize". NeRF: "F: (x,d) → (c,σ)". 수식 한 줄로 안 잡히면 method가 정리되지 않은 것이다.
-
5. 가장 가까운 선행연구 3편의 한계를 각각 다른 각도로 비판할 수 있는가?
3편 모두 "데이터셋이 작다", "정확도가 낮다"로 비판하면 related work를 제대로 안 읽은 것. 비판의 다양성이 곧 분석의 깊이다.
-
6. 내 contribution 문장에서 "우리는 ~을 제안한다"를 빼도 의미가 남는가?
"우리는 residual learning을 제안한다" → 빼면 "Identity mapping은 plain network에서 학습이 어렵다"라는 insight가 남는다. Insight가 contribution이지, 모듈 자체가 contribution이 아니다.
-
7. 실험이 motivation을 반복하는가, novelty를 검증하는가?
"우리 게 baseline보다 좋다" → motivation 확인용. "X가 빠지면 Y 상황에서만 깨진다" → novelty 검증용. 후자가 메인 페이지에 있어야 한다.
-
8. Reviewer가 "그래서 뭐가 새로운가?"라고 물을 때 30초 안에 답할 수 있는가?
ResNet 저자라면 30초 답: "Identity mapping이 plain net에서 학습이 어려운 게 degradation의 원인이고, residual reparameterization으로 그걸 default로 만들면 1000-layer까지 학습된다." 너도 이 수준의 답을 가져야 한다.
⚠ 미팅에서 자주 듣게 되는 위험 신호 표현
- "기존엔 이걸 안 했어요" (← 안 한 이유가 있을 수도)
- "VLM/LLM/X에 그냥 넣어봤더니 안 되더라고요"
- "그래서 모듈을 하나 추가했습니다" (× 단일 모듈)
- "이게 저희 contribution입니다" (× 1개)
- "비슷한 연구는 못 찾았습니다"
- "실험은 아직 안 해봤지만 잘 될 것 같아요"
- "이 부분은 future work입니다" (× 핵심 challenge)
- "Reviewer가 물어보면 그때 답하죠"
- "Ablation은 시간 없어서 못 했어요"
- "우리 dataset에서만 테스트했어요"
- "왜 이 모듈인지는 잘 모르겠지만 잘 돼요"
- "그냥 attention/transformer/diffusion 붙였어요"
마지막 자가검증: 명작 한 문장 비교— Write your own one-liner
ResNet
"Identity mapping이 plain network에서 학습이 어렵다는 점이 degradation의 원인이며, residual reparameterization으로 이를 default로 만들 수 있다."
Transformer
"Sequence modeling에서 recurrence를 제거하면 path length가 O(1)이 되어 long-range dependency가 trivial해지고, parallelism이 회복된다."
NeRF
"MLP의 spectral bias로 인해 coordinate-based scene representation은 high-freq detail을 잃는데, 입력에 frequency lifting을 적용하면 이를 극복할 수 있다."
너의 논문
________________________________________________________________________________
________________________________________________________________________________
위 명작들처럼 "원인 진단 + 해법의 원리"가 담긴 한 문장으로 너의 contribution을 적을 수 없다면, 아직 motivation 단계다. 이 빈칸을 채울 수 있을 때 비로소 method 섹션을 쓸 준비가 된 것이다.
안내: 아래는 가상의 연구 주제(로봇 grasping)를 소재로 구성한 가상의 지도 대화입니다.
실제 특정 연구실이나 인물과는 무관하며, 앞서 소개한 Motivation → Challenge → Novelty 구조가
실제 미팅 맥락에서 어떻게 드러나는지를 보여주기 위해 작성되었습니다.
1. 모티베이션과 챌린지를 구분하라
학생
기존 depth 기반 grasping 방법이 투명한 물체나 반사면에서 자주 실패한다는 걸 실험으로 보였고, 그래서 foundation model 기반 scene context 모듈을 앞에 붙였습니다. 이게 저희 contribution이라고 생각했는데요.
교수
잠깐, 거기서 멈춰야 할 것 같아요. 지금 챌린지랑 모티베이션을 구분하지 못하고 있는 거예요.
교수
"기존 방법만으로는 안 된다, 그러니까 scene context를 판단하는 모듈이 앞에 붙어야 한다" — 여기까지가 모티베이션이에요. 아직 연구가 시작도 안 된 거죠.
2. 실험을 많이 했어도 여전히 모티베이션이다
학생
근데 저희가 실험을 꽤 많이 돌렸거든요. 여러 물체 유형에서 비교도 하고, 다양한 조명 조건에서도 테스트했는데, 이 정도면 실험적으로 충분히 뒷받침된 거 아닌가요?
교수
그게 착각이에요. 실험을 많이 했다는 것 자체가 모티베이션을 챌린지로 바꿔주진 않아요. 모티베이션조차도 실험에서 나와야 하는 건 맞아요 — 상상만으로 도출했다고 생각하시면 안 되고. 근데 그 실험들이 "기존 방식이 안 된다"는 걸 보여준 거잖아요. 그건 문제 제기지, 해법에 대한 연구가 아니에요. 실험량이 많아지면 모티베이션이 두꺼워지는 거지, 챌린지가 생기는 게 아닙니다.
3. 모티베이션은 인트로 두 번째 문단까지밖에 못 간 것
학생
그러면 저희가 지금 어디쯤 있는 건가요?
교수
인트로 두 번째 문단까지 온 거예요. 독자 입장에서는 "어, 그래, 네 주장 동의할게" 하고 끄덕이는 단계죠. 근데 여기서 많은 학생들이 착각하는 게 있어요 — "좋아, 나 이런 모듈 디자인했으니까 노벨티 인정받을 수 있겠지?" — 이게 특허식 마인드예요. 논문식 마인드가 아니고. 특허는 인풋이 뭐고 아웃풋이 뭔지 명세서 쓰면 되지만, 논문은 거기서부터가 시작이에요.
4. 리뷰어 레벨에서 보면 다 모티베이션이다
학생
리뷰어들도 그렇게 생각하나요? 너무 가혹한 것 같은데...
교수
이게 초등학교 발명 경진대회가 아니잖아요. 박사 4년차나 교수들이 리뷰에 들어와요. 아 물론 지금 논의는 탑 티어 컨퍼런스/저널 기준의 bar에 대한 이야기에요. 지금 논문에서 인용하는 분야 유명 논문이 있으면, 그 저자 중 한 명이 리뷰어로 들어온다고 생각하면 돼요. 그 사람들 레벨에서 보면 지금까지 한 얘기는 전부 모티베이션으로밖에 안 느껴져요. 그 사람들이 진짜 궁금한 건 "너만의 챌린지가 뭐고, 그걸 얼마나 멋지게 극복했냐"예요. 모티베이션만 주장하면, 사실 그 모티베이션은 그 분야 연구자라면 누구나 공감하는 얘기거든요. 그게 노벨티가 될 순 없어요.
5. 올바른 연구 전개 구조
학생
그러면 어떤 흐름으로 가야 하는 건가요?
교수
순서가 있어요. 먼저 가장 단순한 naive baseline을 직접 구현해서 리얼 환경에서 돌려봐요. 생각보다 잘 안 될 거예요. 거기서 멈추지 말고, 왜 안 되는지를 케이스별로 전수 조사해서 실패 원인을 분류해요. "안 되는 이유가 이런 세 가지더라" — 이게 챌린지 포인트예요. 그다음에, 그 챌린지 포인트들을 정확하게 겨냥해서 모듈을 새롭게 설계하는 거죠. 그렇게 하면 모듈의 형태가 분석에서 자연스럽게 도출돼요. 그것만으로도 충분한 연구가 됩니다.
6. "0이던 걸 1로 만들었다"는 논리의 한계
학생
근데 기존 방법들은 이 상황에서 아예 동작을 못 했는데, 저희 건 된다는 게 contribution 아닌가요?
교수
사실 "기존은 0이고 우리는 1이다"라는 논리 자체가 문제는 아니에요. 그 방향으로 작업하고 있는 연구실이 이미 많다는 게 문제죠. 그러니까 먼저 모티베이션에서 도출된 나이브한 구현을 새로운 베이스라인으로 삼아요. 거기서 끝이 아니라, 앞서 분석을 통해 추가로 도출된 챌린지들까지 극복해야 하는 거고요. 그 과정에서 나이브한 메소드의 강화 버전이 자연스럽게 나오게 되죠. "단순하게 구현하면 50% 수준인데, 우리는 거기서 챌린지를 하나씩 해결해서 70%까지 끌어올렸다" — 이 얘기를 할 수 있어야 탑 학회나 저널 레벨의 메소드 페이퍼가 됩니다.
7. 하나를 고치면 세 개가 생긴다 — 그 세 개를 찾아야 한다
교수
그리고 지금 "FM으로 라우팅한다"고 끝이라고 생각하시는 것 같은데, 그게 아니에요. FM 쪽으로 라우팅을 타는 순간 리얼 월드에서 새로운 문제들이 발생해요. 하나를 고치면 세 개가 더 생기는 거죠. 예를 들어, FM은 기존 제어 루프보다 응답 속도가 훨씬 느릴 텐데 그 사이 제어는 어떻게 하죠? 라우팅 기준이 너무 관대하면 FM을 너무 자주 호출해서 컴퓨팅을 낭비하고, 너무 엄격하면 필요한 순간에 못 쓰죠. 이런 실질적인 고민들이 리뷰어 레벨에서 바로 떠오르는 질문들이에요. 그 세 개를 찾아오시면, 그다음부터는 풀릴 겁니다.
8. 논문 읽기 훈련 — 인트로에서 구조를 읽어라
교수
한 가지 더 여쭤볼게요. 일주일에 논문 몇 편 정도 읽어요? 요약 시키는 거 말고, 직접.
교수
한 열 배는 늘려야 할 것 같아요. 요즘 AI가 요약해준 게 마치 내 실력인 것처럼 착각하게 되는 경우들이 있는데, 그건 아니에요. 메소드 섹션까지 다 읽을 필요는 없어요. 인트로와 Related Work까지만 제대로 읽어도 — 어디서 모티베이션이 끊기고, 어디가 챌린지고, 어디가 컨트리뷰션인지가 보여요. 그 구조를 읽는 눈을 키우는 게 먼저입니다.
그리고 구현하고 검증하는 능력이랑 별개로, 논문을 한 줄 한 줄 제대로 읽는 훈련도 꼭 해야 해요. 논문에서 설득력은 결국 글쓰기 능력이거든요. 근데 이게 구현력이랑 완전히 별개예요 — 코드 잘 짜는 사람이 글을 잘 쓰는 건 아니고, 반대도 마찬가지예요. 둘 다 따로 키워야 하는 근육이에요. 남의 논문을 line by line으로 읽다 보면, 저자가 왜 이 문장을 여기 배치했는지, 왜 이 단어를 골랐는지가 보이기 시작해요. 그게 쌓여야 내가 쓸 때도 설득력 있는 문장이 나와요.
9. "퀄리티 낮은 논문도 붙던데요" — 확률로 생각하라
학생
근데 요즘 플래그십도 퀄리티가 낮은 논문도 많이 보이는 것 같습니다.
교수
맞아요, 없는 얘기는 아니에요. 실제로 운 좋게 들어간 논문들이 있긴 하죠. 근데 거기서 한번 계산을 해봐야 돼요.
보통 리뷰어가 3명이에요. 그 중 논문을 관대하게 봐줄 수 있는 사람이 한 명 걸릴 확률을 넉넉히 30%로 잡아봐요. 근데 리뷰는 한 명이 하는 게 아니잖아요. 내 논문에 유리한 점수판이 만들어지려면 적어도 두 명이 그런 사람이어야 해요. 그 확률이 얼마냐면, 0.3 곱하기 0.3, 9%예요. 그러니까 내가 운에 기대서 붙으려면 9% 확률을 뚫어야 하는 거예요. 91% 확률로 리젝이라는 거죠.
그럼 내가 준비를 제대로 하지 않고 운에 기대고자 하는 경우에, 플래그십 학회 혹은 저널 논문의 한 사이클 — 제출부터 리뷰를 받거나 리부탈을 수행하는 시간 — 이 보통 6개월이니까, 91% 확률로 6개월을 잃어요. 한 번 더 돌리면? 0.91 곱하기 0.91, 83% 확률로 1년이 그냥 흘러가는 거예요.
석사라면 이게 어떤 의미인지 알잖아요. 졸업 디펜스 직전이 되면 시간이 없어요. 그 83%가 현실이 되는 순간 선택지가 없어져요. 박사라도 마찬가지고요 — 1년은 그냥 작은 숫자가 아니에요.
그래서 저는 학생들한테 항상 이렇게 물어봐요. "너는 지금 9%짜리 도박에 6개월을 걸 준비가 됐어?" 라고. 그 질문에 자신 있게 "네" 라고 답할 수 있으면 내도 돼요. 근데 대부분은 그 계산을 안 해보고 "퀄리티 낮은 논문도 붙더라"는 관찰에서 희망을 찾는 거거든요. 그건 확률이 아니라 그냥 위안이에요.