어떤 논문을 써야 하는가

Chapter 01

갈림길

모든 연구 논문은 이 스펙트럼 위 어딘가에 있다.

문제 정의형 해법 고도화형

핵심 질문

"우리가 이걸 봐야 해"

"이걸 더 잘하는 방법이 있어"

신규성

새로운 메트릭, 문제 정의, 추상화

파이프라인 조합, 대규모 평가, SOTA

수명

김 — 모델이 바뀌어도 프레임워크 유효

짧음 — 다음 모델이 나오면 대체됨

예시

Attention Is All You Need, NeRF, Dropout

EfficientNet (NAS 조합), YOLOv7

이 구분은 출발점으로 유용하다. 하지만 이 글은 이 이분법을 세운 뒤 해체할 것이다. 최종적으로 묻게 될 질문은 "문제 정의형인가, 해법 고도화형인가"가 아니라, 이 논문에 깊이가 있는가이다. 먼저 이분법이 잘 작동하는 사례를 보자.

Chapter 02 — Case Study

도착점이 갈린다

Object Detection의 진화

두 논문 모두 object detection 성능을 높이려 한다. 하지만 도착점이 전혀 다르다.

DETR — "detection이라는 문제 자체를 재정의하겠다"는 곳에 도착했다. Anchor, NMS, hand-designed 요소를 전부 걷어내고 set prediction으로 바꿨다.

YOLOv7 — "같은 문제를 가장 빠르고 정확하게 풀겠다"는 곳에 도착했다. E-ELAN 구조와 re-parameterization으로 실시간 성능의 천장을 올렸다.

DETR — 문제 재정의 YOLOv7 — 해법 고도화

핵심 기여

"Detection은 set prediction이다"라는 새로운 추상화. Anchor, NMS, hand-designed 후처리를 전부 제거하고 end-to-end로 재구성

E-ELAN 구조와 re-parameterization을 통한 실시간 detection 성능의 새로운 상한선. 동일 조건에서 이전 YOLO 시리즈를 전면 갱신

기여의 성격

프레임워크 전환 — detection을 바라보는 방식 자체가 바뀐다

엔지니어링 축적 — 같은 프레임워크 안에서 천장을 높인다

수명의 원천

개념이 살아남는다 — 모델이 바뀌어도 "set prediction"이라는 관점은 유효

생태계가 살아남는다 — v5→v7→v8로 이어지는 축적이 산업 인프라가 됨

이 사례에서는 이분법이 깔끔하게 작동한다. DETR은 개념으로 살아남고, YOLO는 생태계로 살아남는다. 다음 사례에서도 그럴까?

Chapter 03 — Case Study

같은 욕망, 반대 방향

모델 일반화 성능 개선

"더 좋은 일반화 성능을 원한다"는 같은 동기. 하나는 학습 과정에 노이즈를 주는 원리(principle)를, 하나는 최적 구조를 탐색하는 조합(composition)을 택했다.

Dropout (Srivastava et al.) EfficientNet (Tan & Le)

전략

학습 시 랜덤하게 뉴런을 끄는 단순한 원리

NAS + compound scaling으로 최적 구조 탐색

핵심 기여

"Co-adaptation 방지"라는 원리 발견

Width·Depth·Resolution의 최적 조합 제시

생존력

아키텍처가 바뀌어도 원리 유효 (CNN→Transformer)

ViT가 등장하면서 CNN 기반 scaling 법칙도 구식이 됨

얼핏 보면 Dropout이 압도적이다. 아키텍처가 CNN에서 Transformer로 바뀌어도 원리가 유효했으니까. 하지만 이 비교에는 함정이 있다.

Dropout이 "아키텍처가 바뀌어도 유효"하다고 했지만, 현대 대규모 Transformer에서는 dropout rate을 0으로 두는 경우가 늘고 있다. 원리도 영원하지는 않다. 반대로, EfficientNet은 단순한 NAS 벤치마크가 아니었다. CNN이라는 아키텍처는 수단일 뿐, 모델의 자원은 유기적으로 얽혀 있으며 동시에 조율해야 한다는 것을 compound scaling으로 정량화한 것이 본질이었다. 이 사고방식은 이후 Kaplan et al. (2020)의 Neural Scaling Laws와 같은 맥락 위에 있다.

이분법이 흔들리기 시작한다.
EfficientNet은 "해법 고도화"로 출발했지만, 사후적으로 보면 원리를 품고 있었다.
유형은 처음부터 정해지지 않는다.

Chapter 04 — 전환점

이분법이 무너지는 지점

발표 시점의 설명과, 시간이 흐른 뒤 밝혀진 해석은 다르다. 이 간극을 들여다보면, "문제 정의형 vs 해법 고도화형"이라는 분류 자체보다 중요한 것이 보인다.

다음 세 사례를 보자.

논문 / 기법 발표 시점의 설명 사후적 재해석

ResNet

He et al., 2016

발표 시점의 설명

"Skip connection으로 gradient가 직접 흐른다" — 이미 원리 수준의 설명이 있었다

사후적 재해석

앙상블 효과 — 2^N개 경로의 implicit ensemble (Veit et al., NeurIPS 2016). Loss surface 평탄화 — skip connection이 손실 함수 지형을 극적으로 smooth하게 만든다 (Li et al., NeurIPS 2018)

Attention

Bahdanau et al., 2015

발표 시점의 설명

"긴 문장에서 중요한 단어에 집중하자"

사후적 재해석

Dynamic weighting — 입력에 따라 실시간으로 그래프 구조를 생성하는 일반화된 연산 모델. GNN과 Transformer가 같은 프레임워크 위에 있다는 발견으로 이어짐

Batch Norm

Ioffe & Szegedy, 2015

발표 시점의 설명

"Internal Covariate Shift를 줄여 학습을 안정화한다"

사후적 재해석

원래 설명은 사실상 틀렸다. 본질은 Lipschitz continuity를 강제하여 최적화 지형을 안정화하는 것 (Santurkar et al., NeurIPS 2018)

사례마다 양상이 다르다. ResNet은 처음부터 원리가 있었고, 이후 더 깊은 층위가 추가되었다. BatchNorm은 발표 시점의 설명이 사실상 틀렸고, 진짜 이유는 3년 뒤에야 밝혀졌다. EfficientNet은 해법 고도화로 출발했지만, 사후적으로 scaling law의 선구적 사례가 되었다.

여기서 핵심적인 패턴이 드러난다.

이 논문들의 공통점은 "문제 정의형"이라는 것이 아니다. ResNet은 시스템이었고, BatchNorm은 최적화 트릭이었고, EfficientNet은 NAS 벤치마크였다. 유형은 제각각이다. 공통점은 다른 곳에 있다: 발표 시점의 설명보다 깊은 구조를 품고 있었다는 것.

"왜 작동하는가"에 대한 답이 논문 안에 완결되지 않았고, 다음 세대가 그 "왜"를 밝히는 것이 새로운 연구가 되었다. 이것이 깊이다.

좋은 논문은 자기 자신이 왜 작동하는지 완전히 설명하지 못한 채로 발표된다.
그리고 그 "왜"를 밝히는 것이 다음 세대의 논문이 된다.

그렇다면 질문을 바꿔야 한다.

"이 논문은 문제 정의형인가, 해법 고도화형인가?"가 아니라, "이 논문에는, 저자 자신도 아직 다 설명하지 못한 깊이가 있는가?"

Chapter 05

깊이를 판별하는 법

앞서 도달한 기준은 "깊이"다. 하지만 깊이는 추상적이다. 이것을 구체적으로 판별하려면 어떤 질문을 해야 하는가?

다음 세 가지 질문이 핵심이다. 하나라도 "아니오"라면, 프레이밍을 재고할 때다.

01 — 부재 테스트

이 논문이 없었다면, 커뮤니티가 무엇을 잃는가?

이것은 유형에 따라 답의 형태가 달라지는 질문이다. DETR이 없으면 "anchor-free detection"이라는 사고방식이 늦어진다. YOLO가 없으면 실시간 detection의 실질적 기반이 없어진다. Dropout이 없으면 co-adaptation이라는 개념 자체가 지연되고, EfficientNet이 없으면 "자원은 동시에 조율해야 한다"는 정량화가 늦어진다. 유형은 달라도 답의 선명도는 비교할 수 있다. 답이 "별로 달라지지 않는다"이면 재고하라.

02 — 세대 테스트

다음 세대가 이 논문 위에서 "왜"를 물을 수 있는가?

이 질문은 Chapter 04의 핵심 관찰에서 직접 나온다. ResNet 위에서 앙상블 효과가 밝혀졌고, BatchNorm 위에서 Lipschitz continuity가 밝혀졌고, EfficientNet 위에서 scaling law의 맥락이 드러났다. 이 논문들은 "작동하는 무언가"를 세상에 내놓았기에 다음 세대가 "왜"를 물을 토양이 되었다. 반면, 매년 수천 편 발표되는 벤치마크 논문 대부분은 "왜"를 물을 여지를 남기지 않는다. 결과가 있을 뿐 구조가 없기 때문이다.

03 — 한 문장 테스트

구성요소 나열 없이 한 문장으로 설명 가능한가?

"Attention만으로 sequence-to-sequence 모델을 만든다."
"모델의 width·depth·resolution은 동시에 조율해야 한다."
둘 다 한 문장이다. 하나는 문제 정의형이고, 하나는 해법 고도화형이다. 하지만 둘 다 깊이가 있다. 반면 "MobileNetV3 + BiFPN + compound scaling + AutoAugment를 조합해 detection 성능을 높인다"는 부품 목록이다. 한 문장이 되지 않는 논문은, 유형과 무관하게, 깊이가 부족할 가능성이 높다.

Chapter 06

어디에 서 있는가

자기 논문이 어디에 있는지 솔직하게 진단하라. "깊이"를 기준으로 보면, 스펙트럼은 유형이 아니라 수준의 문제다.

문제 명명 + 해결책 제안

Attention Is All You Need — "recurrence 없는 sequence 모델링"이라는 문제를 정의하고 Transformer로 해결

→ 서브필드를 정의한다. 다음 세대가 "왜 attention이 작동하는가?"를 물었다.

새로운 관점 또는 원리 제시

EfficientNet — "자원은 동시에 조율해야 한다"는 원리를 compound scaling으로 정량화. 발표 당시에는 Level 2로 보였지만 깊이가 있었기에 격상되었다

→ 사고방식을 바꾼다. 다음 세대가 이 위에서 scaling law를 발전시켰다.

포괄적 벤치마크 / 시스템

MMDetection — 다양한 detection 모델을 통합 프레임워크에서 공정 비교. 커뮤니티의 인프라가 된다

→ 도구로 살아남는다. 하지만 "왜"를 물을 여지가 적다.

기존 벤치마크 성능 향상

매년 나오는 ImageNet SOTA 논문들 — 새 기법 조합으로 0.3% 향상

→ 1년 안에 구식됨. 결과만 있고 구조가 없다.

수준 사이의 이동은 가능하다 — 그러나 EfficientNet은 Level 2에서 Level 3으로 올라간 사례다. 하지만 이것이 가능했던 이유는 처음부터 깊이가 있었기 때문이다. compound scaling이라는 공식 안에 "자원 배분의 원리"가 내재되어 있었고, 시간이 그것을 드러냈을 뿐이다. "나중에 격상될 수 있다"는 가능성이, 지금 Level 1–2에 안주하는 것을 정당화하지는 않는다. 사후적 격상은 발견이지, 생성이 아니다. 없는 깊이를 시간이 만들어주지는 않는다.

Level 1–2에 있다면, 실험 데이터는 그대로 두고 프레이밍만 바꿔보라.
같은 결과로도 "다음 세대가 왜를 물을 수 있는 무언가"를 드러낼 수 있다면 한 단계 올라간다.

Chapter 07

다음 한 편

앞의 진단이 추상적으로 느껴질 수 있다. 대학원생이 실제로 처하는 상황별로 구체적 전략을 정리한다.

상황 A — 아이디어는 있는데, 실험이 약하다

워크숍 논문을 써라. 새 메트릭 하나를 1개 데이터셋에서 검증한 날카로운 4쪽이, 11개 config을 3개 데이터셋에서 벤치마크한 8쪽보다 낫다. Dropout의 초기 논문을 떠올려라: 원리는 단순했고, 실험은 이후 수년간 다른 사람들이 쌓았다.

부재 테스트를 적용하면: "이 4쪽이 없었다면, 이 메트릭/관점은 언제 등장했을까?" 답이 "누군가 곧 했을 것"이면 날카롭지 않은 것이다.

상황 B — 실험은 풍부한데, 아이디어가 점진적이다

프레이밍을 바꿔라. "X 방법들을 Y 데이터셋에서 평가했다" 대신, 그 평가가 드러내는 구조를 물어라. EfficientNet이 "NAS 벤치마크"가 아니라 "자원 배분의 원리"로 재프레이밍되었듯이, 같은 데이터에서 "다음 세대가 왜를 물을 수 있는 무언가"를 찾아라.

세대 테스트를 적용하면: "후속 연구자가 내 실험 결과 위에서 어떤 질문을 할 수 있는가?" 그 질문이 떠오르지 않으면 프레이밍이 얕은 것이다.

상황 C — 리비전에서 "novelty가 부족하다"는 리뷰를 받았다

실험을 추가하기 전에, 먼저 한 문장 테스트를 해보라. 논문의 기여가 구성요소 나열 없이 한 문장으로 설명되는가? 되지 않는다면, 실험을 추가해도 리뷰어의 불만은 해소되지 않는다. 기여의 서술 방식을 바꿔야 한다.

한 문장 테스트를 적용하면: 한 문장이 만들어졌다면, 그 문장을 abstract의 첫 줄에 놓아라. 리뷰어는 첫 30초에 논문의 가치를 판단한다.

상황 D — 경쟁 논문이 먼저 나왔다

같은 동기에서 출발해도 해법의 깊이가 다르면 완전히 다른 논문이 된다. DETR과 YOLOv7은 둘 다 detection을 더 잘하려 했지만, 하나는 개념으로, 하나는 생태계로 살아남았다. 경쟁 논문과 실험 결과가 겹치더라도, 세 가지 테스트에서 더 선명한 답을 줄 수 있다면, 그것은 다른 논문이다.

Conclusion

결론

이 글은 이분법에서 출발했다. 문제 정의형과 해법 고도화형. 하지만 사례를 하나씩 들여다볼수록, 그 경계는 흐려졌다. EfficientNet은 해법 고도화로 출발해 원리가 되었고, BatchNorm의 원래 설명은 틀렸지만 깊이가 있었기에 다음 세대가 진짜 이유를 밝혀냈다. YOLO는 시스템 논문의 축적이 생태계가 된 경우다.

결국 남는 기준은 유형이 아니라 깊이다. 그리고 깊이를 판별하는 질문은 세 가지로 수렴한다.

01이 논문이 없었다면, 커뮤니티가 무엇을 잃는가?

02다음 세대가 이 위에서 "왜"를 물을 수 있는가?

03구성요소 나열 없이 한 문장으로 설명 가능한가?

깊이를 갖추는 가장 확실한 경로는 문제 재정의다. 새로운 이름을 붙이는 것, 기존 전제를 뒤집는 것, 커뮤니티가 보지 못했던 것을 보여주는 것. 하지만 이것이 유일한 경로는 아니다. EfficientNet은 해법 고도화에서 출발해 깊이에 도달했다. 중요한 것은 출발점이 아니라 도착점이다.

논문을 쓸 때 물어라

이 논문에는,
저자 자신도 아직 다 설명하지 못한
깊이가 있는가?

그 답이 "예"인 논문이 살아남는다.
유형은 중요하지 않다. 깊이가 전부다.

저자의 사견

그럼에도 불구하고, 학교에서 쓰는 논문이라면 문제 재정의를 먼저 시도해야 한다고 생각한다. 산업계에서는 해법 고도화가 곧 제품이고, 제품이 곧 임팩트다. 그 맥락에서 YOLO가 DETR보다 중요한 것은 당연하다.

하지만 학계가 존재하는 이유는 당장 쓸 수 있는 것을 만드는 게 아니라, 아직 이름이 없는 것에 이름을 붙이는 일에 있다. "Attention"이라는 메커니즘이 명명되기 전에는, sequence의 각 위치가 다른 위치를 직접 참조하는 연산을 간결히 지칭할 방법이 없었다. "Skip connection"이라는 이름이 붙기 전에는, 깊은 네트워크의 학습이 왜 실패하는지 물을 언어조차 불완전했다. 문제에 이름을 붙이는 순간, 그 문제는 공유 가능해지고, 측정 가능해지고, 해결 가능해진다.

깊이를 갖추는 경로는 하나가 아니라고 했다. 맞다. 하지만 "아직 이름이 없는 것에 이름을 붙이는" 경험은, 학생 때가 아니면 하기 어렵다. 산업계에 가면 제품이 먼저이고, 이름은 나중이다. 학생들에게 이 경험을 먼저 시키고 싶다.

김기섭 · DGIST · 2026년 3월

어떤 논문을써야 하는가

갈림길

도착점이 갈린다

같은 욕망, 반대 방향

이분법이 무너지는 지점

깊이를 판별하는 법

이 논문이 없었다면, 커뮤니티가 무엇을 잃는가?

다음 세대가 이 논문 위에서 "왜"를 물을 수 있는가?

구성요소 나열 없이 한 문장으로 설명 가능한가?

어디에 서 있는가

다음 한 편

결론

어떤 논문을
써야 하는가