오늘의 한줄

오늘은 LLM 추론·에이전트 평가의 현실적인 한계와 이를 보완하려는 학습·벤치마크 연구가 특히 눈에 띕니다. 동시에 비디오·3D·멀티모달 생성에서는 더 정교한 제어성과 실제 활용성을 높이려는 흐름이 뚜렷합니다.

🗣️Language Models4

SPEED-Bench: 추측 디코딩을 위한 통합·다양성 벤치마크2,471

SPEED-Bench는 의미적으로 다양한 질적 분할과 동시성별 처리량 분할을 함께 제공해, 데이터 의존적인 speculative decoding 성능을 실제 서빙 환경에 가깝게 표준 평가할 수 있게 합니다.

트랜스포머의 어텐션 싱크: 활용·해석·완화에 대한 서베이34

이 서베이는 트랜스포머의 attention sink 현상을 활용·기계적 해석·완화 전략의 세 축으로 정리해, 환각과 추론 불안정성에 연결되는 구조적 문제를 연구자 관점에서 한눈에 파악하게 합니다.

자기반성형 확산 언어모델43

I-DLM은 diffusion LM의 품질 열세를 자기일관성 부족으로 보고, 이전 토큰을 검증하며 병렬 생성하는 ISD 디코딩을 도입해 AR의 장점을 흡수한 고품질 병렬 언어생성을 제시합니다.

👁️Computer Vision1

WildDet3D: 실환경으로 확장하는 프롬프트형 3D 탐지256

WildDet3D는 텍스트·포인트·박스 프롬프트와 추론 시 깊이 신호까지 함께 쓰는 geometry-aware 단안 3D 탐지기와 대규모 WildDet3D-Data를 제안해 개방형 3D 일반화를 확장했습니다.

📄Robotics & RL4

과거는 지나가지 않았다: 메모리 강화 동적 보상 셰이핑79

MEDS는 과거 롤아웃 표현을 메모리에 저장하고 반복되는 오류 클러스터에 더 큰 패널티를 주는 방식으로 탐색 다양성을 높여, 5개 데이터셋·3개 모델에서 최대 4.13 pass@1과 4.37 pass@128 향상을 보였습니다.

물리 시뮬레이터 기반 강화학습으로 푸는 물리 올림피아드11

이 연구는 물리 엔진에서 생성한 합성 QA로 LLM을 RL 학습해, 실제 데이터 없이도 IPhO 성능을 5~10%p 높이는 zero-shot sim-to-real 물리 추론 가능성을 보여줍니다.

지식 강화 데이터 합성으로 끌어내는 의료 추론: 준지도 강화학습 접근8

MedSSR은 희귀질환 지식으로 분포 제어형 문제를 합성하고 모델 자체의 pseudo-label을 활용해 self-supervised RL 후 supervised fine-tuning을 수행함으로써, 비싼 외부 CoT 없이 의료 추론을 강화합니다.

📄Multimodal & Generative7

RefineAnything: 완벽한 국소 디테일을 위한 멀티모달 영역별 정제49

RefineAnything는 스크리블·박스 등 지정 영역만 정밀 복원하고 나머지 픽셀은 유지하는 확산 기반 정제 모델로, crop-and-resize와 Focal Prompting으로 텍스트·로고·얇은 구조 같은 국소 붕괴를 개선합니다.

OmniShow: 사람-사물 상호작용 영상 생성을 위한 멀티모달 조건 통합35

OmniShow는 텍스트·참조 이미지·오디오·포즈를 하나로 결합하는 HOI 비디오 생성 프레임워크로, Unified Channel-wise Conditioning과 Gated Local-Context Attention으로 제어성과 음성-영상 동기화를 함께 높였습니다.

Strips as Tokens: 네이티브 UV 분할을 갖춘 아티스트급 메시 생성55

SATO는 삼각형 스트립 기반 토큰 순서를 통해 UV 경계와 연속적인 edge flow를 자연스럽게 보존하며, 하나의 시퀀스로 삼각·사각 메시를 모두 복원해 아티스트 품질 메시 생성의 표현력을 높였습니다.

📄Training & Optimization1

EquiformerV3: 효율성·표현력·범용성을 확장한 SE(3) 등변 그래프 어텐션 트랜스포머38

EquiformerV3는 merged layer norm, smooth radius cutoff, SwiGLU-S^2 등을 도입해 엄밀한 등변성을 유지하면서도 1.75배 속도 향상과 더 강한 many-body 표현력을 달성했습니다.

💻Code & Agents3

CocoaBench: 실환경 통합 디지털 에이전트 평가23

CocoaBench는 비전·검색·코딩을 조합해야 하는 장기 과제로 통합 에이전트를 평가하며, 최고 시스템도 성공률 45.1%에 그쳐 범용 디지털 에이전트의 신뢰성이 아직 낮음을 보여줍니다.

TRACE: 역량 표적형 에이전트 학습28

TRACE는 성공·실패 trajectory를 대비해 부족한 역량을 자동 식별하고, 역량별 합성 환경에서 LoRA를 RL로 학습한 뒤 라우팅해 환경 특화형 에이전트 자기개선을 가능하게 합니다.

뿌리를 추적하다: 포스트트레이닝 LLM의 데이터 계보를 밝히는 멀티에이전트 프레임워크12

이 연구는 멀티에이전트로 포스트트레이닝 데이터셋의 계보 그래프를 복원해 중복·오염 전파를 드러내고, 이를 활용한 lineage-aware 데이터 선택으로 더 다양한 학습셋 구성을 제안합니다.

매일 아침, 받은편지함에서 만나보세요

새로운 뉴스레터가 발행될 때마다 이메일로 받아볼 수 있습니다.

받아볼 뉴스레터 선택