오늘의 한줄
오늘은 LLM 추론·에이전트 평가의 현실적인 한계와 이를 보완하려는 학습·벤치마크 연구가 특히 눈에 띕니다. 동시에 비디오·3D·멀티모달 생성에서는 더 정교한 제어성과 실제 활용성을 높이려는 흐름이 뚜렷합니다.
🗣️Language Models4
SPEED-Bench: 추측 디코딩을 위한 통합·다양성 벤치마크⭐ 2,471
SPEED-Bench는 의미적으로 다양한 질적 분할과 동시성별 처리량 분할을 함께 제공해, 데이터 의존적인 speculative decoding 성능을 실제 서빙 환경에 가깝게 표준 평가할 수 있게 합니다.
트랜스포머의 어텐션 싱크: 활용·해석·완화에 대한 서베이⭐ 34
이 서베이는 트랜스포머의 attention sink 현상을 활용·기계적 해석·완화 전략의 세 축으로 정리해, 환각과 추론 불안정성에 연결되는 구조적 문제를 연구자 관점에서 한눈에 파악하게 합니다.
자기반성형 확산 언어모델⭐ 43
I-DLM은 diffusion LM의 품질 열세를 자기일관성 부족으로 보고, 이전 토큰을 검증하며 병렬 생성하는 ISD 디코딩을 도입해 AR의 장점을 흡수한 고품질 병렬 언어생성을 제시합니다.
👁️Computer Vision1
WildDet3D: 실환경으로 확장하는 프롬프트형 3D 탐지⭐ 256
WildDet3D는 텍스트·포인트·박스 프롬프트와 추론 시 깊이 신호까지 함께 쓰는 geometry-aware 단안 3D 탐지기와 대규모 WildDet3D-Data를 제안해 개방형 3D 일반화를 확장했습니다.
📄Robotics & RL4
과거는 지나가지 않았다: 메모리 강화 동적 보상 셰이핑⭐ 79
MEDS는 과거 롤아웃 표현을 메모리에 저장하고 반복되는 오류 클러스터에 더 큰 패널티를 주는 방식으로 탐색 다양성을 높여, 5개 데이터셋·3개 모델에서 최대 4.13 pass@1과 4.37 pass@128 향상을 보였습니다.
물리 시뮬레이터 기반 강화학습으로 푸는 물리 올림피아드⭐ 11
이 연구는 물리 엔진에서 생성한 합성 QA로 LLM을 RL 학습해, 실제 데이터 없이도 IPhO 성능을 5~10%p 높이는 zero-shot sim-to-real 물리 추론 가능성을 보여줍니다.
지식 강화 데이터 합성으로 끌어내는 의료 추론: 준지도 강화학습 접근⭐ 8
MedSSR은 희귀질환 지식으로 분포 제어형 문제를 합성하고 모델 자체의 pseudo-label을 활용해 self-supervised RL 후 supervised fine-tuning을 수행함으로써, 비싼 외부 CoT 없이 의료 추론을 강화합니다.
📄Multimodal & Generative7
RefineAnything: 완벽한 국소 디테일을 위한 멀티모달 영역별 정제⭐ 49
RefineAnything는 스크리블·박스 등 지정 영역만 정밀 복원하고 나머지 픽셀은 유지하는 확산 기반 정제 모델로, crop-and-resize와 Focal Prompting으로 텍스트·로고·얇은 구조 같은 국소 붕괴를 개선합니다.
OmniShow: 사람-사물 상호작용 영상 생성을 위한 멀티모달 조건 통합⭐ 35
OmniShow는 텍스트·참조 이미지·오디오·포즈를 하나로 결합하는 HOI 비디오 생성 프레임워크로, Unified Channel-wise Conditioning과 Gated Local-Context Attention으로 제어성과 음성-영상 동기화를 함께 높였습니다.
Strips as Tokens: 네이티브 UV 분할을 갖춘 아티스트급 메시 생성⭐ 55
SATO는 삼각형 스트립 기반 토큰 순서를 통해 UV 경계와 연속적인 edge flow를 자연스럽게 보존하며, 하나의 시퀀스로 삼각·사각 메시를 모두 복원해 아티스트 품질 메시 생성의 표현력을 높였습니다.
📄Training & Optimization1
EquiformerV3: 효율성·표현력·범용성을 확장한 SE(3) 등변 그래프 어텐션 트랜스포머⭐ 38
EquiformerV3는 merged layer norm, smooth radius cutoff, SwiGLU-S^2 등을 도입해 엄밀한 등변성을 유지하면서도 1.75배 속도 향상과 더 강한 many-body 표현력을 달성했습니다.
💻Code & Agents3
CocoaBench: 실환경 통합 디지털 에이전트 평가⭐ 23
CocoaBench는 비전·검색·코딩을 조합해야 하는 장기 과제로 통합 에이전트를 평가하며, 최고 시스템도 성공률 45.1%에 그쳐 범용 디지털 에이전트의 신뢰성이 아직 낮음을 보여줍니다.
TRACE: 역량 표적형 에이전트 학습⭐ 28
TRACE는 성공·실패 trajectory를 대비해 부족한 역량을 자동 식별하고, 역량별 합성 환경에서 LoRA를 RL로 학습한 뒤 라우팅해 환경 특화형 에이전트 자기개선을 가능하게 합니다.
뿌리를 추적하다: 포스트트레이닝 LLM의 데이터 계보를 밝히는 멀티에이전트 프레임워크⭐ 12
이 연구는 멀티에이전트로 포스트트레이닝 데이터셋의 계보 그래프를 복원해 중복·오염 전파를 드러내고, 이를 활용한 lineage-aware 데이터 선택으로 더 다양한 학습셋 구성을 제안합니다.