오늘의 한줄

오늘은 추론 효율화, 멀티모달 시스템 고도화, 그리고 평가·벤치마크 인프라 강화가 특히 두드러졌습니다. 단순히 성능을 올리는 것을 넘어, 비용·일반화·신뢰성까지 함께 다루는 연구가 많아졌다는 점이 인상적입니다.

📄Multimodal & Generative7

확산 확률 모델의 SNR-t 바이어스 해부69

확산 모델 추론 시 timestep과 실제 SNR 불일치로 품질이 떨어지는 SNR-t 바이어스를 규명하고, 주파수별 차등 보정으로 이를 완화해 생성 품질 저하를 줄였습니다.

PersonaVLM: 장기 개인화를 지원하는 멀티모달 LLM48

PersonaVLM은 멀티모달 기억 저장, 회상 기반 추론, 성향 정렬을 결합해 사용자의 장기적 선호와 성격 변화를 반영하는 개인화 멀티모달 에이전트를 제안했습니다.

3D 생성 모델을 재활용한 자기회귀 3D 레이아웃 생성16

LaviGen은 3D 생성 모델을 자기회귀 레이아웃 생성기로 재구성하고 이중 가이드 self-rollout distillation을 더해 LayoutVLM에서 물리적 타당성을 19% 높이고 계산을 65% 가속했습니다.

📄Robotics & RL1

RoboLab: 범용 로봇 정책 분석을 위한 고충실도 시뮬레이션 벤치마크72

RoboLab은 광범위한 장면·과제를 사실적 시뮬레이션에서 생성해 실제 로봇 정책의 일반화와 외란 민감도를 체계적으로 분석할 수 있게 하는 벤치마크 프레임워크입니다.

💻Code & Agents3

AccelOpt: AI 가속기 커널 최적화를 위한 자기개선형 LLM 에이전트 시스템34

AccelOpt는 느린-빠른 커널 쌍의 최적화 메모리를 축적하며 Trainium 커널을 자동 개선해 NKIBench에서 peak throughput을 T1 49%→61%, T2 45%→59%로 높였고 Claude Sonnet 4 수준을 26배 저렴하게 달성했습니다.

놀라운 에이전트 레이스: 도구 사용은 강하지만 탐색은 약하다5

AAR은 포크-병합형 DAG 도구 체인을 요구하는 1,400개 과제로 에이전트를 평가한 결과, 최고 성능도 37.2%에 그쳤고 핵심 병목이 도구 사용보다 탐색 능력임을 드러냈습니다.

QuantCode-Bench: 실행 가능한 알고리즘 트레이딩 전략 생성 능력을 평가하는 LLM 벤치마크3

QuantCode-Bench는 Backtrader용 전략 생성 400개 과제를 통해 문법 정확성, 백테스트 실행, 실제 거래 발생, 의미 정합성까지 함께 평가하는 금융 코드 생성 벤치마크입니다.

👁️Computer Vision3

NTIRE 2026 비디오 시선집중도 예측 챌린지: 방법과 결과15

2,000개 비디오와 5,000명 이상 시청 데이터로 구축한 대규모 공개 벤치마크를 바탕으로 비디오 saliency prediction 챌린지 결과를 정리해 향후 모델 비교 기준을 마련했습니다.

VEFX-Bench: 범용 비디오 편집과 시각효과를 위한 종합 벤치마크

VEFX-Dataset 5,049건과 편집 전용 보상모델 VEFX-Reward를 제안해 instruction following, 렌더링 품질, edit exclusivity를 분리 평가하는 비디오 편집 표준을 마련했습니다.

TIPSv2: 향상된 패치-텍스트 정렬로 비전-언어 사전학습 고도화하기

TIPSv2는 patch-level distillation과 iBOT++를 통해 조밀한 patch-text 정렬을 크게 개선해 분류·검색·세그멘테이션·깊이 예측 등 다양한 다운스트림 성능 향상을 이끌었습니다.

🗣️Language Models4

손실을 줄이세요! 효율적 병렬 추론을 위한 조기 경로 가지치기 학습7

STOP은 병렬 추론의 prefix 단계에서 불필요한 경로를 학습적으로 잘라내는 방법으로, 고정 연산량에서 GPT-OSS-20B의 AIME25 정확도를 84%에서 거의 90%까지 끌어올렸습니다.

효율적이고 비용 효율적인 RAG를 위한 웹 검색 인지 청킹 W-RAC

W-RAC은 웹 문서를 ID 기반 구조 단위로 분해한 뒤 LLM은 청크 그룹화만 맡기도록 설계해 토큰 비용과 환각을 줄이면서 대규모 웹 RAG의 디버깅 가능성과 확장성을 높였습니다.

포스트트레이닝에서 출력 다양성은 어디서 무너지는가?1

Olmo 3 계열 분석을 통해 출력 다양성 붕괴의 핵심 원인이 학습 기법 자체보다 데이터 구성에 더 크게 좌우되며, Think 계열은 SFT 단계에서 의미 다양성이 크게 줄어든다고 밝혔습니다.

📄Training & Optimization2

데이터나 최적화 없이 최대한의 뇌 손상: 부호 비트 뒤집기로 신경망 붕괴시키기3

DNL과 1P-DNL은 데이터 없이 취약 파라미터를 찾아 몇 개의 sign bit만 뒤집어 ResNet-50 정확도를 99.8% 떨어뜨리고 Qwen3-30B 추론 성능도 78%에서 0%로 붕괴시켰습니다.

AI 아키텍처 진화의 보편적 통계 서명0

161편의 ablation 935개를 분석해 AI 아키텍처 변화의 효과 분포가 생물 진화와 유사한 heavy-tailed 법칙을 따른다고 보이며, 설계 탐색을 진화 관점에서 해석할 틀을 제시했습니다.

매일 아침, 받은편지함에서 만나보세요

새로운 뉴스레터가 발행될 때마다 이메일로 받아볼 수 있습니다.

받아볼 뉴스레터 선택