오늘의 한줄
오늘은 추론 효율화, 멀티모달 시스템 고도화, 그리고 평가·벤치마크 인프라 강화가 특히 두드러졌습니다. 단순히 성능을 올리는 것을 넘어, 비용·일반화·신뢰성까지 함께 다루는 연구가 많아졌다는 점이 인상적입니다.
📄Multimodal & Generative7
확산 확률 모델의 SNR-t 바이어스 해부⭐ 69
확산 모델 추론 시 timestep과 실제 SNR 불일치로 품질이 떨어지는 SNR-t 바이어스를 규명하고, 주파수별 차등 보정으로 이를 완화해 생성 품질 저하를 줄였습니다.
PersonaVLM: 장기 개인화를 지원하는 멀티모달 LLM⭐ 48
PersonaVLM은 멀티모달 기억 저장, 회상 기반 추론, 성향 정렬을 결합해 사용자의 장기적 선호와 성격 변화를 반영하는 개인화 멀티모달 에이전트를 제안했습니다.
3D 생성 모델을 재활용한 자기회귀 3D 레이아웃 생성⭐ 16
LaviGen은 3D 생성 모델을 자기회귀 레이아웃 생성기로 재구성하고 이중 가이드 self-rollout distillation을 더해 LayoutVLM에서 물리적 타당성을 19% 높이고 계산을 65% 가속했습니다.
📄Robotics & RL1
RoboLab: 범용 로봇 정책 분석을 위한 고충실도 시뮬레이션 벤치마크⭐ 72
RoboLab은 광범위한 장면·과제를 사실적 시뮬레이션에서 생성해 실제 로봇 정책의 일반화와 외란 민감도를 체계적으로 분석할 수 있게 하는 벤치마크 프레임워크입니다.
💻Code & Agents3
AccelOpt: AI 가속기 커널 최적화를 위한 자기개선형 LLM 에이전트 시스템⭐ 34
AccelOpt는 느린-빠른 커널 쌍의 최적화 메모리를 축적하며 Trainium 커널을 자동 개선해 NKIBench에서 peak throughput을 T1 49%→61%, T2 45%→59%로 높였고 Claude Sonnet 4 수준을 26배 저렴하게 달성했습니다.
놀라운 에이전트 레이스: 도구 사용은 강하지만 탐색은 약하다⭐ 5
AAR은 포크-병합형 DAG 도구 체인을 요구하는 1,400개 과제로 에이전트를 평가한 결과, 최고 성능도 37.2%에 그쳤고 핵심 병목이 도구 사용보다 탐색 능력임을 드러냈습니다.
QuantCode-Bench: 실행 가능한 알고리즘 트레이딩 전략 생성 능력을 평가하는 LLM 벤치마크⭐ 3
QuantCode-Bench는 Backtrader용 전략 생성 400개 과제를 통해 문법 정확성, 백테스트 실행, 실제 거래 발생, 의미 정합성까지 함께 평가하는 금융 코드 생성 벤치마크입니다.
👁️Computer Vision3
NTIRE 2026 비디오 시선집중도 예측 챌린지: 방법과 결과⭐ 15
2,000개 비디오와 5,000명 이상 시청 데이터로 구축한 대규모 공개 벤치마크를 바탕으로 비디오 saliency prediction 챌린지 결과를 정리해 향후 모델 비교 기준을 마련했습니다.
VEFX-Bench: 범용 비디오 편집과 시각효과를 위한 종합 벤치마크
VEFX-Dataset 5,049건과 편집 전용 보상모델 VEFX-Reward를 제안해 instruction following, 렌더링 품질, edit exclusivity를 분리 평가하는 비디오 편집 표준을 마련했습니다.
TIPSv2: 향상된 패치-텍스트 정렬로 비전-언어 사전학습 고도화하기
TIPSv2는 patch-level distillation과 iBOT++를 통해 조밀한 patch-text 정렬을 크게 개선해 분류·검색·세그멘테이션·깊이 예측 등 다양한 다운스트림 성능 향상을 이끌었습니다.
🗣️Language Models4
손실을 줄이세요! 효율적 병렬 추론을 위한 조기 경로 가지치기 학습⭐ 7
STOP은 병렬 추론의 prefix 단계에서 불필요한 경로를 학습적으로 잘라내는 방법으로, 고정 연산량에서 GPT-OSS-20B의 AIME25 정확도를 84%에서 거의 90%까지 끌어올렸습니다.
효율적이고 비용 효율적인 RAG를 위한 웹 검색 인지 청킹 W-RAC
W-RAC은 웹 문서를 ID 기반 구조 단위로 분해한 뒤 LLM은 청크 그룹화만 맡기도록 설계해 토큰 비용과 환각을 줄이면서 대규모 웹 RAG의 디버깅 가능성과 확장성을 높였습니다.
포스트트레이닝에서 출력 다양성은 어디서 무너지는가?⭐ 1
Olmo 3 계열 분석을 통해 출력 다양성 붕괴의 핵심 원인이 학습 기법 자체보다 데이터 구성에 더 크게 좌우되며, Think 계열은 SFT 단계에서 의미 다양성이 크게 줄어든다고 밝혔습니다.
📄Training & Optimization2
데이터나 최적화 없이 최대한의 뇌 손상: 부호 비트 뒤집기로 신경망 붕괴시키기⭐ 3
DNL과 1P-DNL은 데이터 없이 취약 파라미터를 찾아 몇 개의 sign bit만 뒤집어 ResNet-50 정확도를 99.8% 떨어뜨리고 Qwen3-30B 추론 성능도 78%에서 0%로 붕괴시켰습니다.
AI 아키텍처 진화의 보편적 통계 서명⭐ 0
161편의 ablation 935개를 분석해 AI 아키텍처 변화의 효과 분포가 생물 진화와 유사한 heavy-tailed 법칙을 따른다고 보이며, 설계 탐색을 진화 관점에서 해석할 틀을 제시했습니다.