오늘의 한줄

오늘은 추론 효율화, 멀티모달 시스템 고도화, 그리고 평가·벤치마크 인프라 강화가 특히 두드러졌습니다. 단순히 성능을 올리는 것을 넘어, 비용·일반화·신뢰성까지 함께 다루는 연구가 많아졌다는 점이 인상적입니다.

📄Multimodal & Generative7

확산 모델 추론 시 timestep과 실제 SNR 불일치로 품질이 떨어지는 SNR-t 바이어스를 규명하고, 주파수별 차등 보정으로 이를 완화해 생성 품질 저하를 줄였습니다.

PersonaVLM은 멀티모달 기억 저장, 회상 기반 추론, 성향 정렬을 결합해 사용자의 장기적 선호와 성격 변화를 반영하는 개인화 멀티모달 에이전트를 제안했습니다.

LaviGen은 3D 생성 모델을 자기회귀 레이아웃 생성기로 재구성하고 이중 가이드 self-rollout distillation을 더해 LayoutVLM에서 물리적 타당성을 19% 높이고 계산을 65% 가속했습니다.

RoboLab은 광범위한 장면·과제를 사실적 시뮬레이션에서 생성해 실제 로봇 정책의 일반화와 외란 민감도를 체계적으로 분석할 수 있게 하는 벤치마크 프레임워크입니다.

AccelOpt는 느린-빠른 커널 쌍의 최적화 메모리를 축적하며 Trainium 커널을 자동 개선해 NKIBench에서 peak throughput을 T1 49%→61%, T2 45%→59%로 높였고 Claude Sonnet 4 수준을 26배 저렴하게 달성했습니다.

AAR은 포크-병합형 DAG 도구 체인을 요구하는 1,400개 과제로 에이전트를 평가한 결과, 최고 성능도 37.2%에 그쳤고 핵심 병목이 도구 사용보다 탐색 능력임을 드러냈습니다.

QuantCode-Bench는 Backtrader용 전략 생성 400개 과제를 통해 문법 정확성, 백테스트 실행, 실제 거래 발생, 의미 정합성까지 함께 평가하는 금융 코드 생성 벤치마크입니다.

2,000개 비디오와 5,000명 이상 시청 데이터로 구축한 대규모 공개 벤치마크를 바탕으로 비디오 saliency prediction 챌린지 결과를 정리해 향후 모델 비교 기준을 마련했습니다.

VEFX-Dataset 5,049건과 편집 전용 보상모델 VEFX-Reward를 제안해 instruction following, 렌더링 품질, edit exclusivity를 분리 평가하는 비디오 편집 표준을 마련했습니다.

TIPSv2는 patch-level distillation과 iBOT++를 통해 조밀한 patch-text 정렬을 크게 개선해 분류·검색·세그멘테이션·깊이 예측 등 다양한 다운스트림 성능 향상을 이끌었습니다.

STOP은 병렬 추론의 prefix 단계에서 불필요한 경로를 학습적으로 잘라내는 방법으로, 고정 연산량에서 GPT-OSS-20B의 AIME25 정확도를 84%에서 거의 90%까지 끌어올렸습니다.

W-RAC은 웹 문서를 ID 기반 구조 단위로 분해한 뒤 LLM은 청크 그룹화만 맡기도록 설계해 토큰 비용과 환각을 줄이면서 대규모 웹 RAG의 디버깅 가능성과 확장성을 높였습니다.

Olmo 3 계열 분석을 통해 출력 다양성 붕괴의 핵심 원인이 학습 기법 자체보다 데이터 구성에 더 크게 좌우되며, Think 계열은 SFT 단계에서 의미 다양성이 크게 줄어든다고 밝혔습니다.

DNL과 1P-DNL은 데이터 없이 취약 파라미터를 찾아 몇 개의 sign bit만 뒤집어 ResNet-50 정확도를 99.8% 떨어뜨리고 Qwen3-30B 추론 성능도 78%에서 0%로 붕괴시켰습니다.

161편의 ablation 935개를 분석해 AI 아키텍처 변화의 효과 분포가 생물 진화와 유사한 heavy-tailed 법칙을 따른다고 보이며, 설계 탐색을 진화 관점에서 해석할 틀을 제시했습니다.