오늘의 한줄

오늘은 복잡한 구조보다 단순한 베이스라인이 강력함을 보인 비디오·멀티모달 연구와, LLM의 학습·추론 비용을 함께 최적화하려는 스케일링/압축 연구가 눈에 띄었습니다. 동시에 코드·컴퓨터 사용 에이전트의 프라이버시와 유해행동을 정밀하게 평가하려는 벤치마크 흐름도 뚜렷해졌습니다.

📄Multimodal & Generative6

스트리밍 비디오 이해를 위한 단순하지만 강력한 베이스라인⭐ 46

SimpleStream은 최근 N개 프레임만 보는 슬라이딩 윈도우만으로도 복잡한 메모리 기반 스트리밍 비디오 모델들을 따라잡거나 넘어서며, 4프레임만으로 OVO-Bench 67.7%, StreamingBench 80.59%를 기록했습니다.

CoME-VL: 상보적 멀티 인코더 비전-언어 학습 확장⭐ 6

CoME-VL은 CLIP 계열 인코더와 DINO 인코더를 엔트로피 기반 멀티레이어 집계와 RoPE 크로스어텐션으로 융합해, 검색 정렬력과 조밀한 시각 의미를 함께 살리는 모듈형 VLM 설계를 제안합니다.

토큰 워핑으로 MLLM의 근접 시점 이해를 높이다⭐ 10

이 논문은 픽셀 대신 ViT 토큰을 뒤로 워핑하는 방식이 근접 시점 변화에서 더 안정적임을 보이며, 새 벤치마크 ViewBench에서 MLLM의 시점 변환 추론 신뢰도를 높였습니다.

💻Code & Agents4

AgentSocialBench: 인간 중심 에이전트 소셜 네트워크의 프라이버시 위험 평가⭐ 3

AgentSocialBench는 7개 시나리오 범주와 계층형 민감도 라벨, 사회관계 그래프를 바탕으로 인간-에이전트 소셜 네트워크의 프라이버시 누출 위험을 체계적으로 측정하는 첫 벤치마크입니다.

InCoder-32B-Thinking: 사고를 위한 산업용 코드 월드 모델

InCoder-32B-Thinking은 ECoT와 산업용 코드 월드 모델(ICWM)로 시뮬레이션·프로파일링 기반 추론 흔적을 합성하고 실행 결과를 사전 예측·검증해, 하드웨어 제약이 있는 산업 코드 추론을 강화했습니다.

AgentHazard: 컴퓨터 사용 에이전트의 유해 행동 평가 벤치마크

AgentHazard는 2,653개 사례로 구성된 벤치마크로, 개별 단계는 그럴듯하지만 전체적으로는 위험해지는 컴퓨터 사용 에이전트의 누적형 유해 행동을 평가합니다.

📄Training & Optimization3

Swift-SVD: 이론적 최적성과 실용 효율을 함께 잡은 저랭크 LLM 압축

Swift-SVD는 출력 활성 공분산을 한 번만 집계·고유값분해하는 닫힌형식 압축으로, 학습 없이도 이론적으로 최적인 저랭크 근사를 빠르고 안정적으로 수행하며 동적 랭크 할당까지 제공합니다.

자기 증류 기반 RLVR

Self-Distilled RLVR은 정답을 아는 자기교사 기반 OPSD의 정보 누출 문제를 지적하고, 검증 가능한 보상 위에 토큰 단위 정책 차이를 얹는 RLSD로 더 안정적인 장기 학습을 제안합니다.

테스트타임 스케일링은 오버트레이닝을 계산 최적으로 만든다

Train-to-Test 스케일링 법칙은 모델 크기·학습 토큰·추론 샘플 수를 함께 최적화한 결과, 추론 비용까지 고려하면 Chinchilla식 적정보다 훨씬 더 많이 학습한 오버트레이닝 구간이 최적일 수 있음을 보였습니다.

🗣️Language Models1

XpertBench: 루브릭 기반 전문가 수준 과제 평가 벤치마크

XpertBench는 금융·의료·법률 등 80개 범주, 1,346개 과제를 전문가 루브릭의 15~40개 체크포인트로 채점해, LLM의 실제 전문직 수준 수행능력을 더 정교하게 측정합니다.

📄Robotics & RL1

월드 액션 모델은 VLA보다 일반화가 더 잘될까? 견고성 분석

이 논문은 미래 상태 예측을 내재화한 월드 액션 모델(WAM)이 보지 못한 상황과 문맥 교란에서 VLA보다 더 강건한지 비교하며, 로봇 정책의 일반화 원인을 동역학 예측 관점에서 점검합니다.