오늘의 한줄

오늘은 에이전트 평가·안전성 벤치마크와 추론 효율화 연구가 특히 두드러졌고, 비전·멀티모달 쪽에서는 생성 품질보다 ‘진짜 추론’과 장기 일관성을 따지는 흐름이 강해졌습니다. 한편 학습·추론 최적화는 놀랄 만큼 단순한 방법이 실제 성능과 비용을 크게 바꿀 수 있음을 다시 보여줍니다.

💻Code & Agents9

ClawKeeper: OpenClaw 에이전트를 위한 스킬·플러그인·워처 기반 종합 안전 보호⭐ 279

ClawKeeper는 OpenClaw 에이전트에 대해 지시문·플러그인·실행 감시의 3계층 보안을 실시간으로 묶어 민감정보 유출, 권한 상승, 악성 스킬 실행 같은 시스템 위협을 수명주기 전반에서 막는 프레임워크다.

MiroEval: 멀티모달 딥리서치 에이전트를 과정과 결과로 평가하다⭐ 16

MiroEval은 실제 사용자 요구를 반영한 100개 과제로 딥리서치 에이전트를 최종 보고서뿐 아니라 검색·검증·근거 활용 과정까지 평가해, 정적 리포트 채점만으로는 놓치던 연구형 에이전트의 실전 성능을 드러낸다.

Vision2Web: 에이전트 검증을 갖춘 시각적 웹사이트 개발 계층형 벤치마크⭐ 11

Vision2Web은 실제 웹사이트 기반 193개 과제로 UI 코드 생성부터 멀티페이지 프론트엔드와 풀스택 개발까지 평가하고, GUI 에이전트 검증기와 VLM 판정기를 결합해 현 최신 코딩 에이전트의 전 구간 성능 격차를 보여준다.

📄Multimodal & Generative2

ViGoR-Bench: 비주얼 생성 모델은 제로샷 시각 추론에 얼마나 가까운가⭐ 35

ViGoR-Bench는 이미지·비디오 생성 모델을 중간 과정과 최종 결과까지 함께 평가하는 추론 중심 벤치마크로, 20개 이상 최신 모델의 물리·인과·공간 추론 결함을 드러내며 ‘잘 그리는 것’과 ‘잘 생각하는 것’의 간극을 정량화했다.

GaussianGPT: 자기회귀 방식의 3D 가우시안 장면 생성으로

GaussianGPT는 3D 가우시안 프리미티브를 벡터양자화 토큰으로 압축한 뒤 트랜스포머가 다음 토큰 예측으로 장면을 순차 생성하게 해, 디퓨전 대신 완성·아웃페인팅·온도 제어가 쉬운 3D 생성 경로를 제시한다.

📄Training & Optimization4

놀랄 만큼 단순한 자기 증류로 코드 생성 성능 높이기⭐ 15

SSD는 검증기·교사모델·RL 없이 모델 자신의 샘플 출력만으로 재학습해 Qwen3-30B-Instruct의 LiveCodeBench v6 pass@1을 42.4%에서 55.3%로 끌어올리며, 어려운 문제일수록 더 큰 개선을 보였다.

PixelPrune: 예측 부호화로 구현한 픽셀 단위 적응형 비주얼 토큰 축소⭐ 3

PixelPrune은 문서·GUI 이미지의 중복 패치를 ViT 이전 픽셀 단계에서 제거해 전체 VLM 추론 파이프라인을 가볍게 만드는 학습 없는 방법으로, 벤치마크에서 패치의 22~71%가 중복이라는 점을 활용한다.

QuitoBench: 고품질 공개 시계열 예측 벤치마크

QuitoBench는 Alipay의 대규모 트래픽 시계열로 만든 23만2200개 평가 인스턴스 벤치마크로, 짧은 문맥에선 딥러닝이, 긴 문맥(L≥576)에선 파운데이션 모델이 우세하다는 문맥 길이 역전 현상을 보여준다.

📄Robotics & RL1

MMaDA-VLA: 멀티모달 지시와 생성을 통합한 대규모 디퓨전 비전-언어-액션 모델⭐ 28

MMaDA-VLA는 언어·이미지·로봇 제어를 하나의 이산 토큰 공간에 넣고 디퓨전으로 미래 목표 관측과 액션 청크를 병렬 생성해, 추가 모듈 없이도 장기 조작의 일관성과 환경 동역학 반영을 강화한 VLA 모델이다.

👁️Computer Vision2

PerceptionComp: 복합 지각 중심 추론을 위한 비디오 벤치마크⭐ 8

PerceptionComp는 279개 비디오에 대한 1,114개 수작업 질문으로 장기 시각 증거 결합과 순차·접속 논리를 요구하며, 사람도 재시청 없이 18.97% 수준까지 떨어질 만큼 어려운 진짜 비디오 추론 과제를 제시한다.

Think, Act, Build: 제로샷 3D 비주얼 그라운딩을 위한 VLM 에이전트 프레임워크⭐ 7

TAB은 3D 그라운딩을 정적 포인트클라우드 매칭이 아니라 RGB-D 스트림에서 2D VLM 추론과 다중시점 기하 재구성으로 푸는 에이전트형 프레임워크로, 제로샷 3D-VG를 더 동적으로 수행한다.

🗣️Language Models2

Reasoning Shift: 문맥은 어떻게 LLM의 추론을 조용히 짧게 만드는가

이 논문은 긴 무관 문맥, 멀티턴 대화, 복합 작업 속 하위문제 조건에서 동일 문제의 추론 길이가 최대 50%까지 줄어들고 자기검증도 감소함을 보여, 테스트타임 스케일링의 취약한 면을 드러낸다.

간결성 제약이 언어모델의 성능 서열을 뒤집는다⭐ 0

31개 모델 분석 결과 큰 모델이 7.7% 문제에서 작은 모델보다 28.4%p 낮았는데, 답변을 짧게 제한하자 정확도가 26%p 오르며 수학·과학 벤치마크에선 성능 서열이 완전히 뒤집혔다.