오늘의 한줄
오늘은 에이전트 평가·보안과 추론 효율화가 특히 두드러졌습니다. 벤치마크는 결과물만이 아니라 과정과 프라이버시까지 보기 시작했고, 모델 쪽은 간단한 자기증류·응답 길이 제어·효율적 깊이 확장처럼 실전형 개선이 눈에 띕니다.
💻Code & Agents8
ClawKeeper: OpenClaw 에이전트를 위한 스킬·플러그인·워처 기반 종합 안전 보호⭐ 279
ClawKeeper는 OpenClaw 에이전트에 대해 스킬·플러그인·워처의 3계층 실시간 보안 프레임워크를 제안해 파일 접근·셸 실행 같은 고권한 에이전트의 데이터 유출과 권한 상승 위험을 수명주기 전반에서 통합적으로 막는다.
MiroEval: 멀티모달 딥리서치 에이전트를 과정과 결과로 평가하기⭐ 16
MiroEval은 실제 사용자 요구 기반 100개 과제로 딥리서치 에이전트를 최종 보고서뿐 아니라 적응형 합성 품질·에이전트형 사실성 검증·과정 품질까지 함께 평가하는 라이브형 멀티모달 벤치마크다.
Vision2Web: 에이전트 검증을 갖춘 계층형 비주얼 웹사이트 개발 벤치마크⭐ 11
Vision2Web은 실제 웹사이트 기반 193개 과제로 UI-to-code부터 멀티페이지 프론트엔드, 장기 풀스택 개발까지 평가하고 GUI 에이전트 검증기와 VLM 판정기를 결합해 현 SOTA도 풀스택 단계에선 크게 고전함을 보여준다.
📄Multimodal & Generative2
ViGoR-Bench: 비주얼 생성 모델은 제로샷 시각 추론에 얼마나 가까운가⭐ 35
ViGoR-Bench는 이미지·비디오 생성 모델을 과정과 최종 결과 모두에서 평가하는 추론 중심 벤치마크로, 20개 이상 최신 모델이 높은 화질과 별개로 물리·인과·공간 추론에서 큰 결손을 보인다는 점을 드러낸다.
GaussianGPT: 자기회귀 방식의 3D 가우시안 장면 생성으로
GaussianGPT는 3D Gaussian primitive를 벡터양자화 토큰으로 압축한 뒤 causal transformer로 순차 생성해, 확산 대신 자기회귀 방식으로 3D 장면 생성·완성·아웃페인팅·온도 기반 제어 샘플링을 가능하게 한다.
📄Training & Optimization4
너무 단순한 자기증류로 코드 생성 성능 올리기⭐ 15
SSD는 검증기·교사모델·RL 없이 모델 자신의 샘플만으로 재학습해 Qwen3-30B-Instruct의 LiveCodeBench v6 pass@1을 42.4%에서 55.3%로 끌어올리며, 특히 어려운 문제에서 코드 생성력을 크게 높인다.
PixelPrune: 예측 부호화로 픽셀 단위 시각 토큰을 적응적으로 줄이기⭐ 3
PixelPrune은 문서·GUI 이미지의 중복 패치를 ViT 이전 픽셀 공간에서 제거하는 학습 없는 압축 기법으로, 벤치마크에서 패치의 22~71%가 중복이라는 관찰을 바탕으로 인코더와 LLM 전체 추론 비용을 함께 줄인다.
효율적인 깊이 확장을 위한 Universal YOCO
YOCO-U는 YOCO 아키텍처와 얕은 층 재귀 계산을 결합해 글로벌 KV 캐시를 상수로 유지하면서 테스트타임 깊이 확장을 가능하게 해, 추론·에이전트 성능을 계산량 대비 더 효율적으로 키우려는 설계를 제시한다.
📄Robotics & RL1
MMaDA-VLA: 멀티모달 지시와 생성을 통합한 대규모 확산 비전-언어-행동 모델⭐ 28
MMaDA-VLA는 언어·이미지·로봇 제어를 하나의 이산 토큰 공간에 넣고 확산 방식으로 미래 관측과 액션 청크를 병렬 생성해, 긴 시계열 조작에서 일관성과 환경 동역학 반영을 동시에 노린 네이티브 VLA 모델이다.
👁️Computer Vision2
PerceptionComp: 복합 지각 중심 추론을 위한 비디오 벤치마크⭐ 8
PerceptionComp는 279개 비디오에 1,114개 수작업 질문을 붙여 시간적으로 떨어진 단서와 결합·순차 논리를 함께 요구하는 장기 비디오 추론을 측정하며, 인간도 반복 시청 없이는 정확도가 18.97%까지 떨어질 만큼 난도가 높다.
Think, Act, Build: 제로샷 3D 비주얼 그라운딩을 위한 VLM 에이전트 프레임워크⭐ 4
TAB은 3D 비주얼 그라운딩을 원시 RGB-D 스트림에서의 2D-to-3D 재구성 문제로 재정의해, VLM이 시각 도구를 동적으로 호출하며 추적·재구성하도록 만들어 제로샷 3D-VG의 정적 제안 매칭 한계를 넘는다.
🗣️Language Models3
QuitoBench: 고품질 오픈 시계열 예측 벤치마크
QuitoBench는 Alipay 기반 대규모 시계열 코퍼스로 만든 23만2,200개 평가 인스턴스 벤치마크로, 짧은 문맥에선 딥러닝이 강하지만 긴 문맥(L≥576)에선 파운데이션 모델이 우세하고 예측 가능성이 난도의 핵심 변수임을 보여준다.
Reasoning Shift: 문맥은 어떻게 LLM 추론을 조용히 짧게 만드는가
Reasoning Shift는 불필요한 긴 문맥, 멀티턴 대화, 하위 과제 포장만으로도 동일 문제에 대한 추론 흔적이 최대 50% 짧아지고 자기검증·불확실성 관리가 줄어든다는 점을 보여, 테스트타임 추론의 취약성을 짚는다.
간결성 제약이 언어모델 성능 서열을 뒤집는다⭐ 0
31개 모델 분석 결과 큰 모델은 장황함 때문에 7.7% 문제에서 작은 모델보다 28.4%p 낮았지만, 짧게 답하라는 제약만으로 정확도가 26%p 오르고 수학·과학 벤치에선 성능 서열이 완전히 뒤집혔다.