오늘의 한줄

오늘은 에이전트 평가·보안과 추론 효율화가 특히 두드러졌습니다. 벤치마크는 결과물만이 아니라 과정과 프라이버시까지 보기 시작했고, 모델 쪽은 간단한 자기증류·응답 길이 제어·효율적 깊이 확장처럼 실전형 개선이 눈에 띕니다.

💻Code & Agents8

ClawKeeper: OpenClaw 에이전트를 위한 스킬·플러그인·워처 기반 종합 안전 보호⭐ 279

ClawKeeper는 OpenClaw 에이전트에 대해 스킬·플러그인·워처의 3계층 실시간 보안 프레임워크를 제안해 파일 접근·셸 실행 같은 고권한 에이전트의 데이터 유출과 권한 상승 위험을 수명주기 전반에서 통합적으로 막는다.

MiroEval: 멀티모달 딥리서치 에이전트를 과정과 결과로 평가하기⭐ 16

MiroEval은 실제 사용자 요구 기반 100개 과제로 딥리서치 에이전트를 최종 보고서뿐 아니라 적응형 합성 품질·에이전트형 사실성 검증·과정 품질까지 함께 평가하는 라이브형 멀티모달 벤치마크다.

Vision2Web: 에이전트 검증을 갖춘 계층형 비주얼 웹사이트 개발 벤치마크⭐ 11

Vision2Web은 실제 웹사이트 기반 193개 과제로 UI-to-code부터 멀티페이지 프론트엔드, 장기 풀스택 개발까지 평가하고 GUI 에이전트 검증기와 VLM 판정기를 결합해 현 SOTA도 풀스택 단계에선 크게 고전함을 보여준다.

📄Multimodal & Generative2

ViGoR-Bench: 비주얼 생성 모델은 제로샷 시각 추론에 얼마나 가까운가⭐ 35

ViGoR-Bench는 이미지·비디오 생성 모델을 과정과 최종 결과 모두에서 평가하는 추론 중심 벤치마크로, 20개 이상 최신 모델이 높은 화질과 별개로 물리·인과·공간 추론에서 큰 결손을 보인다는 점을 드러낸다.

GaussianGPT: 자기회귀 방식의 3D 가우시안 장면 생성으로

GaussianGPT는 3D Gaussian primitive를 벡터양자화 토큰으로 압축한 뒤 causal transformer로 순차 생성해, 확산 대신 자기회귀 방식으로 3D 장면 생성·완성·아웃페인팅·온도 기반 제어 샘플링을 가능하게 한다.

📄Training & Optimization4

너무 단순한 자기증류로 코드 생성 성능 올리기⭐ 15

SSD는 검증기·교사모델·RL 없이 모델 자신의 샘플만으로 재학습해 Qwen3-30B-Instruct의 LiveCodeBench v6 pass@1을 42.4%에서 55.3%로 끌어올리며, 특히 어려운 문제에서 코드 생성력을 크게 높인다.

PixelPrune: 예측 부호화로 픽셀 단위 시각 토큰을 적응적으로 줄이기⭐ 3

PixelPrune은 문서·GUI 이미지의 중복 패치를 ViT 이전 픽셀 공간에서 제거하는 학습 없는 압축 기법으로, 벤치마크에서 패치의 22~71%가 중복이라는 관찰을 바탕으로 인코더와 LLM 전체 추론 비용을 함께 줄인다.

효율적인 깊이 확장을 위한 Universal YOCO

YOCO-U는 YOCO 아키텍처와 얕은 층 재귀 계산을 결합해 글로벌 KV 캐시를 상수로 유지하면서 테스트타임 깊이 확장을 가능하게 해, 추론·에이전트 성능을 계산량 대비 더 효율적으로 키우려는 설계를 제시한다.

📄Robotics & RL1

MMaDA-VLA: 멀티모달 지시와 생성을 통합한 대규모 확산 비전-언어-행동 모델⭐ 28

MMaDA-VLA는 언어·이미지·로봇 제어를 하나의 이산 토큰 공간에 넣고 확산 방식으로 미래 관측과 액션 청크를 병렬 생성해, 긴 시계열 조작에서 일관성과 환경 동역학 반영을 동시에 노린 네이티브 VLA 모델이다.

👁️Computer Vision2

PerceptionComp: 복합 지각 중심 추론을 위한 비디오 벤치마크⭐ 8

PerceptionComp는 279개 비디오에 1,114개 수작업 질문을 붙여 시간적으로 떨어진 단서와 결합·순차 논리를 함께 요구하는 장기 비디오 추론을 측정하며, 인간도 반복 시청 없이는 정확도가 18.97%까지 떨어질 만큼 난도가 높다.

Think, Act, Build: 제로샷 3D 비주얼 그라운딩을 위한 VLM 에이전트 프레임워크⭐ 4

TAB은 3D 비주얼 그라운딩을 원시 RGB-D 스트림에서의 2D-to-3D 재구성 문제로 재정의해, VLM이 시각 도구를 동적으로 호출하며 추적·재구성하도록 만들어 제로샷 3D-VG의 정적 제안 매칭 한계를 넘는다.