오늘의 한줄

오늘은 에이전트 평가·보안과 추론 신뢰성에 관한 연구가 특히 두드러졌고, 비전·멀티모달 쪽에서는 생성 품질보다 ‘진짜 reasoning’을 어떻게 측정하고 개선할지가 핵심 화두로 보입니다. 한편 학습·추론 최적화에서는 아주 단순한 후처리나 경량 적응만으로도 성능 서열이 뒤집히는 결과가 인상적입니다.

💻Code & Agents10

ClawKeeper: OpenClaw 에이전트를 위한 스킬·플러그인·워처 기반 종합 안전 보호⭐ 279

ClawKeeper는 OpenClaw 에이전트에 대해 스킬·플러그인·워처의 3계층 방어를 실시간으로 결합해 데이터 유출, 권한 상승, 악성 스킬 실행 같은 시스템급 위협을 에이전트 수명주기 전반에서 막는 통합 보안 프레임워크다.

MiroEval: 멀티모달 딥리서치 에이전트를 과정과 결과로 평가하다⭐ 20

MiroEval은 실제 사용자 요구에 기반한 100개 텍스트·멀티모달 과제를 통해 딥리서치 에이전트의 최종 보고서뿐 아니라 검색 과정, 사실성 검증, 웹·첨부자료 활용까지 함께 평가하는 라이브형 벤치마크다.

Vision2Web: 에이전트 검증을 갖춘 시각적 웹사이트 개발 계층형 벤치마크⭐ 11

Vision2Web은 실제 웹사이트 기반 193개 과제로 UI-to-code부터 멀티페이지 프론트엔드, 장기 풀스택 개발까지 평가하고, GUI 에이전트 검증기와 VLM 판정기를 결합해 현 SOTA도 풀스택 개발에 크게 약하다는 점을 보여준다.

📄Multimodal & Generative1

ViGoR-Bench: 시각 생성 모델은 제로샷 시각 추론에 얼마나 가까운가⭐ 35

ViGoR-Bench는 이미지·비디오 생성 모델을 중간 과정과 최종 결과까지 함께 평가하는 추론 중심 벤치마크로, 20여 개 최신 모델이 높은 시각 품질과 달리 물리·인과·공간 추론에서는 큰 공백을 보인다는 점을 드러낸다.

📄Training & Optimization4

너무 단순한 자기 증류로 코드 생성 성능을 높이다⭐ 21

SSD는 검증기나 RL 없이 모델이 뽑은 코드 샘플만으로 다시 SFT하는 단순한 자기 증류 기법인데, Qwen3-30B-Instruct의 LiveCodeBench v6 pass@1을 42.4%에서 55.3%로 끌어올렸다.

PixelPrune: 예측 부호화로 구현한 픽셀 단위 적응형 시각 토큰 축소⭐ 3

PixelPrune은 문서·GUI 이미지에서 최대 78%까지 존재하는 중복 패치를 ViT 이전 픽셀 단계에서 무학습으로 제거해, 시각 인코더와 LLM까지 포함한 전체 VLM 추론 파이프라인을 함께 가볍게 만든다.

S0 튜닝: 하이브리드 순환-어텐션 모델을 위한 제로 오버헤드 적응⭐ 2

S0 Tuning은 각 순환층의 초기 상태 행렬만 학습하는 초경량 적응법으로, Qwen3.5-4B에서 HumanEval pass@1을 23.6%p 높이고 LoRA 대비 최대 10.8%p 우세하면서도 추론 오버헤드는 추가하지 않는다.

📄Robotics & RL1

MMaDA-VLA: 멀티모달 지시와 생성을 통합한 대규모 디퓨전 비전-언어-행동 모델⭐ 29

MMaDA-VLA는 언어·이미지·로봇 제어를 하나의 이산 토큰 공간에 넣고 디퓨전 방식으로 미래 관측과 액션 청크를 병렬 생성해, 추가 모듈 없이 장기 조작의 일관성과 환경 동역학 반영을 함께 노린다.

👁️Computer Vision2

PerceptionComp: 복합 지각 중심 추론을 위한 비디오 벤치마크⭐ 8

PerceptionComp는 시간적으로 떨어진 여러 시각 단서를 결합해야 풀 수 있는 1,114개 수작업 비디오 질문으로 구성되며, 사람도 반복 시청 없이 정확도가 18.97%까지 떨어질 만큼 장기·조합형 지각 추론의 난도를 끌어올렸다.

생각하고, 행동하고, 구축하라: 제로샷 3D 시각적 그라운딩을 위한 VLM 에이전트 프레임워크⭐ 7

TAB은 3D 시각 그라운딩을 원시 RGB-D 스트림에서의 2D-to-3D 재구성 문제로 바꾸고, VLM 에이전트가 도구를 호출해 대상 추적과 재구성을 수행하도록 해 정적 포인트클라우드 의존을 벗어난 제로샷 3D-VG를 제안한다.

🗣️Language Models2

Reasoning Shift: 문맥은 어떻게 LLM의 추론을 조용히 짧게 만드는가

이 연구는 같은 문제라도 긴 무관 문맥·멀티턴 대화·하위 과제 형태로 주어지면 추론 모델의 reasoning trace가 최대 50%까지 짧아지고 자기검증도 줄어드는 ‘Reasoning Shift’ 현상을 보고한다.

간결성 제약은 언어모델의 성능 서열을 뒤집는다⭐ 0

31개 모델 분석 결과 큰 모델은 과도한 장황함 때문에 7.7% 문제에서 작은 모델보다 28.4%p 낮았지만, 짧게 답하라는 제약만으로 정확도가 26%p 오르며 수학·과학 벤치마크의 성능 서열이 완전히 뒤집혔다.