오늘의 한줄

오늘은 에이전트 평가·보안·프라이버시를 정교하게 다루는 벤치마크와, 추론·적응·추론효율을 다시 설계하는 LLM 연구가 특히 눈에 띕니다. 동시에 3D·비디오·생성 모델 쪽에서는 '겉보기 성능'보다 실제 reasoning과 장기 일관성을 검증하려는 흐름이 강해지고 있습니다.

💻Code & Agents8

ClawKeeper: 스킬·플러그인·워처로 OpenClaw 에이전트를 전방위 보호하는 안전 프레임워크⭐ 290

ClawKeeper는 OpenClaw 에이전트의 지시문, 플러그인, 실행 감시 계층을 동시에 보호하는 실시간 보안 프레임워크로, 데이터 유출·권한 상승·악성 스킬 실행 같은 시스템 수준 위협을 라이프사이클 전반에서 줄이려는 접근이다.

너무 단순한 자기 증류로 코드 생성 성능 높이기⭐ 21

SSD는 검증기나 RL 없이 모델이 생성한 코드만 다시 SFT하는 단순 자기증류로 Qwen3-30B-Instruct의 LiveCodeBench v6 pass@1을 42.4%에서 55.3%로 끌어올려, 저비용 후처리만으로도 코드 성능을 크게 높일 수 있음을 보였다.

MiroEval: 멀티모달 딥리서치 에이전트를 과정과 결과로 평가하는 벤치마크⭐ 20

MiroEval은 실제 사용자 요구 기반 100개 과제로 딥리서치 에이전트를 최종 보고서뿐 아니라 조사 과정, 사실성 검증, 멀티모달 증거 활용까지 함께 평가해 '그럴듯한 결과물' 중심 평가의 한계를 보완한다.

📄Multimodal & Generative2

ViGoR-Bench: 시각 생성 모델은 제로샷 시각 추론에 얼마나 가까운가⭐ 35

ViGoR-Bench는 이미지·비디오 생성 모델을 과정과 최종 결과 모두에서 평가하는 추론 중심 벤치마크로, 20개 이상 최신 모델이 높은 시각 품질과 달리 물리·인과·공간 추론에서는 여전히 큰 결함을 보인다는 점을 드러낸다.

GaussianGPT: 자기회귀 방식의 3D 가우시안 장면 생성으로

GaussianGPT는 3D Gaussian primitive를 벡터양자화 토큰으로 압축한 뒤 causal transformer로 순차 생성해, 디퓨전 대신 자기회귀 방식으로 3D 장면 생성·완성·아웃페인팅·온도 제어 샘플링을 가능하게 한다.

📄Robotics & RL1

MMaDA-VLA: 멀티모달 지시와 생성을 통합한 대규모 디퓨전 비전-언어-행동 모델⭐ 29

MMaDA-VLA는 언어·이미지·로봇 제어를 하나의 이산 토큰 공간에 넣고 미래 관측과 액션 청크를 병렬 생성하는 네이티브 디퓨전 VLA로, 장기 작업의 시간 일관성과 환경 동역학 반영을 별도 모듈 없이 개선한다.

👁️Computer Vision2

Think, Act, Build: 비전-언어 모델 기반 제로샷 3D 비주얼 그라운딩 에이전트 프레임워크⭐ 7

TAB은 2D VLM의 공간 의미 이해와 다중 시점 기하를 결합해 원시 RGB-D 스트림에서 직접 대상 추적·재구성하는 제로샷 3D 그라운딩 에이전트로, 기존 포인트클라우드 제안 매칭 중심 접근을 넘어선다.

PerceptionComp: 복합 지각 중심 추론을 위한 비디오 벤치마크⭐ 8

PerceptionComp는 279개 비디오와 1,114개 수작업 질문으로 여러 시점의 증거 결합, 순차·논리 제약, 시공간 추론을 요구해, 단일 프레임 이해를 넘어선 진짜 비디오 추론 난도를 드러낸다.

📄Training & Optimization5

PixelPrune: 예측 부호화로 픽셀 수준 시각 토큰을 적응적으로 줄이기⭐ 5

PixelPrune은 문서·GUI 이미지의 중복 패치를 ViT 이전 픽셀 공간에서 무학습으로 제거해, 전체 추론 파이프라인의 시각 토큰 비용을 줄이면서도 픽셀 무손실 또는 제어된 손실 압축을 지원한다.

QuitoBench: 고품질 오픈 시계열 예측 벤치마크

QuitoBench는 Alipay의 대규모 시계열 코퍼스를 바탕으로 8개 TSF 레짐과 23만여 평가 인스턴스를 제공하며, 짧은 컨텍스트에선 딥러닝 모델이, 긴 컨텍스트에선 파운데이션 모델이 강하다는 교차점을 정량적으로 보여준다.

UniMixer: 추천 시스템 스케일링 법칙을 위한 통합 아키텍처

UniMixer는 attention·TokenMixer·FM 계열 추천 아키텍처를 하나의 파라미터화된 feature mixing 틀로 통합해, 추천 모델의 스케일링 효율을 높이고 서로 다른 설계들의 이론적 공통 기반을 제시한다.

🗣️Language Models2

Reasoning Shift: 문맥은 어떻게 LLM의 추론을 조용히 짧게 만드는가

Reasoning Shift는 무관한 긴 문맥이나 멀티턴 설정이 같은 문제에서도 추론 흔적 길이를 최대 50% 줄이고, 자기검증·불확실성 관리 행동까지 약화시킨다는 점을 보여줘 테스트타임 추론의 취약성을 짚는다.

간결성 제약이 언어모델 성능 서열을 뒤집는다⭐ 0

31개 모델 분석에서 큰 모델이 장황함 때문에 오답을 내는 현상을 보였고, 짧게 답하라는 제약만으로 정확도가 26%p 오르며 수학·과학 벤치마크에서 성능 서열이 완전히 뒤집힐 수 있음을 입증했다.