오늘의 한줄
오늘은 실시간 비디오 이해, 에이전트의 메모리·개인화·보안, 그리고 LLM 추론 효율화가 특히 두드러졌습니다. 복잡한 구조를 더하는 대신 단순한 베이스라인이나 형식 검증, 잠재 추론처럼 본질을 다시 설계하는 흐름이 인상적입니다.
📄Robotics & RL2
OpenWorldLib: 고급 월드 모델을 위한 통합 코드베이스와 정의⭐ 415
OpenWorldLib는 월드 모델을 지각·상호작용·장기기억을 갖춘 프레임워크로 재정의하고, 이질적 모델을 하나의 추론 프레임워크로 통합해 재사용성과 협업 추론을 높였습니다.
LIBERO-Para: VLA 모델의 패러프레이즈 강건성 진단 벤치마크와 지표⭐ 26
LIBERO-Para는 VLA 모델이 지시문 패러프레이즈에 22~52%p 성능 하락을 보이며, 실패의 80~96%가 실행이 아닌 계획 단계에서 발생함을 보여 언어 일반화의 취약점을 정밀 진단했습니다.
🗣️Language Models2
TriAttention: 삼각함수 기반 KV 압축으로 긴 추론을 효율화하기⭐ 121
TriAttention은 RoPE 이후 쿼리 대신 pre-RoPE 공간의 Q/K 중심성과 거리 선호를 이용해 키 중요도를 추정함으로써, 장문 추론의 KV 캐시 병목을 더 안정적으로 줄이는 압축 방법을 제안했습니다.
아담의 법칙: 대형 언어모델을 위한 텍스트 빈도 법칙⭐ 86
이 논문은 빈도가 높은 표현이 프롬프팅과 파인튜닝 모두에 유리하다는 Textual Frequency Law를 제시하고, 패러프레이징·TFD·커리큘럼 학습으로 이를 실제 LLM 학습에 연결했습니다.
💻Code & Agents7
메모리 인텔리전스 에이전트⭐ 80
MIA는 Manager-Planner-Executor 구조와 교대형 강화학습을 결합해 압축된 검색 궤적 메모리를 진화시키며, 단순 유사 사례 검색보다 효율적인 장기 경험 활용을 노렸습니다.
ClawArena: 변화하는 정보 환경에서 AI 에이전트를 평가하는 벤치마크⭐ 20
ClawArena는 다중 소스 충돌 추론, 동적 신념 수정, 암묵적 개인화를 함께 평가하는 14개 유형 벤치마크로, 정적 환경 중심의 기존 에이전트 평가 공백을 메웠습니다.
FileGram: 파일시스템 행동 흔적에 기반한 에이전트 개인화⭐ 11
FileGram은 파일시스템 행동 흔적을 활용하는 데이터 엔진, 벤치마크, 메모리 모델을 함께 제안해 프라이버시 제약이 큰 로컬 에이전트 개인화를 더 현실적인 신호 위에서 평가·학습하게 했습니다.
📄Multimodal & Generative6
스트리밍 비디오 이해를 위한 단순한 베이스라인⭐ 46
SimpleStream은 최근 4프레임만 보는 슬라이딩 윈도우만으로도 OVO-Bench 67.7%, StreamingBench 80.59%를 기록하며 복잡한 메모리 기반 스트리밍 비디오 모델들을 맞먹거나 앞섰습니다.
AURA: 비디오 스트림 기반 상시 이해와 실시간 지원⭐ 29
AURA는 컨텍스트 관리, 데이터 구성, 학습 목표, 배포 최적화를 통합한 엔드투엔드 스트리밍 VideoLLM으로 실시간 QA와 선제적 응답을 동시에 지원하며 SOTA를 달성했습니다.
토큰 워핑은 MLLM이 인접 시점을 더 잘 보게 돕습니다⭐ 10
이 논문은 픽셀 대신 ViT 토큰을 backward warping하는 방식이 깊이 오차와 왜곡에 더 강하며, ViewBench에서 인접 시점 변화에 대한 MLLM의 추론 안정성을 높인다고 보였습니다.
👁️Computer Vision2
SpatialEdit: 정밀 이미지 공간 편집 벤치마크⭐ 56
SpatialEdit는 기하 충실도와 시각적 자연스러움을 함께 평가하는 SpatialEdit-Bench와 50만 샘플 데이터셋, 그리고 SpatialEdit-16B를 제시해 세밀한 공간 편집 성능을 체계적으로 끌어올렸습니다.
디테일을 줄일수록 답이 좋아진다: VQA를 위한 열화 기반 프롬프팅⭐ 15
DDP는 다운샘플링, 구조 보조 시각화, 과제 분류를 활용해 이미지 세부정보를 의도적으로 줄임으로써 VQA에서 환각과 추론 오류를 줄이고 핵심 구조에 집중하게 만들었습니다.
📄Training & Optimization1
자기 증류 기반 RLVR
Self-Distilled RLVR은 privileged teacher 기반 자기증류의 정보 누수 문제를 짚고, RLVR에 자기증류를 결합한 RLSD로 토큰 단위 업데이트 강도를 조절해 더 안정적인 학습을 제안했습니다.