오늘의 한줄

오늘은 실시간 비디오 이해, 에이전트의 메모리·개인화·안전성, 그리고 장문맥 추론 효율화가 핵심 흐름으로 보입니다. 특히 단순한 베이스라인의 재평가와, 실제 배포 환경을 겨냥한 벤치마크·가드레일 연구가 두드러집니다.

📄Robotics & RL3

OpenWorldLib는 월드 모델을 지각·상호작용·장기기억을 갖춘 체계로 재정의하고, 이기종 모델을 하나의 추론 프레임워크로 통합해 재사용성과 협업 추론 효율을 높였습니다.

LIBERO-Para는 VLA 모델이 지시문 패러프레이즈에 22~52%p 성능 하락을 보이며, 실패의 80~96%가 실행이 아닌 계획 단계에서 발생한다는 점을 드러내 언어 일반화의 병목을 정밀 진단했습니다.

MINT는 행동 청크를 주파수 공간에서 다중 스케일 토큰으로 분해해 저주파 Intent 토큰과 고주파 Execution 토큰을 분리함으로써, 모방학습의 계획 전이성과 환경 적응력을 높였습니다.

TriAttention은 RoPE 이후 쿼리 대신 pre-RoPE 공간의 Q/K 중심성과 거리 선호를 활용해 키 중요도를 추정함으로써, 장문 추론에서 KV 캐시 압축의 안정성과 효율을 높였습니다.

이 논문은 빈도가 높은 표현이 프롬프팅과 파인튜닝에 유리하다는 Textual Frequency Law를 제안하고, 패러프레이징·TFD·커리큘럼 학습으로 이를 실제 LLM 개선 전략으로 확장했습니다.

MIA는 Manager-Planner-Executor 구조와 교대 강화학습을 결합해 압축된 검색 궤적 메모리를 진화시키며, 기존 유사 궤적 검색 중심 에이전트의 저장·검색 비용과 적응 한계를 줄였습니다.

ClawArena는 다중 출처 충돌 추론, 동적 신념 수정, 암묵적 개인화를 함께 평가하는 14개 유형의 벤치마크로, 정적 환경 중심 에이전트 평가의 한계를 실제 업무형 시나리오로 확장했습니다.

SkillX는 전략·기능·원자 스킬의 3단계 계층화, 실행 피드백 기반 정제, 탐색적 스킬 확장을 통해 에이전트 간 재사용 가능한 플러그앤플레이 스킬 지식베이스를 자동 구축합니다.

AURA는 컨텍스트 관리, 데이터 구축, 학습 목표, 배포 최적화를 통합한 end-to-end 스트리밍 VideoLLM으로, 실시간 질의응답과 선제적 응답을 함께 지원하며 스트리밍 벤치마크 SOTA를 달성했습니다.

SimpleStream은 최근 4프레임만 보는 슬라이딩 윈도우로도 OVO-Bench 67.7%, StreamingBench 80.59%를 기록하며, 복잡한 메모리 모듈 없이도 기존 스트리밍 VideoLLM을 맞서거나 능가함을 보였습니다.

DDP는 다운샘플링, 구조 보조 시각화, ICL을 통해 불필요한 고해상도 디테일을 줄여 VLM이 핵심 구조에 집중하도록 만들며, VQA의 환각과 추론 오류를 완화합니다.

SpatialEdit는 기하 충실도와 시각적 자연스러움을 함께 평가하는 SpatialEdit-Bench와 50만 장 합성 데이터셋, 그리고 SpatialEdit-16B를 제안해 세밀한 공간 편집 성능을 체계적으로 끌어올렸습니다.