오늘의 한줄
오늘은 실시간 비디오 이해, 에이전트의 메모리·개인화·안전성, 그리고 장문맥 추론 효율화가 핵심 흐름으로 보입니다. 특히 단순한 베이스라인의 재평가와, 실제 배포 환경을 겨냥한 벤치마크·가드레일 연구가 두드러집니다.
📄Robotics & RL3
OpenWorldLib: 고급 월드 모델의 통합 코드베이스와 정의⭐ 445
OpenWorldLib는 월드 모델을 지각·상호작용·장기기억을 갖춘 체계로 재정의하고, 이기종 모델을 하나의 추론 프레임워크로 통합해 재사용성과 협업 추론 효율을 높였습니다.
LIBERO-Para: VLA 모델의 패러프레이즈 강건성 진단 벤치마크⭐ 27
LIBERO-Para는 VLA 모델이 지시문 패러프레이즈에 22~52%p 성능 하락을 보이며, 실패의 80~96%가 실행이 아닌 계획 단계에서 발생한다는 점을 드러내 언어 일반화의 병목을 정밀 진단했습니다.
궤적만이 아니라 의도를 모방하라⭐ 28
MINT는 행동 청크를 주파수 공간에서 다중 스케일 토큰으로 분해해 저주파 Intent 토큰과 고주파 Execution 토큰을 분리함으로써, 모방학습의 계획 전이성과 환경 적응력을 높였습니다.
📄Training & Optimization1
TriAttention: 삼각함수 기반 KV 압축으로 장문 추론 효율화⭐ 194
TriAttention은 RoPE 이후 쿼리 대신 pre-RoPE 공간의 Q/K 중심성과 거리 선호를 활용해 키 중요도를 추정함으로써, 장문 추론에서 KV 캐시 압축의 안정성과 효율을 높였습니다.
🗣️Language Models1
Adam's Law: 대규모 언어모델을 위한 텍스트 빈도 법칙⭐ 94
이 논문은 빈도가 높은 표현이 프롬프팅과 파인튜닝에 유리하다는 Textual Frequency Law를 제안하고, 패러프레이징·TFD·커리큘럼 학습으로 이를 실제 LLM 개선 전략으로 확장했습니다.
💻Code & Agents7
메모리 인텔리전스 에이전트⭐ 92
MIA는 Manager-Planner-Executor 구조와 교대 강화학습을 결합해 압축된 검색 궤적 메모리를 진화시키며, 기존 유사 궤적 검색 중심 에이전트의 저장·검색 비용과 적응 한계를 줄였습니다.
ClawArena: 변화하는 정보 환경에서의 AI 에이전트 벤치마크⭐ 24
ClawArena는 다중 출처 충돌 추론, 동적 신념 수정, 암묵적 개인화를 함께 평가하는 14개 유형의 벤치마크로, 정적 환경 중심 에이전트 평가의 한계를 실제 업무형 시나리오로 확장했습니다.
SkillX: 에이전트를 위한 스킬 지식베이스 자동 구축⭐ 14
SkillX는 전략·기능·원자 스킬의 3단계 계층화, 실행 피드백 기반 정제, 탐색적 스킬 확장을 통해 에이전트 간 재사용 가능한 플러그앤플레이 스킬 지식베이스를 자동 구축합니다.
📄Multimodal & Generative7
AURA: 비디오 스트림 기반 상시 이해와 실시간 지원⭐ 35
AURA는 컨텍스트 관리, 데이터 구축, 학습 목표, 배포 최적화를 통합한 end-to-end 스트리밍 VideoLLM으로, 실시간 질의응답과 선제적 응답을 함께 지원하며 스트리밍 벤치마크 SOTA를 달성했습니다.
스트리밍 비디오 이해를 위한 단순한 베이스라인⭐ 46
SimpleStream은 최근 4프레임만 보는 슬라이딩 윈도우로도 OVO-Bench 67.7%, StreamingBench 80.59%를 기록하며, 복잡한 메모리 모듈 없이도 기존 스트리밍 VideoLLM을 맞서거나 능가함을 보였습니다.
디테일을 줄여 더 나은 답을: VQA를 위한 열화 기반 프롬프팅⭐ 16
DDP는 다운샘플링, 구조 보조 시각화, ICL을 통해 불필요한 고해상도 디테일을 줄여 VLM이 핵심 구조에 집중하도록 만들며, VQA의 환각과 추론 오류를 완화합니다.
👁️Computer Vision1
SpatialEdit: 정밀 이미지 공간 편집 벤치마크⭐ 58
SpatialEdit는 기하 충실도와 시각적 자연스러움을 함께 평가하는 SpatialEdit-Bench와 50만 장 합성 데이터셋, 그리고 SpatialEdit-16B를 제안해 세밀한 공간 편집 성능을 체계적으로 끌어올렸습니다.