오늘의 한줄

오늘은 실시간 비디오 이해, 에이전트의 메모리·개인화·보안, 그리고 LLM 추론 효율화가 특히 두드러졌습니다. 복잡한 구조를 더하는 대신 단순한 베이스라인이나 형식 검증, 잠재 추론처럼 본질을 다시 설계하는 흐름이 인상적입니다.

📄Robotics & RL2

OpenWorldLib는 월드 모델을 지각·상호작용·장기기억을 갖춘 프레임워크로 재정의하고, 이질적 모델을 하나의 추론 프레임워크로 통합해 재사용성과 협업 추론을 높였습니다.

LIBERO-Para는 VLA 모델이 지시문 패러프레이즈에 22~52%p 성능 하락을 보이며, 실패의 80~96%가 실행이 아닌 계획 단계에서 발생함을 보여 언어 일반화의 취약점을 정밀 진단했습니다.

TriAttention은 RoPE 이후 쿼리 대신 pre-RoPE 공간의 Q/K 중심성과 거리 선호를 이용해 키 중요도를 추정함으로써, 장문 추론의 KV 캐시 병목을 더 안정적으로 줄이는 압축 방법을 제안했습니다.

이 논문은 빈도가 높은 표현이 프롬프팅과 파인튜닝 모두에 유리하다는 Textual Frequency Law를 제시하고, 패러프레이징·TFD·커리큘럼 학습으로 이를 실제 LLM 학습에 연결했습니다.

MIA는 Manager-Planner-Executor 구조와 교대형 강화학습을 결합해 압축된 검색 궤적 메모리를 진화시키며, 단순 유사 사례 검색보다 효율적인 장기 경험 활용을 노렸습니다.

ClawArena는 다중 소스 충돌 추론, 동적 신념 수정, 암묵적 개인화를 함께 평가하는 14개 유형 벤치마크로, 정적 환경 중심의 기존 에이전트 평가 공백을 메웠습니다.

FileGram은 파일시스템 행동 흔적을 활용하는 데이터 엔진, 벤치마크, 메모리 모델을 함께 제안해 프라이버시 제약이 큰 로컬 에이전트 개인화를 더 현실적인 신호 위에서 평가·학습하게 했습니다.

SimpleStream은 최근 4프레임만 보는 슬라이딩 윈도우만으로도 OVO-Bench 67.7%, StreamingBench 80.59%를 기록하며 복잡한 메모리 기반 스트리밍 비디오 모델들을 맞먹거나 앞섰습니다.

AURA는 컨텍스트 관리, 데이터 구성, 학습 목표, 배포 최적화를 통합한 엔드투엔드 스트리밍 VideoLLM으로 실시간 QA와 선제적 응답을 동시에 지원하며 SOTA를 달성했습니다.

이 논문은 픽셀 대신 ViT 토큰을 backward warping하는 방식이 깊이 오차와 왜곡에 더 강하며, ViewBench에서 인접 시점 변화에 대한 MLLM의 추론 안정성을 높인다고 보였습니다.

SpatialEdit는 기하 충실도와 시각적 자연스러움을 함께 평가하는 SpatialEdit-Bench와 50만 샘플 데이터셋, 그리고 SpatialEdit-16B를 제시해 세밀한 공간 편집 성능을 체계적으로 끌어올렸습니다.

DDP는 다운샘플링, 구조 보조 시각화, 과제 분류를 활용해 이미지 세부정보를 의도적으로 줄임으로써 VQA에서 환각과 추론 오류를 줄이고 핵심 구조에 집중하게 만들었습니다.

Self-Distilled RLVR은 privileged teacher 기반 자기증류의 정보 누수 문제를 짚고, RLVR에 자기증류를 결합한 RLSD로 토큰 단위 업데이트 강도를 조절해 더 안정적인 학습을 제안했습니다.