오늘의 한줄

오늘은 에이전트의 신뢰성·안전성 평가와 월드모델의 실시간화, 그리고 대규모 모델 학습 효율화가 핵심 흐름으로 보입니다. 특히 벤치마크와 시스템 논문들이 실제 배포 환경의 병목과 실패 모드를 더 정교하게 드러내고 있다는 점이 인상적입니다.

💻Code & Agents6

RAGEN-2는 엔트로피로는 보이지 않는 입력 무관 템플릿 붕괴를 발견하고, 상호정보량(MI) 기반 진단 지표가 최종 성능과 더 강하게 상관함을 보여 에이전트 RL의 추론 품질 모니터링 기준을 바꿉니다.

Claw-Eval은 300개 인간 검증 과제와 2,159개 세부 루브릭, 3중 증거 채널을 통해 결과만이 아니라 실행 궤적·안전성·견고성까지 함께 채점하는 종단간 에이전트 평가 스위트입니다.

MIA는 압축 메모리를 관리하는 Manager와 계획 생성 Planner, 탐색 수행 Executor를 결합하고 교대형 RL로 협업을 학습해, 장기 메모리 비용과 탐색 효율 문제를 동시에 개선합니다.

INSPATIO-WORLD는 STAR 아키텍처와 암시적 시공간 캐시·명시적 공간 제약 모듈로 단일 참조 비디오에서 공간 일관성과 상호작용성을 갖춘 고충실도 4D 장면을 실시간 생성합니다.

OpenWorldLib는 지각·상호작용·장기기억을 갖춘 월드모델의 정의를 제안하고, 이질적인 모델들을 하나의 추론 프레임워크로 묶어 재사용성과 협업 추론 효율을 높입니다.

DeltaTok과 DeltaWorld는 연속 프레임 간 VFM 특징 차이를 단일 연속 델타 토큰으로 압축해 512×512 비디오에서 최대 1,024배 토큰 절감을 달성하며 다양한 미래 상태 생성을 효율화합니다.

TriAttention은 RoPE 이후 쿼리 대신 pre-RoPE 공간의 Q/K 중심성과 거리 선호를 삼각급수로 모델링해 키 중요도를 추정하며, 긴 추론에서 KV 캐시를 더 안정적으로 압축합니다.

DARE는 dLLM용 SFT·PEFT·선호최적화·강화학습을 하나의 실행 스택으로 통합해, 분산돼 있던 디퓨전 언어모델 후처리 파이프라인의 재현성과 공정 비교를 크게 높입니다.

Adam's Law는 더 자주 등장하는 표현이 프롬프팅과 미세조정 모두에 유리하다는 TFL을 제시하고, 빈도 기반 재표현·TFD·커리큘럼 학습으로 LLM 입력 설계의 새로운 축을 제안합니다.

Video-MME-v2는 비디오 이해를 시각 정보 집계·시간 동역학·복합 멀티모달 추론의 3단계로 평가하고, 추측성 정답을 벌점하는 그룹 기반 비선형 채점으로 실제 신뢰도를 더 엄격히 측정합니다.

FSM은 Fisher 가중 elastic prior와 EMA 앵커 상태를 도입한 Elastic Test-Time Training으로 LaCT의 망각·과적합을 줄이며, 긴 시퀀스 4D 재구성을 단일 패스로 더 안정적으로 수행합니다.

AURA는 스트리밍 비디오를 연속 처리하는 단일 VideoLLM으로 실시간 질의응답과 능동 응답을 함께 지원하며, 문맥 관리·학습 목표·배포 최적화를 통합해 장시간 상호작용 성능을 끌어올렸습니다.

MegaTrain은 파라미터와 옵티마이저 상태를 CPU 메모리에 두고 GPU를 스트리밍 계산 엔진으로 활용해, 단일 H200과 1.5TB 호스트 메모리에서 최대 120B 모델의 full-precision 학습을 가능하게 했습니다.

LIBERO-Para는 7개 VLA 설정에서 패러프레이즈 시 성능이 22~52%p 하락하고 실패의 80~96%가 실행이 아닌 계획 단계에서 발생함을 보여, 로봇 언어 일반화의 취약 지점을 정밀하게 드러냅니다.

MINT는 행동 청크를 주파수 공간에서 coarse-to-fine으로 분해해 저주파 Intent 토큰과 고주파 Execution 토큰을 분리함으로써, 모방학습의 계획 전이성과 환경 적응력을 함께 높입니다.