오늘의 한줄
오늘은 에이전트의 신뢰성·안전성 평가와 월드모델의 실시간화, 그리고 대규모 모델 학습 효율화가 핵심 흐름으로 보입니다. 특히 벤치마크와 시스템 논문들이 실제 배포 환경의 병목과 실패 모드를 더 정교하게 드러내고 있다는 점이 인상적입니다.
💻Code & Agents6
RAGEN-2: 에이전트형 강화학습에서의 추론 붕괴⭐ 2,592
RAGEN-2는 엔트로피로는 보이지 않는 입력 무관 템플릿 붕괴를 발견하고, 상호정보량(MI) 기반 진단 지표가 최종 성능과 더 강하게 상관함을 보여 에이전트 RL의 추론 품질 모니터링 기준을 바꿉니다.
Claw-Eval: 자율 에이전트의 신뢰할 수 있는 평가를 향하여⭐ 336
Claw-Eval은 300개 인간 검증 과제와 2,159개 세부 루브릭, 3중 증거 채널을 통해 결과만이 아니라 실행 궤적·안전성·견고성까지 함께 채점하는 종단간 에이전트 평가 스위트입니다.
Memory Intelligence Agent⭐ 92
MIA는 압축 메모리를 관리하는 Manager와 계획 생성 Planner, 탐색 수행 Executor를 결합하고 교대형 RL로 협업을 학습해, 장기 메모리 비용과 탐색 효율 문제를 동시에 개선합니다.
📄Multimodal & Generative3
INSPATIO-WORLD: 시공간 자기회귀로 구현한 실시간 4D 월드 시뮬레이터⭐ 695
INSPATIO-WORLD는 STAR 아키텍처와 암시적 시공간 캐시·명시적 공간 제약 모듈로 단일 참조 비디오에서 공간 일관성과 상호작용성을 갖춘 고충실도 4D 장면을 실시간 생성합니다.
OpenWorldLib: 고급 월드모델을 위한 통합 코드베이스와 정의⭐ 445
OpenWorldLib는 지각·상호작용·장기기억을 갖춘 월드모델의 정의를 제안하고, 이질적인 모델들을 하나의 추론 프레임워크로 묶어 재사용성과 협업 추론 효율을 높입니다.
프레임 하나를 토큰 하나로: 델타 토큰 기반 효율적 생성 월드모델⭐ 46
DeltaTok과 DeltaWorld는 연속 프레임 간 VFM 특징 차이를 단일 연속 델타 토큰으로 압축해 512×512 비디오에서 최대 1,024배 토큰 절감을 달성하며 다양한 미래 상태 생성을 효율화합니다.
🗣️Language Models3
TriAttention: 삼각함수 기반 KV 압축으로 긴 추론을 효율화하다⭐ 194
TriAttention은 RoPE 이후 쿼리 대신 pre-RoPE 공간의 Q/K 중심성과 거리 선호를 삼각급수로 모델링해 키 중요도를 추정하며, 긴 추론에서 KV 캐시를 더 안정적으로 압축합니다.
DARE: 디퓨전 LLM 정렬과 강화학습 실행 프레임워크⭐ 170
DARE는 dLLM용 SFT·PEFT·선호최적화·강화학습을 하나의 실행 스택으로 통합해, 분산돼 있던 디퓨전 언어모델 후처리 파이프라인의 재현성과 공정 비교를 크게 높입니다.
Adam's Law: 대형언어모델을 위한 텍스트 빈도 법칙⭐ 94
Adam's Law는 더 자주 등장하는 표현이 프롬프팅과 미세조정 모두에 유리하다는 TFL을 제시하고, 빈도 기반 재표현·TFD·커리큘럼 학습으로 LLM 입력 설계의 새로운 축을 제안합니다.
👁️Computer Vision5
Video-MME-v2: 종합적 비디오 이해 벤치마크의 다음 단계⭐ 250
Video-MME-v2는 비디오 이해를 시각 정보 집계·시간 동역학·복합 멀티모달 추론의 3단계로 평가하고, 추측성 정답을 벌점하는 그룹 기반 비선형 채점으로 실제 신뢰도를 더 엄격히 측정합니다.
Elastic 테스트타임 학습 기반 Fast Spatial Memory⭐ 73
FSM은 Fisher 가중 elastic prior와 EMA 앵커 상태를 도입한 Elastic Test-Time Training으로 LaCT의 망각·과적합을 줄이며, 긴 시퀀스 4D 재구성을 단일 패스로 더 안정적으로 수행합니다.
AURA: 비디오 스트림 기반 상시 이해와 실시간 지원⭐ 35
AURA는 스트리밍 비디오를 연속 처리하는 단일 VideoLLM으로 실시간 질의응답과 능동 응답을 함께 지원하며, 문맥 관리·학습 목표·배포 최적화를 통합해 장시간 상호작용 성능을 끌어올렸습니다.
📄Training & Optimization1
MegaTrain: 단일 GPU에서 100B+ LLM을 전체 정밀도로 학습하기⭐ 61
MegaTrain은 파라미터와 옵티마이저 상태를 CPU 메모리에 두고 GPU를 스트리밍 계산 엔진으로 활용해, 단일 H200과 1.5TB 호스트 메모리에서 최대 120B 모델의 full-precision 학습을 가능하게 했습니다.
📄Robotics & RL2
LIBERO-Para: VLA 모델의 패러프레이즈 강건성 진단 벤치마크⭐ 27
LIBERO-Para는 7개 VLA 설정에서 패러프레이즈 시 성능이 22~52%p 하락하고 실패의 80~96%가 실행이 아닌 계획 단계에서 발생함을 보여, 로봇 언어 일반화의 취약 지점을 정밀하게 드러냅니다.
궤적만이 아니라 의도를 모방하라⭐ 28
MINT는 행동 청크를 주파수 공간에서 coarse-to-fine으로 분해해 저주파 Intent 토큰과 고주파 Execution 토큰을 분리함으로써, 모방학습의 계획 전이성과 환경 적응력을 함께 높입니다.