오늘의 한줄

오늘은 에이전트형 RL의 실패 모드를 더 정밀하게 진단하는 연구, 실시간 세계 모델·비디오 생성처럼 시공간 일관성을 높이는 연구, 그리고 LLM 추론·디코딩 효율을 끌어올리는 방법론이 두드러졌습니다. 특히 멀티모달과 embodied 영역에서는 데이터 엔진, 시뮬레이터, 가치모델까지 학습 인프라 전반을 재설계하려는 흐름이 강하게 보입니다.

📄Robotics & RL4

RAGEN-2: 에이전트형 RL에서의 추론 붕괴⭐ 2,592

RAGEN-2는 엔트로피로 보이지 않던 입력 무관 템플릿 반복 현상인 template collapse를 정의하고, 상호정보량(MI) 기반 진단 지표가 최종 성능과 더 강하게 상관함을 보여 에이전트 RL 안정성 평가를 한 단계 정교화했습니다.

HY-Embodied-0.5: 현실 세계 에이전트를 위한 임바디드 파운데이션 모델⭐ 223

HY-Embodied-0.5는 2B·32B 두 변형과 Mixture-of-Transformers, latent token, 자기진화형 추론 학습을 결합해 실제 embodied 에이전트에 필요한 시공간 지각과 계획 능력을 강화한 파운데이션 모델군입니다.

SIM1: 변형 물체 세계에서 제로샷 데이터 스케일러가 되는 물리 정렬 시뮬레이터⭐ 39

SIM1은 소량 시연으로부터 계량적으로 정합된 장면 트윈, 탄성 기반 동역학 보정, 확산 기반 궤적 생성까지 연결해 deformable 조작에서 현실 정합 시뮬레이션을 대규모 합성 데이터 엔진으로 바꿉니다.

📄Multimodal & Generative7

INSPATIO-WORLD: 시공간 자기회귀로 구현한 실시간 4D 월드 시뮬레이터⭐ 695

INSPATIO-WORLD는 STAR 아키텍처로 단일 참조 비디오에서 고충실도 동적 장면을 복원·생성해, 실시간 상호작용과 장기 시공간 일관성을 동시에 지원하는 4D 월드 시뮬레이터를 제시했습니다.

LPM 1.0: 비디오 기반 캐릭터 퍼포먼스 모델⭐ 77

LPM 1.0은 대화형 단일 인물 퍼포먼스에 특화된 17B Diffusion Transformer와 인간 중심 멀티모달 데이터셋으로 표현력·실시간성·장기 정체성 유지의 '퍼포먼스 트릴레마'를 정면으로 다뤘습니다.

OpenVLThinkerV2: 다중 도메인 시각 작업을 위한 범용 멀티모달 추론 모델⭐ 138

OpenVLThinkerV2는 과제별 보상 분포를 표준정규로 맞추는 G^2RPO를 도입해 멀티도메인 시각 과제에서 RL 학습 분산과 heavy-tail 문제를 줄이고, 오픈소스 범용 멀티모달 추론 성능을 끌어올렸습니다.

👁️Computer Vision3

Elastic 테스트타임 학습을 적용한 고속 공간 메모리⭐ 73

Fast Spatial Memory는 Fisher 가중 elastic prior와 EMA anchor를 넣은 Elastic Test-Time Training으로 장기 시퀀스 4D 재구성에서 망각과 과적합을 줄이며 단일 패스 확장성을 높였습니다.

OpenSpatial: 공간 지능을 위한 원칙 기반 데이터 엔진⭐ 49

OpenSpatial은 3D 박스를 기본 단위로 공간 측정·관계·카메라 인지·멀티뷰 일관성·장면 추론을 포괄하는 데이터 엔진과 300만 샘플 규모 OpenSpatial-3M을 공개해 공간지능 학습의 기반을 넓혔습니다.

TC-AE: 딥 압축 오토인코더의 토큰 용량을 여는 방법⭐ 11

TC-AE는 ViT 기반 압축 오토인코더에서 patch 크기와 토큰-잠재 압축을 재설계해 latent collapse를 줄이고, 복잡한 다단계 학습 없이 고압축에서도 생성 품질을 유지하도록 했습니다.

🗣️Language Models4

추론 SFT의 일반화를 다시 보다: 최적화·데이터·모델 역량의 조건부 분석⭐ 63

이 연구는 추론 SFT가 단순 암기에 그친다는 통념을 반박하며, 장기 CoT 학습의 교차 도메인 일반화가 학습 길이·데이터 품질·기반 모델 역량에 따라 나타나는 dip-and-recovery 패턴임을 보여줬습니다.

DMax: 확산 언어모델을 위한 공격적 병렬 디코딩⭐ 31

DMax는 On-Policy Uniform Training과 Soft Parallel Decoding으로 dLLM의 병렬 복호화 오류 누적을 줄여, 생성 품질을 유지하면서 더 공격적인 병렬 디코딩을 가능하게 했습니다.

MARS: 자기회귀 모델의 멀티토큰 생성을 가능하게 하다⭐ 10

MARS는 아키텍처 수정이나 추가 파라미터 없이 기존 instruction 데이터로 계속 학습만 해 AR 모델이 한 번에 여러 토큰을 예측하게 만들고, 정확도 유지 상태에서 1.5~1.7배 처리량 향상을 달성했습니다.

💻Code & Agents2

KnowU-Bench: 상호작용형·선제형·개인화 모바일 에이전트 평가를 향하여⭐ 46

KnowU-Bench는 안드로이드 에뮬레이터 위에서 42개 GUI, 86개 개인화, 64개 proactive 과제를 제공하며, 숨겨진 사용자 프로필을 행동 로그만으로 추론하게 만들어 모바일 에이전트의 진짜 개인화 능력을 평가합니다.

현실 인간 행동 시뮬레이션을 향하여: 장기·교차 시나리오·이질적 행동 궤적에서의 LLM 벤치마킹⭐ 22

OmniBehavior는 전부 실세계 데이터로 구축한 최초의 장기·교차 시나리오 사용자 시뮬레이션 벤치마크로, 최신 LLM도 긴 문맥만 늘려서는 실제 인간 행동의 인과 사슬을 충분히 재현하지 못함을 보여줍니다.