오늘의 한줄
오늘은 3D 월드 모델·재구성, 에이전트 평가/인프라, 그리고 LLM 학습·강화학습 최적화가 특히 두드러졌습니다. 단순히 성능을 높이는 것을 넘어, 실제 배포 가능성·검증 가능성·테스트타임 적응까지 연구의 무게중심이 옮겨가고 있습니다.
📄Multimodal & Generative2
HY-World 2.0: 3D 월드 재구성·생성·시뮬레이션을 위한 멀티모달 월드 모델⭐ 929
HY-World 2.0은 텍스트·단일/다중 뷰 이미지·비디오를 3DGS 월드로 바꾸는 멀티모달 파이프라인으로, HY-Pano 2.0·WorldNav·WorldStereo 2.0·WorldMirror 2.0을 결합해 고품질 탐색형 3D 장면 생성과 재구성을 동시에 강화했습니다.
RationalRewards: 추론형 보상으로 시각 생성 성능을 학습과 테스트 모두에서 확장하기⭐ 51
RationalRewards는 PARROT으로 선호 데이터만으로 비평 근거를 복원해 8B 보상모델이 다차원 critique 후 점수를 내리게 만들고, 학습 시 RL 보상과 테스트 시 Generate-Critique-Refine 프롬프트 수정 모두에 활용해 시각 생성 품질을 끌어올렸습니다.
👁️Computer Vision4
스트리밍 3D 재구성을 위한 기하학적 컨텍스트 트랜스포머⭐ 366
LingBot-Map은 anchor context·pose-reference window·trajectory memory를 갖춘 GCT로 1만 프레임 이상 장기 시퀀스에서도 약 20 FPS로 안정적인 스트리밍 3D 재구성을 수행해, SLAM형 기하 문맥을 파운데이션 모델에 효과적으로 통합했습니다.
SpatialEvo: 결정론적 기하 환경으로 스스로 진화하는 공간 지능⭐ 53
SpatialEvo는 포인트클라우드와 카메라 포즈로 정답을 정확히 계산하는 DGE를 도입해 16개 3D 공간 추론 과제를 무라벨 장면에서 자동 생성·검증하며, 모델 합의 대신 기하학적 oracle로 자기학습의 오류 증폭 문제를 줄였습니다.
Free Geometry: 더 긴 자기 시퀀스로 3D 재구성을 정제하기⭐ 14
Free Geometry는 테스트 시 더 많은 뷰에서 얻은 더 신뢰할 수 있는 재구성을 자기감독 신호로 활용해, 3D GT 없이도 2분 미만의 LoRA 업데이트로 가림·반사·모호한 장면에서 재구성 모델을 빠르게 재보정합니다.
📄Robotics & RL1
RAD-2: 생성기-판별기 프레임워크로 강화학습 확장하기⭐ 204
RAD-2는 자율주행 계획에서 디퓨전 생성기가 만든 궤적을 RL로 학습한 판별기가 재정렬하는 구조와 TCGRPO를 결합해, 모방학습 기반 플래너의 불안정성과 희소 보상 문제를 더 안정적으로 해결합니다.
💻Code & Agents8
Sema Code: AI 코딩 에이전트를 프로그래밍 가능하고 임베드 가능한 인프라로 분리하기⭐ 102
Sema Code는 코딩 에이전트 엔진을 npm 라이브러리로 완전히 분리해 멀티테넌트 격리, 적응형 컨텍스트 압축, 멀티에이전트 스케줄링, 비동기 권한 제어까지 제공함으로써 엔터프라이즈 환경에서 재사용 가능한 코딩 인프라를 제안합니다.
Claude Code 해부: 오늘과 미래의 AI 에이전트 시스템 설계 공간⭐ 78
이 연구는 Claude Code의 공개 TypeScript 코드를 분석해 권한 시스템, 5단계 컨텍스트 압축, 도구 루프 등 실제 에이전트의 핵심 설계 원칙 13가지를 정리하며, 에이전트 성능보다 시스템 주변부가 얼마나 중요한지 보여줍니다.
GameWorld: 멀티모달 게임 에이전트의 표준화되고 검증 가능한 평가를 향하여⭐ 21
GameWorld는 34개 게임·170개 과제와 상태 검증 가능한 지표, 그리고 semantic action parsing 기반 인터페이스를 제공해 브라우저 게임에서 멀티모달 에이전트의 지각·계획·제어 능력을 재현 가능하게 평가합니다.
🗣️Language Models2
TRACER: LLM 분류를 위한 트레이스 기반 적응형 비용 효율 라우팅⭐ 119
TRACER는 운영 로그에 쌓인 LLM 입출력 트레이스로 경량 surrogate를 학습하고, teacher와의 일치율이 임계값 α를 넘을 때만 배치하는 parity gate로 분류 비용을 크게 줄이면서 라우팅 경계까지 해석 가능하게 보여줍니다.
LangFlow: 연속 디퓨전이 언어 모델링에서 이산 방식을 따라잡다⭐ 14
LangFlow는 임베딩 공간 DLM을 Flow Matching과 Bregman divergence로 재해석하고 ODE 기반 NLL bound, Gumbel 학습형 노이즈 스케줄러, self-conditioning을 더해 연속형 디퓨전 언어모델이 이산형과 경쟁 가능한 수준까지 올라설 수 있음을 보였습니다.
📄Training & Optimization3
TIP: 온폴리시 증류에서 중요한 토큰은 무엇인가⭐ 14
TIP는 OPD에서 중요한 토큰이 높은 student entropy 구간과 낮은 entropy지만 teacher와 크게 어긋난 과신 구간임을 보였고, entropy 기반 50% 토큰만으로도 전체 토큰 학습과 맞먹으며 메모리를 최대 47% 절감했습니다.
P(y|x)에서 P(y)로: 프리트레인 공간에서의 강화학습 탐구⭐ 8
PreRL은 RLVR이 조건부 분포 P(y|x)에 묶이는 한계를 넘어 사전학습 분포 P(y)를 직접 보상 기반 온라인 업데이트하며, 특히 NSR이 추론 능력 향상에 강력한 동인임을 이론·실험으로 보여줍니다.
타깃 정책 최적화⭐ 11
TPO는 어떤 completion에 확률을 줄지와 파라미터를 어떻게 움직일지를 분리해 q∝p_old exp(u) 타깃 분포를 만든 뒤 cross-entropy로 맞추며, 희소 보상 환경에서 PG·PPO·GRPO·DG보다 더 강한 성능을 보였습니다.