오늘의 한줄

오늘은 3D 월드 모델·재구성, 언어모델 학습/강화 최적화, 그리고 코드·GUI·리서치 에이전트의 인프라와 평가가 특히 두드러졌습니다. 실서비스 관점에서는 테스트타임 적응, 검증 가능한 벤치마크, 에이전트 하니스 설계가 연구의 중심으로 이동하고 있다는 점이 인상적입니다.

📄Multimodal & Generative2

HY-World 2.0: 3D 세계를 재구성·생성·시뮬레이션하는 멀티모달 월드 모델⭐ 929

HY-World 2.0은 텍스트·단일/다중 이미지·비디오를 3DGS 장면으로 바꾸는 멀티모달 월드 모델로, HY-Pano 2.0·WorldNav·WorldStereo 2.0·WorldMirror 2.0의 4단계 파이프라인으로 고충실도 탐색형 3D 월드 생성과 재구성을 통합했습니다.

RationalRewards: 추론형 보상으로 시각 생성 성능을 학습과 테스트 모두에서 확장하기⭐ 51

RationalRewards는 PARROT으로 선호 데이터만으로 다차원 비평 근거를 복원해 학습 시 해석 가능한 RL 보상으로, 테스트 시에는 Generate-Critique-Refine 루프로 활용하며 8B 보상모델의 시각 생성 선호 정렬 성능을 끌어올렸습니다.

👁️Computer Vision4

스트리밍 3D 재구성을 위한 기하 컨텍스트 트랜스포머⭐ 366

LingBot-Map은 anchor context·pose-reference window·trajectory memory를 결합한 GCT로 1만 프레임 이상 시퀀스에서도 약 20 FPS로 안정적인 스트리밍 3D 재구성을 수행해, 실시간 SLAM형 파운데이션 모델의 가능성을 보여줍니다.

SpatialEvo: 결정론적 기하 환경으로 스스로 진화하는 공간 지능⭐ 53

SpatialEvo는 포인트클라우드와 카메라 포즈에서 정답을 정확히 계산하는 DGE를 도입해 16개 3D 공간추론 과제를 무라벨 장면에서 자동 생성하며, 모델 합의 기반 자기학습의 오류 증폭 문제를 기하 검증으로 대체했습니다.

Free Geometry: 더 긴 자기 자신으로 3D 재구성을 정제하기⭐ 14

Free Geometry는 더 많은 뷰에서 더 일관된 재구성이 나온다는 성질을 활용해, 테스트 시 부분 관측과 전체 관측 간 자기지도 일관성으로 2분 이내 LoRA 재보정을 수행해 3D GT 없이 장면별 재구성 품질을 높입니다.

📄Robotics & RL1

RAD-2: 생성기-판별기 프레임워크에서 강화학습 확장하기⭐ 204

RAD-2는 확산 기반 경로 생성기와 RL로 최적화한 판별기를 분리한 자율주행 계획 프레임워크로, Temporally Consistent GRPO를 통해 희소 보상 환경에서도 폐루프 주행 품질과 최적화 안정성을 함께 끌어올렸습니다.

💻Code & Agents8

Sema Code: AI 코딩 에이전트를 프로그래머블·임베더블 인프라로 분리하기⭐ 102

Sema Code는 코딩 에이전트 엔진을 클라이언트에서 완전히 분리해 npm 라이브러리로 제공하며, 멀티테넌트 격리·적응형 컨텍스트 압축·비동기 권한 제어 등 8가지 메커니즘으로 기업 환경 재사용성을 높였습니다.

Claude Code 들여다보기: 현재와 미래 AI 에이전트 시스템의 설계 공간⭐ 78

이 연구는 Claude Code의 공개 코드와 OpenClaw를 분석해, 단순한 모델-툴 while-loop보다 권한 체계·컨텍스트 압축·실행 신뢰성 같은 주변 시스템이 에이전트 품질을 좌우한다는 13개 설계 원칙을 정리했습니다.

GameWorld: 멀티모달 게임 에이전트의 표준화·검증 가능 평가를 향해⭐ 21

GameWorld는 34개 게임·170개 과제로 구성된 브라우저 기반 벤치마크로, 컴퓨터 사용형과 의미 행동형 에이전트를 모두 지원하고 상태 검증 가능한 지표로 MLLM 에이전트의 장기 계획·정밀 제어를 재현 가능하게 평가합니다.

🗣️Language Models2

TRACER: LLM 분류를 위한 추적 기반 적응형 저비용 라우팅⭐ 119

TRACER는 운영 로그의 LLM 입출력 쌍으로 경량 surrogate를 학습하고, LLM과의 일치율이 임계값 α를 넘을 때만 배포하는 parity gate로 비용을 줄이면서도 라우팅 경계를 해석 가능하게 제시합니다.

LangFlow: 언어모델링에서 연속 디퓨전이 이산 방식에 필적하다⭐ 14

LangFlow는 임베딩 공간 DLM을 Bregman divergence 기반 Flow Matching으로 재해석하고 ODE형 NLL bound·Gumbel 노이즈 스케줄러·self-conditioning을 결합해, 연속 확산 언어모델이 처음으로 이산 방식과 경쟁 가능한 수준에 도달했음을 보였습니다.

📄Training & Optimization3

TIP: 온폴리시 증류에서 중요한 토큰은 무엇인가⭐ 14

TIP은 OPD에서 유용한 학습 신호가 고엔트로피 토큰과 저엔트로피·고불일치 토큰에 집중된다고 보이며, 엔트로피 기반 50% 토큰만으로도 전체 토큰 학습을 맞먹고 메모리를 최대 47% 절감했습니다.

P(y|x)에서 P(y)로: 프리트레인 공간에서의 강화학습 탐구⭐ 8

PreRL은 RLVR의 조건부 분포 최적화를 넘어 사전학습 공간의 주변분포 P(y)를 보상 기반 온라인 업데이트로 직접 조정하며, 특히 NSR이 추론 성능 향상의 핵심 동력임을 이론·실험으로 보여줍니다.

타깃 정책 최적화⭐ 11

TPO는 점수화된 샘플로 target distribution q를 먼저 만든 뒤 정책을 cross-entropy로 맞추는 방식으로 '무엇을 늘릴지'와 '어떻게 업데이트할지'를 분리해, 희소 보상 LLM RLVR에서 PPO·GRPO 등을 크게 앞섰습니다.