오늘의 한줄

오늘은 3D 월드 모델·재구성, 언어모델 학습/강화 최적화, 그리고 코드·GUI·리서치 에이전트의 인프라와 평가가 특히 두드러졌습니다. 실서비스 관점에서는 테스트타임 적응, 검증 가능한 벤치마크, 에이전트 하니스 설계가 연구의 중심으로 이동하고 있다는 점이 인상적입니다.

📄Multimodal & Generative2

HY-World 2.0: 3D 세계를 재구성·생성·시뮬레이션하는 멀티모달 월드 모델929

HY-World 2.0은 텍스트·단일/다중 이미지·비디오를 3DGS 장면으로 바꾸는 멀티모달 월드 모델로, HY-Pano 2.0·WorldNav·WorldStereo 2.0·WorldMirror 2.0의 4단계 파이프라인으로 고충실도 탐색형 3D 월드 생성과 재구성을 통합했습니다.

RationalRewards: 추론형 보상으로 시각 생성 성능을 학습과 테스트 모두에서 확장하기51

RationalRewards는 PARROT으로 선호 데이터만으로 다차원 비평 근거를 복원해 학습 시 해석 가능한 RL 보상으로, 테스트 시에는 Generate-Critique-Refine 루프로 활용하며 8B 보상모델의 시각 생성 선호 정렬 성능을 끌어올렸습니다.

👁️Computer Vision4

스트리밍 3D 재구성을 위한 기하 컨텍스트 트랜스포머366

LingBot-Map은 anchor context·pose-reference window·trajectory memory를 결합한 GCT로 1만 프레임 이상 시퀀스에서도 약 20 FPS로 안정적인 스트리밍 3D 재구성을 수행해, 실시간 SLAM형 파운데이션 모델의 가능성을 보여줍니다.

SpatialEvo: 결정론적 기하 환경으로 스스로 진화하는 공간 지능53

SpatialEvo는 포인트클라우드와 카메라 포즈에서 정답을 정확히 계산하는 DGE를 도입해 16개 3D 공간추론 과제를 무라벨 장면에서 자동 생성하며, 모델 합의 기반 자기학습의 오류 증폭 문제를 기하 검증으로 대체했습니다.

Free Geometry: 더 긴 자기 자신으로 3D 재구성을 정제하기14

Free Geometry는 더 많은 뷰에서 더 일관된 재구성이 나온다는 성질을 활용해, 테스트 시 부분 관측과 전체 관측 간 자기지도 일관성으로 2분 이내 LoRA 재보정을 수행해 3D GT 없이 장면별 재구성 품질을 높입니다.

📄Robotics & RL1

RAD-2: 생성기-판별기 프레임워크에서 강화학습 확장하기204

RAD-2는 확산 기반 경로 생성기와 RL로 최적화한 판별기를 분리한 자율주행 계획 프레임워크로, Temporally Consistent GRPO를 통해 희소 보상 환경에서도 폐루프 주행 품질과 최적화 안정성을 함께 끌어올렸습니다.

💻Code & Agents8

Sema Code: AI 코딩 에이전트를 프로그래머블·임베더블 인프라로 분리하기102

Sema Code는 코딩 에이전트 엔진을 클라이언트에서 완전히 분리해 npm 라이브러리로 제공하며, 멀티테넌트 격리·적응형 컨텍스트 압축·비동기 권한 제어 등 8가지 메커니즘으로 기업 환경 재사용성을 높였습니다.

Claude Code 들여다보기: 현재와 미래 AI 에이전트 시스템의 설계 공간78

이 연구는 Claude Code의 공개 코드와 OpenClaw를 분석해, 단순한 모델-툴 while-loop보다 권한 체계·컨텍스트 압축·실행 신뢰성 같은 주변 시스템이 에이전트 품질을 좌우한다는 13개 설계 원칙을 정리했습니다.

GameWorld: 멀티모달 게임 에이전트의 표준화·검증 가능 평가를 향해21

GameWorld는 34개 게임·170개 과제로 구성된 브라우저 기반 벤치마크로, 컴퓨터 사용형과 의미 행동형 에이전트를 모두 지원하고 상태 검증 가능한 지표로 MLLM 에이전트의 장기 계획·정밀 제어를 재현 가능하게 평가합니다.

🗣️Language Models2

TRACER: LLM 분류를 위한 추적 기반 적응형 저비용 라우팅119

TRACER는 운영 로그의 LLM 입출력 쌍으로 경량 surrogate를 학습하고, LLM과의 일치율이 임계값 α를 넘을 때만 배포하는 parity gate로 비용을 줄이면서도 라우팅 경계를 해석 가능하게 제시합니다.

LangFlow: 언어모델링에서 연속 디퓨전이 이산 방식에 필적하다14

LangFlow는 임베딩 공간 DLM을 Bregman divergence 기반 Flow Matching으로 재해석하고 ODE형 NLL bound·Gumbel 노이즈 스케줄러·self-conditioning을 결합해, 연속 확산 언어모델이 처음으로 이산 방식과 경쟁 가능한 수준에 도달했음을 보였습니다.

📄Training & Optimization3

TIP: 온폴리시 증류에서 중요한 토큰은 무엇인가14

TIP은 OPD에서 유용한 학습 신호가 고엔트로피 토큰과 저엔트로피·고불일치 토큰에 집중된다고 보이며, 엔트로피 기반 50% 토큰만으로도 전체 토큰 학습을 맞먹고 메모리를 최대 47% 절감했습니다.

P(y|x)에서 P(y)로: 프리트레인 공간에서의 강화학습 탐구8

PreRL은 RLVR의 조건부 분포 최적화를 넘어 사전학습 공간의 주변분포 P(y)를 보상 기반 온라인 업데이트로 직접 조정하며, 특히 NSR이 추론 성능 향상의 핵심 동력임을 이론·실험으로 보여줍니다.

타깃 정책 최적화11

TPO는 점수화된 샘플로 target distribution q를 먼저 만든 뒤 정책을 cross-entropy로 맞추는 방식으로 '무엇을 늘릴지'와 '어떻게 업데이트할지'를 분리해, 희소 보상 LLM RLVR에서 PPO·GRPO 등을 크게 앞섰습니다.

매일 아침, 받은편지함에서 만나보세요

새로운 뉴스레터가 발행될 때마다 이메일로 받아볼 수 있습니다.

받아볼 뉴스레터 선택