오늘의 한줄

오늘은 에이전트의 개인화·안전성·스킬 관리처럼 실제 사용 환경에 가까워지는 연구와, 장문맥·멀티모달·생성 모델의 효율을 끌어올리는 시스템 연구가 두드러졌습니다. 동시에 3D·비디오·문서 레이아웃까지 생성 품질을 정교하게 제어하려는 방향도 뚜렷하게 보입니다.

💻Code & Agents5

NanoResearch는 스킬 뱅크, 사용자별 메모리, 정책을 함께 진화시키는 다중 에이전트 프레임워크로, 프로젝트 간 재사용 지식과 세션 간 선호를 축적해 획일적 연구 자동화의 한계를 개인화로 넘어섭니다.

X-OmniClaw는 안드로이드 환경에서 지각·메모리·행동을 통합해 UI, 실세계 시각, 음성을 함께 이해하고 개인 장기 메모리까지 활용하는 모바일 개인 에이전트 아키텍처를 제안합니다.

HyperEyes는 시각 grounding과 검색을 하나의 행동으로 묶어 여러 엔티티를 병렬 탐색하고, 이중 단위 효율 인식 RL로 정확도뿐 아니라 상호작용 라운드와 추론 효율까지 함께 최적화합니다.

Pixal3D는 픽셀 백프로젝션 조건화를 통해 2D 특징을 3D 볼륨에 직접 정렬해 입력 이미지와의 픽셀 수준 충실도를 높인 이미지-투-3D 생성 패러다임입니다.

MACE-Dance는 모션 생성과 외형 합성을 분리한 캐스케이드 MoE로, BiMamba 기반 확산 모션 전문가와 참조 조건 비디오 전문가를 결합해 춤 동작의 사실성과 인물 정체성 보존을 동시에 노립니다.

이 연구는 모달리티 갭의 핵심이 전역 이동이 아니라 소수 지배 방향에 집중된 비등방성 잔차 구조임을 밝히고, 이를 겨냥한 정렬 원리로 적은 페어 데이터에서도 모달 간 표현 교환 가능성을 높입니다.

HumanNet은 1인칭·3인칭을 아우르는 100만 시간 인간 중심 비디오와 상호작용 주석을 제공해, 신체 움직임·도구 사용·장기 행동 학습을 위한 대규모 embodied 데이터 인프라를 제시합니다.

Q-RAG는 소형 LLM 미세조정 대신 임베더를 RL로 학습해 다단계 검색을 수행하며, 최대 1천만 토큰 문맥에서 BabiLong과 RULER 장문맥 벤치마크 SOTA를 달성했습니다.

AutoTTS는 사람이 추론 휴리스틱을 직접 짜는 대신, 미리 수집한 추론 궤적과 프로브 신호 위에서 분기·중단·가지치기 전략을 자동 발견하는 테스트 타임 스케일링 탐색 환경을 제안합니다.

UniPrefill은 블록 단위 동적 희소화로 full attention뿐 아니라 hybrid 아키텍처에도 적용되는 장문맥 prefill 가속을 제안하며, 연속 배칭과 vLLM류 엔진 호환성까지 고려했습니다.

Flow-OPD는 단일 보상별 교사 모델을 먼저 키운 뒤 온폴리시 증류로 통합 학생 모델을 만드는 2단계 정렬 프레임워크로, 플로우 매칭 T2I의 보상 희소성과 목적 간 간섭 문제를 줄입니다.

ARR은 VLM의 암묵적 선호를 비교 이전에 프롬프트별 루브릭으로 외재화해 보상을 다차원·검증 가능 기준으로 분해함으로써, 멀티모달 생성 정렬의 해석 가능성과 보상 해킹 저항성을 높입니다.

RigidFormer는 앵커 중심 객체 단위 트랜스포머와 Anchor-Vertex Pooling, Anchor-based RoPE를 통해 메시 없는 포인트클라우드 입력에서도 고충실도 강체 동역학을 효율적으로 예측합니다.

SLIM은 스킬의 기여도를 leave-one-skill-out으로 추정해 유지·은퇴·탐색을 동적으로 수행하며, 외부 스킬 집합 자체를 정책 학습과 함께 최적화하는 에이전트 RL 프레임워크입니다.