오늘의 한줄
오늘은 에이전트의 개인화·안전성·스킬 관리처럼 실제 사용 환경에 가까워지는 연구와, 장문맥·멀티모달·생성 모델의 효율을 끌어올리는 시스템 연구가 두드러졌습니다. 동시에 3D·비디오·문서 레이아웃까지 생성 품질을 정교하게 제어하려는 방향도 뚜렷하게 보입니다.
💻Code & Agents5
NanoResearch: 개인화된 연구 자동화를 위한 스킬·메모리·정책 공동 진화⭐ 933
NanoResearch는 스킬 뱅크, 사용자별 메모리, 정책을 함께 진화시키는 다중 에이전트 프레임워크로, 프로젝트 간 재사용 지식과 세션 간 선호를 축적해 획일적 연구 자동화의 한계를 개인화로 넘어섭니다.
X-OmniClaw 기술 보고서: 멀티모달 이해와 상호작용을 위한 통합 모바일 에이전트⭐ 79
X-OmniClaw는 안드로이드 환경에서 지각·메모리·행동을 통합해 UI, 실세계 시각, 음성을 함께 이해하고 개인 장기 메모리까지 활용하는 모바일 개인 에이전트 아키텍처를 제안합니다.
HyperEyes: 병렬 멀티모달 검색 에이전트를 위한 이중 단위 효율 인식 강화학습⭐ 33
HyperEyes는 시각 grounding과 검색을 하나의 행동으로 묶어 여러 엔티티를 병렬 탐색하고, 이중 단위 효율 인식 RL로 정확도뿐 아니라 상호작용 라운드와 추론 효율까지 함께 최적화합니다.
📄Multimodal & Generative6
Pixal3D: 이미지에서 픽셀 정렬 방식으로 만드는 3D 생성⭐ 149
Pixal3D는 픽셀 백프로젝션 조건화를 통해 2D 특징을 3D 볼륨에 직접 정렬해 입력 이미지와의 픽셀 수준 충실도를 높인 이미지-투-3D 생성 패러다임입니다.
MACE-Dance: 음악 기반 춤 영상 생성을 위한 모션·외형 캐스케이드 전문가⭐ 82
MACE-Dance는 모션 생성과 외형 합성을 분리한 캐스케이드 MoE로, BiMamba 기반 확산 모션 전문가와 참조 조건 비디오 전문가를 결합해 춤 동작의 사실성과 인물 정체성 보존을 동시에 노립니다.
비등방성 모달리티 정렬⭐ 65
이 연구는 모달리티 갭의 핵심이 전역 이동이 아니라 소수 지배 방향에 집중된 비등방성 잔차 구조임을 밝히고, 이를 겨냥한 정렬 원리로 적은 페어 데이터에서도 모달 간 표현 교환 가능성을 높입니다.
👁️Computer Vision1
HumanNet: 100만 시간 규모의 인간 중심 비디오 학습⭐ 58
HumanNet은 1인칭·3인칭을 아우르는 100만 시간 인간 중심 비디오와 상호작용 주석을 제공해, 신체 움직임·도구 사용·장기 행동 학습을 위한 대규모 embodied 데이터 인프라를 제시합니다.
🗣️Language Models4
Q-RAG: 가치 기반 임베더 학습으로 구현한 장문맥 다단계 검색⭐ 37
Q-RAG는 소형 LLM 미세조정 대신 임베더를 RL로 학습해 다단계 검색을 수행하며, 최대 1천만 토큰 문맥에서 BabiLong과 RULER 장문맥 벤치마크 SOTA를 달성했습니다.
LLM이 LLM을 개선하다: 테스트 타임 스케일링을 위한 에이전트형 탐색⭐ 37
AutoTTS는 사람이 추론 휴리스틱을 직접 짜는 대신, 미리 수집한 추론 궤적과 프로브 신호 위에서 분기·중단·가지치기 전략을 자동 발견하는 테스트 타임 스케일링 탐색 환경을 제안합니다.
UniPrefill: 블록 단위 동적 희소화로 구현한 범용 장문맥 프리필 가속⭐ 18
UniPrefill은 블록 단위 동적 희소화로 full attention뿐 아니라 hybrid 아키텍처에도 적용되는 장문맥 prefill 가속을 제안하며, 연속 배칭과 vLLM류 엔진 호환성까지 고려했습니다.
📄Training & Optimization2
Flow-OPD: 플로우 매칭 모델을 위한 온폴리시 증류⭐ 67
Flow-OPD는 단일 보상별 교사 모델을 먼저 키운 뒤 온폴리시 증류로 통합 학생 모델을 만드는 2단계 정렬 프레임워크로, 플로우 매칭 T2I의 보상 희소성과 목적 간 간섭 문제를 줄입니다.
Auto-Rubric as Reward: 암묵적 선호를 명시적 멀티모달 생성 기준으로⭐ 26
ARR은 VLM의 암묵적 선호를 비교 이전에 프롬프트별 루브릭으로 외재화해 보상을 다차원·검증 가능 기준으로 분해함으로써, 멀티모달 생성 정렬의 해석 가능성과 보상 해킹 저항성을 높입니다.
📄Robotics & RL2
RigidFormer: 트랜스포머로 학습하는 강체 동역학⭐ 6
RigidFormer는 앵커 중심 객체 단위 트랜스포머와 Anchor-Vertex Pooling, Anchor-based RoPE를 통해 메시 없는 포인트클라우드 입력에서도 고충실도 강체 동역학을 효율적으로 예측합니다.
에이전트형 강화학습을 위한 동적 스킬 수명주기 관리⭐ 7
SLIM은 스킬의 기여도를 leave-one-skill-out으로 추정해 유지·은퇴·탐색을 동적으로 수행하며, 외부 스킬 집합 자체를 정책 학습과 함께 최적화하는 에이전트 RL 프레임워크입니다.