오늘의 한줄

오늘은 멀티모달 모델이 이해와 생성을 하나로 묶고, 에이전트가 메모리·도구·데이터 루프를 스스로 개선하는 방향이 두드러졌습니다. 동시에 픽셀·비디오·3D 생성에서는 기존 잠재공간 중심 접근을 넘어 더 직접적이고 정밀한 표현으로 이동하는 흐름이 보입니다.

📄Multimodal & Generative7

SenseNova-U1: NEO-unify 아키텍처로 멀티모달 이해와 생성을 통합하다⭐ 1,636

SenseNova-U1은 NEO-unify 기반으로 이해와 생성을 하나의 과정으로 통합한 UMM으로, 8B·MoE 변형 모두 텍스트·비전 이해와 생성 성능을 함께 끌어올려 분리형 VLM 파이프라인의 한계를 줄였습니다.

Pixal3D: 이미지에서 픽셀 정렬 3D를 생성하다⭐ 149

Pixal3D는 멀티스케일 이미지 특징을 3D 볼륨으로 직접 역투영하는 pixel back-projection conditioning으로 픽셀-3D 대응을 명시해, 이미지-투-3D의 핵심 병목인 시각 충실도를 높였습니다.

AnyFlow: 온폴리시 플로우 맵 증류로 구현한 임의 스텝 비디오 디퓨전⭐ 190

AnyFlow는 endpoint consistency 대신 임의 시간 구간의 flow map 전이를 학습해, 적은 스텝뿐 아니라 더 많은 테스트 스텝에서도 성능이 유지되는 최초의 any-step 비디오 디퓨전 증류 프레임워크를 제시했습니다.

💡 이 카테고리는 멀티모달 모델이 단순히 입력 모달리티를 늘리는 단계를 넘어, 이해·생성·보상 설계까지 하나의 통합 체계로 재구성되는 흐름을 보여줍니다. 동시에 픽셀·비디오·3D 생성에서도 잠재공간의 우회 대신 직접 대응과 임의 스텝 제어처럼 더 정밀하고 활용도 높은 생성 제어가 핵심 경쟁력이 되고 있습니다.

💻Code & Agents8

NanoResearch: 스킬·메모리·정책의 공진화로 개인화된 연구 자동화⭐ 933

NanoResearch는 스킬 뱅크, 사용자 메모리, 정책을 삼중으로 함께 진화시켜 연구자의 자원·선호·산출물 형식에 맞춘 개인화 연구 자동화를 구현한 멀티에이전트 프레임워크입니다.

X-OmniClaw 기술 보고서: 멀티모달 이해와 상호작용을 위한 통합 모바일 에이전트⭐ 79

X-OmniClaw는 안드로이드 환경에서 지각·메모리·행동을 통합한 모바일 에이전트로, UI·실세계 영상·음성을 시간 정렬해 개인화된 장기 메모리와 맥락 인지형 액션으로 연결합니다.

Continual Harness: 자기개선 파운데이션 에이전트를 위한 온라인 적응⭐ 89

Continual Harness는 포켓몬 플레이 실험에서 관찰한 자기개선 루프를 일반화해, 프롬프트·서브에이전트·스킬·메모리를 리셋 없이 온라인으로 갱신하는 embodied agent용 self-improving 하네스를 제안했습니다.

💡 에이전트 연구는 이제 단일 모델 성능보다 메모리, 도구 선택, 개인화, 평가, 데이터 생성까지 포함한 시스템 설계로 무게중심이 이동하고 있습니다. 특히 하네스와 폐루프 개선 구조가 중요해지면서, 에이전트는 점점 '잘 답하는 모델'보다 '스스로 운영을 개선하는 소프트웨어'에 가까워지고 있습니다.

📄Robotics & RL2

로봇 학습을 위한 월드 모델: 종합 서베이⭐ 312

이 서베이는 로봇 정책 학습에서 월드 모델이 계획·시뮬레이션·평가·데이터 생성에 어떻게 결합되는지 체계화하며, 비디오 기반 파운데이션 월드 모델까지 포함한 연구 지형을 정리했습니다.

월드 액션 모델: embodied AI의 다음 프런티어⭐ 129

이 논문은 VLA와 월드 모델의 결합을 World Action Models로 정의하고, 미래 상태와 행동의 결합 분포를 학습하는 embodied foundation model 패러다임을 개념적으로 정리했습니다.

💡 로보틱스에서는 정책을 직접 학습하는 접근에서 벗어나, 세계의 변화를 예측하는 월드 모델과 행동 생성을 결합하는 방향이 중심축으로 자리잡고 있습니다. 서베이와 개념 정리가 동시에 나온다는 점은 이 분야가 아이디어 탐색기를 지나 본격적인 공통 프레임워크 정립 단계로 들어섰음을 시사합니다.

🗣️Language Models2

δ-mem: 대규모 언어모델을 위한 효율적 온라인 메모리⭐ 46

δ-mem은 동결된 풀어텐션 LLM에 8×8 고정 크기 연상 메모리를 붙여 attention을 저랭크 보정하며, MemoryAgentBench에서 1.31배, LoCoMo에서 1.20배 성능 향상을 기록했습니다.

멀티스트림 LLM: 생각·입력·출력의 병렬 스트림으로 언어모델의 병목을 풀다⭐ 16

Multi-Stream LLM은 읽기·생각·행동을 단일 메시지 순차 포맷에서 병렬 스트림으로 분리해, 에이전트가 입력을 받으면서 출력하고 행동하면서 추론하는 새로운 상호작용 구조를 제시했습니다.

💡 LLM 자체도 더 긴 문맥을 단순히 넣는 대신, 작고 구조화된 온라인 메모리와 병렬 스트림 계산으로 실행 구조를 바꾸는 쪽이 주목받고 있습니다. 즉, 앞으로의 성능 향상은 모델 크기보다 메모리 인터페이스와 추론 실행 방식의 재설계에서 더 크게 나올 가능성이 있습니다.

👁️Computer Vision1

TrackCraft3R: 비디오 디퓨전 트랜스포머를 조밀한 3D 추적으로 재활용하다⭐ 45

TrackCraft3R는 인터넷 비디오로 학습된 video DiT의 시공간 사전을 참조 프레임 기준의 feed-forward 조밀 3D 추적으로 전환해, 단안 비디오 동적 장면 이해의 모션 추정 한계를 공략했습니다.

💡 비전 분야에서는 생성 모델이 학습한 대규모 시공간 사전을 추적 같은 기하 문제에 재활용하는 흐름이 인상적입니다. 이는 생성과 인식의 경계가 흐려지며, foundation video model이 장면 이해의 범용 백본으로 자리잡을 수 있음을 보여줍니다.