오늘의 한줄

오늘은 멀티모달 모델이 이해와 생성을 하나로 묶고, 에이전트는 메모리·도구·온정책 학습을 통해 스스로 진화하는 흐름이 두드러졌습니다. 동시에 3D·뷰 합성·픽셀 생성처럼 생성 품질을 구조적으로 끌어올리는 연구와, 메모리·워터마킹·병렬 추론처럼 LLM의 실전성을 높이는 시도도 인상적입니다.

📄Multimodal & Generative3

SenseNova-U1: NEO-unify 아키텍처로 멀티모달 이해와 생성을 통합하다1,636

SenseNova-U1은 NEO-unify 기반의 네이티브 통합 멀티모달 모델로 이해 전용 VLM급 성능을 유지하면서도 생성까지 단일 표현공간에서 처리해, 분리형 파이프라인의 정렬 문제를 줄였습니다.

Pixal3D: 이미지에서 픽셀 정렬 3D를 생성하다149

Pixal3D는 멀티스케일 이미지 특징을 3D 볼륨으로 직접 역투영하는 pixel back-projection conditioning으로 2D-3D 대응을 명시해, 이미지-투-3D의 픽셀 충실도를 크게 높였습니다.

L2P: 픽셀 생성의 잠재력을 끌어내다24

L2P는 사전학습된 잠재 확산모델의 중간층을 고정한 채 얕은 층만 학습해 latent-to-pixel 변환을 익히고, 실데이터 없이 8개 GPU만으로 4K 픽셀 생성까지 확장했습니다.

💡 멀티모달 연구는 이제 이해와 생성을 따로 붙이는 단계에서 벗어나, 단일 표현공간과 생성 절차 안에서 둘을 함께 최적화하는 방향으로 가고 있습니다. 동시에 3D·픽셀·고해상도 생성처럼 구조적 대응관계와 사전학습 prior를 더 정교하게 활용해 품질과 충실도를 함께 끌어올리려는 흐름이 뚜렷합니다.

💻Code & Agents7

NanoResearch: 개인화된 연구 자동화를 위한 스킬·메모리·정책 공동 진화933

NanoResearch는 스킬 뱅크, 사용자 메모리, 정책을 함께 진화시키는 멀티에이전트 프레임워크로, 연구 자동화를 범용 출력이 아니라 사용자별 선호와 작업 이력에 맞춘 개인화 문제로 재정의했습니다.

X-OmniClaw 기술 보고서: 멀티모달 이해와 상호작용을 위한 통합 모바일 에이전트79

X-OmniClaw는 안드로이드 환경에서 UI·실세계 영상·음성을 통합 인지하고, 작업 메모리와 장기 개인 메모리를 결합해 문맥 인식형 모바일 에이전트를 구현한 통합 아키텍처입니다.

MemPrivacy: 엣지-클라우드 에이전트를 위한 프라이버시 보존 개인화 메모리 관리38

MemPrivacy는 엣지에서 민감 구간을 타입 인식 플레이스홀더로 치환해 클라우드 메모리 처리를 가능하게 하고, 200명·5.2만 프롬프트 규모의 MemPrivacy-Bench로 프라이버시와 메모리 효용의 균형을 평가했습니다.

💡 에이전트 연구의 중심은 더 많은 도구 연결이 아니라, 메모리·개인화·시각 피드백·온정책 데이터 진화까지 포함한 자기개선 루프 설계로 이동하고 있습니다. 특히 연구 자동화, 모바일, 컴퓨터 사용, 딥서치, 안전 정렬까지 공통적으로 '실행 궤적을 어떻게 축적하고 다시 학습에 연결할 것인가'가 핵심 과제로 보입니다.

📄Robotics & RL3

로봇 학습을 위한 월드 모델: 종합 서베이312

이 서베이는 로봇 정책 학습에서 월드 모델이 계획, 시뮬레이션, 평가, 데이터 생성까지 어떻게 연결되는지 정리하며, 비디오 기반 파운데이션 월드 모델이 로보틱스 핵심 축으로 떠오르고 있음을 보여줍니다.

Continual Harness: 스스로 개선하는 파운데이션 에이전트를 위한 온라인 적응89

Continual Harness는 포켓몬 플레이 실험에서 관찰된 자기개선 루프를 일반화해, 에이전트가 프롬프트·서브에이전트·스킬·메모리를 스스로 갱신하는 리셋 없는 온라인 적응 프레임워크를 제안했습니다.

월드 액션 모델: 체화 AI의 다음 프런티어129

이 논문은 행동만 예측하는 VLA를 넘어 미래 상태와 행동의 결합 분포를 함께 모델링하는 WAM 개념을 정식화해, 체화 파운데이션 모델의 다음 설계 축을 명확히 제시했습니다.

💡 로보틱스에서는 월드 모델이 단순 보조 모듈이 아니라 정책과 함께 설계되는 핵심 구성요소로 자리 잡고 있습니다. 서베이와 프레임워크 논문들이 동시에 나온 것은, 이제 체화 AI가 반응형 정책을 넘어 미래 상태를 상상하고 그 예측을 행동에 직접 연결하는 단계로 넘어가고 있음을 시사합니다.

📄Training & Optimization3

AlphaGRPO: 분해형 검증 보상으로 자기반성 멀티모달 생성을 여는 방법31

AlphaGRPO는 AR-Diffusion 기반 통합 멀티모달 모델에 GRPO를 적용하고 DVReward로 요청을 검증 가능한 원자 기준으로 분해해, 추가 콜드스타트 없이 추론형 이미지 생성과 자기수정 능력을 끌어냈습니다.

Auto-Rubric as Reward: 암묵적 선호를 명시적 멀티모달 생성 기준으로 바꾸다26

ARR는 멀티모달 생성 보상을 단일 스칼라 대신 프롬프트별 루브릭으로 외재화해, 사람 선호의 다차원 구조를 해석 가능하고 검증 가능한 기준으로 바꾸는 정렬 프레임워크를 제안했습니다.

SeePhys Pro: 물리 추론용 멀티모달 RLVR의 모달 전이와 블라인드 학습 효과 진단16

SeePhys Pro는 같은 문제를 텍스트에서 도식 중심으로 점진 전이한 4종 입력으로 평가해 시각 변수 grounding이 핵심 병목임을 보였고, 이미지 마스킹 RL도 성능을 올리는 기이한 RLVR 현상을 진단했습니다.

💡 정렬과 강화학습은 점점 더 '좋은 답' 하나를 점수화하는 방식에서 벗어나, 요청을 세분화한 검증 기준과 진단용 통제 실험으로 학습 신호를 구조화하는 방향으로 진화하고 있습니다. 이는 멀티모달 생성과 추론에서 보상 해킹을 줄이고, 모델이 무엇을 실제로 배웠는지 더 투명하게 보려는 움직임으로 읽힙니다.

🗣️Language Models3

δ-mem: 대규모 언어모델을 위한 효율적 온라인 메모리46

δ-mem은 고정된 풀어텐션 백본에 8×8 연상 메모리 상태만 추가해 평균 점수를 동결 백본 대비 1.10배, MemoryAgentBench에서 1.31배까지 높이며 경량 온라인 메모리의 실효성을 입증했습니다.

멀티스트림 LLM: 생각·입력·출력을 병렬화해 언어모델의 병목을 풀다16

Multi-Stream LLMs는 읽기·생각하기·행동하기를 단일 채팅 스트림에서 분리한 병렬 계산 스트림으로 학습해, 입력을 받으면서 출력하고 행동 중에도 반응하는 에이전트형 LLM의 새 인터페이스를 제시했습니다.

PASA: 의미 보존 공격에도 견디는 임베딩 공간 워터마킹17

PASA는 잠재 임베딩 공간의 의미 클러스터 수준에서 워터마크를 삽입·검출해, 패러프레이즈 같은 semantic-invariant 공격에도 강인하면서 텍스트 품질 저하를 최소화했습니다.

💡 LLM 자체 연구는 더 긴 컨텍스트 경쟁보다, 작은 상태로 기억을 유지하고 계산 스트림을 병렬화하며 생성물의 출처를 검증하는 식의 시스템적 확장에 초점이 맞춰지고 있습니다. 즉 모델 크기를 키우는 것만으로는 부족하고, 메모리·인터페이스·신뢰성 계층을 함께 설계해야 실사용성이 올라간다는 메시지가 분명합니다.

👁️Computer Vision1

MoCam: 구조화된 디노이징 동역학으로 통합한 신규 시점 합성20

MoCam은 확산 초반엔 기하 priors로 구조를 고정하고 후반엔 외관 priors로 오류를 보정하는 시간적 분리를 통해, 정적·동적 장면의 novel view synthesis를 하나의 생성 절차로 통합했습니다.

💡 비전 생성에서는 기하와 외관 신호를 한 번에 섞기보다, 확산 과정 안에서 역할과 시점을 분리해 충돌을 줄이는 설계가 중요해지고 있습니다. 이는 향후 뷰 합성이나 3D 생성에서도 '무엇을 언제 쓰는가'가 성능을 가르는 핵심 레버가 될 가능성을 보여줍니다.

매일 아침, 받은편지함에서 만나보세요

새로운 뉴스레터가 발행될 때마다 이메일로 받아볼 수 있습니다.

받아볼 뉴스레터 선택