오늘의 한줄

오늘은 멀티모달 모델이 이해·생성·상호작용을 하나의 루프로 통합하는 흐름과, 에이전트가 검색·검증·자기개선 능력을 더 정교하게 갖춰가는 흐름이 두드러졌습니다. 동시에 로보틱스와 생성모델 쪽에서는 물리성, 시간축 일관성, 테스트타임 최적화처럼 실제 배치 환경에 가까운 문제를 정면으로 다루는 연구가 많았습니다.

📄Multimodal & Generative5

통합 멀티모달 이해와 생성에서 공간 지능을 깨우다2,111

JoyAI-Image는 공간 강화 MLLM과 MMDiT를 결합해 이해·텍스트-이미지 생성·지시 기반 편집을 하나로 묶고, 공간 정렬 학습과 장문 렌더링 감독으로 기하 추론과 제어 가능한 시각 생성을 함께 끌어올렸습니다.

MiniCPM-o 4.5: 실시간 전이중 옴니모달 상호작용을 향하여24,514

MiniCPM-o 4.5는 보고·듣고·말하기를 동시에 수행하는 실시간 전이중 옴니모달 상호작용을 구현해, 응답 중 새 입력을 반영하고 상황 기반 알림까지 수행하는 보다 인간형 인터랙션 패러다임을 제시했습니다.

PhysForge: 인터랙티브 가상 세계를 위한 물리 기반 3D 자산 생성35

PhysForge는 15만 개 자산의 4단계 물리 주석 데이터셋 PhysDB와 함께, VLM이 물리 청사진을 설계하고 KVI 기반 확산 모델이 기구학 파라미터까지 생성하는 2단계 파이프라인을 제안했습니다.

💻Code & Agents5

ARIS: 적대적 멀티에이전트 협업을 통한 자율 연구8,158

ARIS는 실행 에이전트와 이종 모델 기반 리뷰어를 기본 조합으로 둔 연구 하네스를 제안해, 장기 연구 워크플로에서 그럴듯하지만 근거 없는 성공을 줄이도록 중간 산출물 비판과 수정 루프를 체계화했습니다.

OpenSeeker-v2: 정보량 높고 어려운 궤적으로 검색 에이전트 한계를 밀어붙이다629

OpenSeeker-v2는 지식그래프 확장, 도구 수 증가, 저스텝 필터링으로 만든 10.6k 고난도 궤적만으로 SFT를 수행해 BrowseComp 46.0% 등 30B급 ReAct 검색 에이전트 SOTA를 달성했습니다.

MedSkillAudit: 의료 연구 에이전트 스킬을 위한 도메인 특화 감사 프레임워크531

MedSkillAudit는 의료 연구 에이전트 스킬 75개를 대상으로 과학적 타당성, 재현성, 경계 안전성까지 점검하는 배포 전 감사 프레임워크를 제안해 전문가 평가와의 신뢰도 정합성을 검증했습니다.

📄Robotics & RL2

RLDX-1 기술 보고서70

RLDX-1은 MSAT 아키텍처로 시각·언어·동작·기억·물리 감각을 모달별 스트림과 교차 주의로 통합해, 희귀 조작 데이터 합성과 실시간 추론 최적화까지 포함한 범용 정교 조작 정책을 제시했습니다.

KinDER: 로봇 학습과 계획을 위한 물리 추론 벤치마크22

KinDER는 25개 절차적 환경과 13개 베이스라인을 갖춘 Gymnasium 호환 벤치마크로, 공간 관계·도구 사용·동역학 제약 등 로봇 물리 추론을 지각·언어 문제와 분리해 정밀 평가할 수 있게 했습니다.

📄Training & Optimization5

ComboStoc: 확산 생성모델을 위한 조합적 확률성32

ComboStoc은 고차원 데이터와 속성 조합 공간을 더 잘 덮는 확률 과정을 도입해 이미지와 3D 생성에서 학습을 가속하고, 차원·속성별 비동기 시간 스텝으로 테스트타임 제어성도 높였습니다.

테이블 파운데이션 모델을 위한 사전정렬 데이터 클리닝54

L2C2는 테이블 파운데이션 모델의 합성 사전분포와 실제 오염 데이터 간 불일치를 줄이기 위해, 결측치·이상치·중복 처리 연산을 RL 정책으로 순차 선택하는 최초의 prior alignment 클리닝 프레임워크입니다.

SFT에서 RL로를 넘어: 멀티모달 RL을 위한 블랙박스 온폴리시 증류 기반 사전 정렬45

PRISM은 SFT와 RLVR 사이에 MoE 판별기 기반 블랙박스 온폴리시 증류 단계를 삽입해, 지각과 추론 드리프트를 분리 교정하며 멀티모달 후학습의 분포 붕괴를 줄였습니다.

👁️Computer Vision2

SVGS: 공간적으로 변하는 색을 가진 프리미티브로 가우시안 스플래팅 강화62

SVGS는 단일 색 대신 공간적으로 변하는 색과 불투명도를 갖는 2D Gaussian surfel을 도입해, 복잡한 텍스처 장면에서 더 압축적인 표현으로 novel view synthesis와 기하 재구성을 함께 개선했습니다.

X2SAM: 이미지와 비디오에서 무엇이든 분할하기15

X2SAM은 LLM과 Mask Memory를 결합해 대화형 텍스트·시각 프롬프트를 이미지와 비디오 모두에 통합 적용하고, 시간 일관성을 유지하는 범용 세그멘테이션 인터페이스를 구현했습니다.

🗣️Language Models1

HeavySkill: 에이전트 하네스 안의 내재 스킬로서의 깊은 사고22

HeavySkill은 복잡한 에이전트 성능의 핵심을 병렬 추론 후 요약이라는 내재 스킬로 해석하며, 이 방식이 전통적 Best-of-N보다 꾸준히 강하고 강한 LLM은 Pass@N에 근접할 수 있음을 보였습니다.

매일 아침, 받은편지함에서 만나보세요

새로운 뉴스레터가 발행될 때마다 이메일로 받아볼 수 있습니다.

받아볼 뉴스레터 선택