오늘의 한줄
오늘은 멀티모달 모델이 이해·생성·상호작용을 하나의 루프로 통합하는 흐름과, 에이전트가 검색·검증·자기개선 능력을 더 정교하게 갖춰가는 흐름이 두드러졌습니다. 동시에 로보틱스와 생성모델 쪽에서는 물리성, 시간축 일관성, 테스트타임 최적화처럼 실제 배치 환경에 가까운 문제를 정면으로 다루는 연구가 많았습니다.
📄Multimodal & Generative5
통합 멀티모달 이해와 생성에서 공간 지능을 깨우다⭐ 2,111
JoyAI-Image는 공간 강화 MLLM과 MMDiT를 결합해 이해·텍스트-이미지 생성·지시 기반 편집을 하나로 묶고, 공간 정렬 학습과 장문 렌더링 감독으로 기하 추론과 제어 가능한 시각 생성을 함께 끌어올렸습니다.
MiniCPM-o 4.5: 실시간 전이중 옴니모달 상호작용을 향하여⭐ 24,514
MiniCPM-o 4.5는 보고·듣고·말하기를 동시에 수행하는 실시간 전이중 옴니모달 상호작용을 구현해, 응답 중 새 입력을 반영하고 상황 기반 알림까지 수행하는 보다 인간형 인터랙션 패러다임을 제시했습니다.
PhysForge: 인터랙티브 가상 세계를 위한 물리 기반 3D 자산 생성⭐ 35
PhysForge는 15만 개 자산의 4단계 물리 주석 데이터셋 PhysDB와 함께, VLM이 물리 청사진을 설계하고 KVI 기반 확산 모델이 기구학 파라미터까지 생성하는 2단계 파이프라인을 제안했습니다.
💻Code & Agents5
ARIS: 적대적 멀티에이전트 협업을 통한 자율 연구⭐ 8,158
ARIS는 실행 에이전트와 이종 모델 기반 리뷰어를 기본 조합으로 둔 연구 하네스를 제안해, 장기 연구 워크플로에서 그럴듯하지만 근거 없는 성공을 줄이도록 중간 산출물 비판과 수정 루프를 체계화했습니다.
OpenSeeker-v2: 정보량 높고 어려운 궤적으로 검색 에이전트 한계를 밀어붙이다⭐ 629
OpenSeeker-v2는 지식그래프 확장, 도구 수 증가, 저스텝 필터링으로 만든 10.6k 고난도 궤적만으로 SFT를 수행해 BrowseComp 46.0% 등 30B급 ReAct 검색 에이전트 SOTA를 달성했습니다.
MedSkillAudit: 의료 연구 에이전트 스킬을 위한 도메인 특화 감사 프레임워크⭐ 531
MedSkillAudit는 의료 연구 에이전트 스킬 75개를 대상으로 과학적 타당성, 재현성, 경계 안전성까지 점검하는 배포 전 감사 프레임워크를 제안해 전문가 평가와의 신뢰도 정합성을 검증했습니다.
📄Robotics & RL2
RLDX-1 기술 보고서⭐ 70
RLDX-1은 MSAT 아키텍처로 시각·언어·동작·기억·물리 감각을 모달별 스트림과 교차 주의로 통합해, 희귀 조작 데이터 합성과 실시간 추론 최적화까지 포함한 범용 정교 조작 정책을 제시했습니다.
KinDER: 로봇 학습과 계획을 위한 물리 추론 벤치마크⭐ 22
KinDER는 25개 절차적 환경과 13개 베이스라인을 갖춘 Gymnasium 호환 벤치마크로, 공간 관계·도구 사용·동역학 제약 등 로봇 물리 추론을 지각·언어 문제와 분리해 정밀 평가할 수 있게 했습니다.
📄Training & Optimization5
ComboStoc: 확산 생성모델을 위한 조합적 확률성⭐ 32
ComboStoc은 고차원 데이터와 속성 조합 공간을 더 잘 덮는 확률 과정을 도입해 이미지와 3D 생성에서 학습을 가속하고, 차원·속성별 비동기 시간 스텝으로 테스트타임 제어성도 높였습니다.
테이블 파운데이션 모델을 위한 사전정렬 데이터 클리닝⭐ 54
L2C2는 테이블 파운데이션 모델의 합성 사전분포와 실제 오염 데이터 간 불일치를 줄이기 위해, 결측치·이상치·중복 처리 연산을 RL 정책으로 순차 선택하는 최초의 prior alignment 클리닝 프레임워크입니다.
SFT에서 RL로를 넘어: 멀티모달 RL을 위한 블랙박스 온폴리시 증류 기반 사전 정렬⭐ 45
PRISM은 SFT와 RLVR 사이에 MoE 판별기 기반 블랙박스 온폴리시 증류 단계를 삽입해, 지각과 추론 드리프트를 분리 교정하며 멀티모달 후학습의 분포 붕괴를 줄였습니다.
👁️Computer Vision2
SVGS: 공간적으로 변하는 색을 가진 프리미티브로 가우시안 스플래팅 강화⭐ 62
SVGS는 단일 색 대신 공간적으로 변하는 색과 불투명도를 갖는 2D Gaussian surfel을 도입해, 복잡한 텍스처 장면에서 더 압축적인 표현으로 novel view synthesis와 기하 재구성을 함께 개선했습니다.
X2SAM: 이미지와 비디오에서 무엇이든 분할하기⭐ 15
X2SAM은 LLM과 Mask Memory를 결합해 대화형 텍스트·시각 프롬프트를 이미지와 비디오 모두에 통합 적용하고, 시간 일관성을 유지하는 범용 세그멘테이션 인터페이스를 구현했습니다.
🗣️Language Models1
HeavySkill: 에이전트 하네스 안의 내재 스킬로서의 깊은 사고⭐ 22
HeavySkill은 복잡한 에이전트 성능의 핵심을 병렬 추론 후 요약이라는 내재 스킬로 해석하며, 이 방식이 전통적 Best-of-N보다 꾸준히 강하고 강한 LLM은 Pass@N에 근접할 수 있음을 보였습니다.