오늘의 한줄

오늘은 멀티모달 모델이 실시간 상호작용·공간 추론·생성 제어까지 확장되는 흐름과, 검색 에이전트·연구 에이전트의 학습 및 검증 체계가 빠르게 정교해지는 흐름이 두드러졌습니다. 동시에 로보틱스와 디퓨전 학습에서는 물리성, 보상 설계, 증류 안정성처럼 실제 배치 성능을 좌우하는 요소를 정면으로 다루는 연구가 많았습니다.

📄Multimodal & Generative6

MiniCPM-o 4.5: 실시간 전이중 옴니모달 상호작용을 향하여⭐ 24,514

MiniCPM-o 4.5는 보고·듣고·말하기를 동시에 수행하는 실시간 전이중 옴니모달 상호작용과 능동적 응답을 지원해, 기존 턴 기반 MLLM의 지연·수동성 한계를 줄이려는 시스템입니다.

통합 멀티모달 이해와 생성에서 공간 지능 깨우기⭐ 2,111

JoyAI-Image는 공간 강화 MLLM과 MMDiT를 결합해 이해·텍스트-이미지 생성·지시 편집을 하나로 묶고, 공간 정렬 데이터와 장문 렌더링 학습으로 geometry-aware 제어 성능을 끌어올렸습니다.

HERMES++: 3D 장면 이해와 생성을 아우르는 통합 주행 월드모델⭐ 36

HERMES++는 BEV 표현과 LLM 강화 월드 쿼리, Current-to-Future 브리지를 결합해 자율주행에서 3D 장면 이해와 미래 기하 예측을 하나의 월드모델로 통합했습니다.

💻Code & Agents5

ARIS: 적대적 멀티에이전트 협업을 통한 자율 연구⭐ 8,158

ARIS는 실행 모델과 이기종 리뷰어 모델을 기본 조합으로 두는 적대적 협업 하네스를 제안해, 장기 연구 에이전트의 그럴듯하지만 근거 빈약한 산출물을 중간 비판과 수정 요청으로 억제합니다.

OpenSeeker-v2: 정보량 높고 어려운 궤적으로 검색 에이전트 한계 밀어붙이기⭐ 629

OpenSeeker-v2는 지식그래프 확장·도구 수 확대·저스텝 필터링으로 만든 10.6k SFT 데이터만으로 BrowseComp 46.0%, BrowseComp-ZH 58.1% 등 30B급 검색 에이전트 SOTA를 달성했습니다.

MedSkillAudit: 의료 연구 에이전트 스킬을 위한 도메인 특화 감사 프레임워크⭐ 531

MedSkillAudit는 의료 연구용 에이전트 스킬 75개를 과학적 타당성·재현성·안전성 관점에서 배포 전 감사하는 계층형 프레임워크로, 전문가 리뷰와의 신뢰도 정렬을 목표로 설계됐습니다.

📄Robotics & RL2

RLDX-1 기술 보고서⭐ 70

RLDX-1은 Multi-Stream Action Transformer로 시각·언어·동작·기억·물리 감지를 통합해, 희귀 조작 데이터 합성과 실시간 추론 최적화까지 포함한 범용 정교 조작 정책을 제시합니다.

KinDER: 로봇 학습과 계획을 위한 물리 추론 벤치마크⭐ 22

KinDER는 공간관계·도구 사용·동역학 제약 등 5대 물리 추론 문제를 분리한 25개 환경과 13개 베이스라인을 제공해, 로봇 학습·계획 모델의 물리적 추론 약점을 체계적으로 드러냅니다.

📄Training & Optimization5

SFT에서 RL로를 넘어: 멀티모달 RL을 위한 블랙박스 온폴리시 증류 기반 사전 정렬⭐ 45

PRISM은 SFT와 RLVR 사이에 MoE 판별기의 지각·추론 분리 신호를 활용한 블랙박스 온폴리시 증류 단계를 삽입해, 멀티모달 RL에서 분포 드리프트를 줄이는 3단계 정렬 파이프라인입니다.

소수 스텝 디퓨전 증류를 위한 연속시간 분포 정합⭐ 21

CDM은 DMD를 이산 시점 감독에서 연속시간 최적화로 확장해, 랜덤 길이 스케줄과 연속 경로 정합으로 few-step 디퓨전 증류의 아티팩트와 과도한 스무딩을 줄입니다.

MARBLE: 디퓨전 RL을 위한 다측면 보상 균형화⭐ 23

MARBLE은 가중합 보상의 샘플 수준 불일치 문제를 짚고, 다중 보상에서 어떤 샘플이 어떤 기준에 유효한지 구분해 하나의 디퓨전 RL 모델로 공동 최적화를 가능하게 합니다.

👁️Computer Vision1

SVGS: 공간적으로 변하는 색을 가진 프리미티브로 가우시안 스플래팅 강화하기⭐ 62

SVGS는 단일 색 대신 공간적으로 변하는 색·불투명도를 갖는 2D Gaussian surfel을 도입해, 복잡한 텍스처 장면에서 더 압축적이면서도 novel view synthesis와 기하 복원을 함께 개선했습니다.

🗣️Language Models1

벤치마크가 없을 때: 정답 라벨 없이 비교형 LLM 안전성 점수 검증하기⭐ 14

SimpleAudit는 라벨 없는 비교형 안전성 평가를 도구적 타당성 사슬로 검증하며, 노르웨이어 안전성 팩에서 AUROC 0.89~1.00과 η²≈0.52를 보여 벤치마크 부재 상황의 감사 근거를 제시했습니다.