오늘의 한줄

오늘은 멀티모달 에이전트와 생성 모델이 한 단계 더 실전 지향적으로 진화하는 흐름이 두드러졌습니다. 특히 픽셀 단위 통합 모델, 3D 일관성 강화, 실제 업무 환경형 에이전트 벤치마크가 연구의 중심축으로 보입니다.

📄Multimodal & Generative7

GLM-5V-Turbo는 이미지·비디오·문서·GUI 인식을 추론·계획·도구사용에 네이티브하게 통합해 멀티모달 코딩과 시각 도구 활용 성능을 끌어올리면서 텍스트 코딩 경쟁력도 유지한 에이전트형 기반모델입니다.

World-R1은 Flow-GRPO와 3D 파운데이션 모델 피드백을 활용한 강화학습으로 아키텍처 변경 없이 텍스트-비디오 생성의 3D 구조 일관성을 높이면서 원래의 시각 품질을 유지합니다.

Tuna-2는 VAE나 별도 비전 인코더 없이 단순 패치 기반 픽셀 임베딩만으로 이해와 생성을 통합해, 엔드투엔드 최적화와 함께 멀티모달 벤치마크 SOTA 및 강한 확장성을 보여줍니다.

Sapiens2는 최대 5B 규모의 1K~4K 인간 중심 비전 트랜스포머로, 마스킹 복원과 자기증류 대조학습을 결합한 사전학습과 10억 장 고품질 데이터로 밀집 예측과 제로샷 일반화를 함께 강화했습니다.

ReVSI는 기존 3D QA 벤치마크의 오주석·비가시성 문제를 바로잡기 위해 381개 장면을 재주석하고, 모델 입력 프레임 기준으로 실제 답변 가능한 질문만 남겨 VLM 3D 추론 평가의 타당성을 높였습니다.

Step-Audio-R1.5는 오디오 추론에서 RLVR이 만드는 '검증 가능한 보상 함정'을 지적하며, 벤치마크 점수보다 실제 대화감과 음향 뉘앙스를 살리는 오디오 지능 설계의 중요성을 강조합니다.

OneManCompany는 에이전트의 스킬·도구·설정을 이식 가능한 Talent로 묶고 Talent Market과 조직 인터페이스로 실행 중 동적 채용·재구성을 가능하게 해 멀티에이전트 운영 계층을 제안합니다.

ClawMark는 이메일·캘린더·파일·스프레드시트가 시간에 따라 변하는 환경에서 100개 업무 과제를 1,537개 결정적 체커로 평가해, 장기 지속형 코워커 에이전트의 실제 성능을 검증합니다.

DV-World는 스프레드시트 조작, 시각화 진화, 모호한 요구 정렬까지 포함한 260개 과제로 데이터 시각화 에이전트를 평가하며, 실제 업무형 DV 작업에서 최신 모델들의 한계를 드러냅니다.

이 서베이는 VLA 모델의 물리적 위험, 멀티모달 공격면, 실시간 방어 제약을 학습·추론 시점 축으로 체계화해, embodied AI 안전 연구를 위한 공통 프레임을 제공합니다.

RADIO-ViPE는 단안 RGB 비디오만으로도 카메라 보정·깊이센서 없이 오픈보캐뷸러리 3D grounding이 가능한 시맨틱 SLAM을 구현하며, 멀티모달 임베딩과 기하 최적화를 밀결합해 동적 환경 강건성을 높였습니다.

ProDa는 학습 데이터를 소스코드, 벤치마크를 유닛테스트처럼 다루는 테스트 주도 데이터 엔지니어링으로, 실패를 개념 결손과 추론 사슬 오류로 분해해 LLM의 데이터 수정을 체계화합니다.

TIDE는 TIDAL, CompDemo, Reverse CALM을 결합한 최초의 교차 아키텍처 dLLM 증류 프레임워크로, 서로 다른 어텐션·토크나이저 구조 사이에서도 작은 모델로 성능 이전을 가능하게 합니다.