오늘의 한줄
오늘은 멀티모달 에이전트와 생성 모델이 한 단계 더 실전 지향적으로 진화하는 흐름이 두드러졌습니다. 특히 픽셀 단위 통합 모델, 3D 일관성 강화, 실제 업무 환경형 에이전트 벤치마크가 연구의 중심축으로 보입니다.
📄Multimodal & Generative7
GLM-5V-Turbo: 멀티모달 에이전트를 위한 네이티브 파운데이션 모델을 향해⭐ 2,287
GLM-5V-Turbo는 이미지·비디오·문서·GUI 인식을 추론·계획·도구사용에 네이티브하게 통합해 멀티모달 코딩과 시각 도구 활용 성능을 끌어올리면서 텍스트 코딩 경쟁력도 유지한 에이전트형 기반모델입니다.
World-R1: 텍스트-비디오 생성에 3D 제약을 강화하다⭐ 129
World-R1은 Flow-GRPO와 3D 파운데이션 모델 피드백을 활용한 강화학습으로 아키텍처 변경 없이 텍스트-비디오 생성의 3D 구조 일관성을 높이면서 원래의 시각 품질을 유지합니다.
Tuna-2: 픽셀 임베딩이 멀티모달 이해와 생성에서 비전 인코더를 이기다⭐ 80
Tuna-2는 VAE나 별도 비전 인코더 없이 단순 패치 기반 픽셀 임베딩만으로 이해와 생성을 통합해, 엔드투엔드 최적화와 함께 멀티모달 벤치마크 SOTA 및 강한 확장성을 보여줍니다.
👁️Computer Vision2
사피엔스2⭐ 406
Sapiens2는 최대 5B 규모의 1K~4K 인간 중심 비전 트랜스포머로, 마스킹 복원과 자기증류 대조학습을 결합한 사전학습과 10억 장 고품질 데이터로 밀집 예측과 제로샷 일반화를 함께 강화했습니다.
ReVSI: VLM의 3D 추론을 정확히 평가하기 위한 시각 공간 지능 평가 재구성⭐ 43
ReVSI는 기존 3D QA 벤치마크의 오주석·비가시성 문제를 바로잡기 위해 381개 장면을 재주석하고, 모델 입력 프레임 기준으로 실제 답변 가능한 질문만 남겨 VLM 3D 추론 평가의 타당성을 높였습니다.
🗣️Language Models1
Step-Audio-R1.5 기술 보고서⭐ 647
Step-Audio-R1.5는 오디오 추론에서 RLVR이 만드는 '검증 가능한 보상 함정'을 지적하며, 벤치마크 점수보다 실제 대화감과 음향 뉘앙스를 살리는 오디오 지능 설계의 중요성을 강조합니다.
💻Code & Agents6
스킬에서 인재로: 이질적 에이전트를 현실의 회사처럼 조직하기⭐ 95
OneManCompany는 에이전트의 스킬·도구·설정을 이식 가능한 Talent로 묶고 Talent Market과 조직 인터페이스로 실행 중 동적 채용·재구성을 가능하게 해 멀티에이전트 운영 계층을 제안합니다.
ClawMark: 멀티턴·멀티데이·멀티모달 동료 에이전트를 위한 리빙월드 벤치마크⭐ 83
ClawMark는 이메일·캘린더·파일·스프레드시트가 시간에 따라 변하는 환경에서 100개 업무 과제를 1,537개 결정적 체커로 평가해, 장기 지속형 코워커 에이전트의 실제 성능을 검증합니다.
DV-World: 실제 시나리오에서 데이터 시각화 에이전트 벤치마킹⭐ 65
DV-World는 스프레드시트 조작, 시각화 진화, 모호한 요구 정렬까지 포함한 260개 과제로 데이터 시각화 에이전트를 평가하며, 실제 업무형 DV 작업에서 최신 모델들의 한계를 드러냅니다.
📄Robotics & RL2
비전-언어-행동 안전성: 위협, 과제, 평가, 메커니즘⭐ 47
이 서베이는 VLA 모델의 물리적 위험, 멀티모달 공격면, 실시간 방어 제약을 학습·추론 시점 축으로 체계화해, embodied AI 안전 연구를 위한 공통 프레임을 제공합니다.
RADIO-ViPE: 동적 환경의 오픈보캐뷸러리 시맨틱 SLAM을 위한 온라인 밀결합 멀티모달 융합⭐ 53
RADIO-ViPE는 단안 RGB 비디오만으로도 카메라 보정·깊이센서 없이 오픈보캐뷸러리 3D grounding이 가능한 시맨틱 SLAM을 구현하며, 멀티모달 임베딩과 기하 최적화를 밀결합해 동적 환경 강건성을 높였습니다.
📄Training & Optimization2
데이터로 프로그래밍하기: 원시 코퍼스로부터 자기개선 LLM을 위한 테스트 주도 데이터 엔지니어링⭐ 35
ProDa는 학습 데이터를 소스코드, 벤치마크를 유닛테스트처럼 다루는 테스트 주도 데이터 엔지니어링으로, 실패를 개념 결손과 추론 사슬 오류로 분해해 LLM의 데이터 수정을 체계화합니다.
Turning the TIDE: 디퓨전 LLM을 위한 교차 아키텍처 증류⭐ 56
TIDE는 TIDAL, CompDemo, Reverse CALM을 결합한 최초의 교차 아키텍처 dLLM 증류 프레임워크로, 서로 다른 어텐션·토크나이저 구조 사이에서도 작은 모델로 성능 이전을 가능하게 합니다.