오늘의 한줄
오늘은 멀티모달 에이전트의 실전 능력, 에이전트 평가 벤치마크의 현실성, 그리고 제한된 자원에서의 효율적 학습이 핵심 흐름으로 보입니다. 동시에 이미지·오디오·비디오 생성에서는 단순 성능 경쟁을 넘어 정교한 수정, 동기화, 평가 지표 자체를 다시 설계하려는 시도가 두드러집니다.
📄Multimodal & Generative5
GLM-5V-Turbo: 멀티모달 에이전트를 위한 네이티브 기초모델로⭐ 2,287
GLM-5V-Turbo는 이미지·비디오·웹·문서·GUI 인지를 추론·계획·도구사용에 기본 통합해 멀티모달 코딩과 시각적 도구사용 에이전트 작업을 강화하면서 텍스트 코딩 성능도 유지합니다.
Step-Audio-R1.5 기술 보고서⭐ 647
Step-Audio-R1.5는 오디오 추론에서 RLVR의 '검증 가능한 보상 함정'을 지적하며, 벤치마크 점수보다 실제 대화감과 음향 뉘앙스를 살리는 방향이 중요하다는 실전적 교훈을 제시합니다.
Meta-CoT: 이미지 편집의 세밀함과 일반화를 높이는 메타 CoT⭐ 54
Meta-CoT는 편집 의도를 작업·대상·필요 이해능력의 삼중항으로 이중 분해해 이미지 편집 CoT의 세밀도와 일반화를 함께 높이는 학습 패러다임을 제안합니다.
📄Robotics & RL1
RADIO-ViPE: 동적 환경을 위한 온라인 밀결합 멀티모달 오픈보캐뷸러리 시맨틱 SLAM⭐ 53
RADIO-ViPE는 보정 없는 단안 RGB 비디오만으로 비전-언어 임베딩과 기하 정보를 밀결합해 동적 환경에서도 자연어 질의를 3D 객체·영역에 연결하는 오픈보캐뷸러리 SLAM을 구현합니다.
💻Code & Agents8
MAIC-UI: 생성형 UI로 만드는 인터랙티브 교육 콘텐츠⭐ 31
MAIC-UI는 교재·PPT·PDF에서 인터랙티브 STEM 코스웨어를 만드는 제로코드 시스템으로, generate-verify-optimize와 Unified Diff 기반 증분 편집으로 수정 시간을 10초 이하로 줄였습니다.
DV-World: 실제 환경의 데이터 시각화 에이전트 벤치마크⭐ 65
DV-World는 스프레드시트 조작, 시각화 재구성, 모호한 요구와의 상호작용까지 포함한 260개 과제로 데이터 시각화 에이전트를 평가해, 샌드박스형 벤치마크보다 현실 업무 적합성을 높였습니다.
마지막 인간 작성 논문: 에이전트 네이티브 연구 산출물⭐ 16
ARA는 서사형 논문 대신 과학 논리, 실행 코드, 탐색 그래프, 근거 데이터를 포함한 기계 실행형 연구 패키지를 제안해 AI 에이전트의 재현·확장 가능성을 높이려 합니다.
📄Training & Optimization3
시각 생성용 표현 프레셰 손실⭐ 43
FD-loss는 대규모 모집단 추정과 소배치 그래디언트를 분리해 Fréchet Distance를 직접 학습 목표로 쓰며, ImageNet 256에서 원스텝 생성기 0.72 FID를 달성해 분포 수준 학습의 실효성을 보여줍니다.
데이터로 프로그래밍하기: 원시 코퍼스에서 자기개선 LLM을 위한 테스트 주도 데이터 엔지니어링⭐ 35
ProDa는 학습 데이터를 소스코드, 벤치마킹을 유닛테스트, 실패 기반 데이터 수정을 디버깅으로 대응시켜 도메인 코퍼스에서 LLM 실패 원인을 개념 단위로 진단·개선하는 데이터 엔지니어링 체계를 제안합니다.
RoundPipe로 여러 소비자용 GPU에서 효율적으로 학습하기⭐ 20
RoundPipe는 GPU를 고정 스테이지 소유자가 아닌 무상태 실행 워커로 다루는 라운드로빈 파이프라인으로 weight binding 문제를 깨고, 소비자용 GPU 환경에서 near-zero-bubble 학습을 지향합니다.
🗣️Language Models2
TIDE: 디퓨전 LLM을 위한 교차 아키텍처 증류⭐ 56
TIDE는 TIDAL·CompDemo·Reverse CALM을 결합해 아키텍처·어텐션·토크나이저가 다른 교사에서 학생 dLLM으로 지식을 옮기는 첫 교차 아키텍처 증류 프레임워크를 제시합니다.
잠재 표현 증류로 탐색하는 대규모 언어모델⭐ 22
ESamp는 테스트 시점에 경량 Distiller로 얕은 층에서 깊은 층 표현을 예측하고 그 오차를 새로움 신호로 써, 표면적 샘플링을 넘어 의미적으로 다양한 LLM 출력을 유도합니다.
👁️Computer Vision1
MoCapAnything V2: 임의 스켈레톤을 위한 엔드투엔드 모션 캡처⭐ 10
MoCapAnything V2는 비디오-포즈와 포즈-회전을 함께 학습하는 첫 엔드투엔드 임의 스켈레톤 모캡으로, 기준 포즈-회전 쌍을 도입해 회전 모호성과 비미분 IK의 한계를 해결합니다.