오늘의 한줄
오늘은 멀티모달 에이전트를 실제 업무와 GUI 환경에 더 가깝게 밀어붙이는 연구와, 이를 뒷받침하는 학습·추론 효율화 기법이 두드러졌습니다. 동시에 연구 인프라 자체를 에이전트 친화적으로 재구성하려는 시도도 본격화되고 있습니다.
📄Multimodal & Generative2
GLM-5V-Turbo: 멀티모달 에이전트를 위한 네이티브 파운데이션 모델을 향하여⭐ 2,287
GLM-5V-Turbo는 이미지·비디오·문서·GUI 이해를 추론과 도구 사용에 네이티브하게 통합해 멀티모달 코딩과 시각적 툴 사용 성능을 끌어올린 에이전트 지향 기반 모델입니다.
Nemotron 3 Nano Omni: 효율적이고 개방적인 멀티모달 지능
Nemotron 3 Nano Omni는 오디오를 포함한 텍스트·이미지·비디오를 네이티브 지원하고, 멀티모달 토큰 축소 기법으로 동급 모델 대비 더 낮은 지연과 높은 처리량을 제공합니다.
📄Training & Optimization3
Turning the TIDE: 확산 대형언어모델을 위한 교차 아키텍처 증류⭐ 56
TIDE는 TIDAL·CompDemo·Reverse CALM으로 구성된 최초의 교차 아키텍처 dLLM 증류 프레임워크로, 서로 다른 토크나이저와 구조 사이에서도 소형 확산 LLM 성능 이전을 가능하게 합니다.
RoundPipe로 여러 소비자용 GPU에서 효율적으로 학습하기⭐ 20
RoundPipe는 가중치-디바이스 고정을 깨고 GPU를 무상태 실행 워커로 순환 배치해, 소비자용 GPU 환경의 파이프라인 버블을 거의 없애는 학습 스케줄을 제안합니다.
공진화 정책 증류
CoPD는 전문가 RLVR 학습 중간마다 양방향 OPD를 함께 수행해 전문가 간 행동 패턴을 공진화시키며, 텍스트·이미지·비디오 추론 능력을 하나의 모델에 더 잘 통합합니다.
📄Robotics & RL2
RADIO-ViPE: 동적 환경을 위한 온라인 밀결합 멀티모달 오픈보캐브러리 시맨틱 SLAM⭐ 53
RADIO-ViPE는 단안 RGB 비디오만으로 오픈보캐브러리 질의를 3D 객체·영역에 정렬하는 온라인 시맨틱 SLAM으로, 기하 정보와 비전·언어 임베딩을 팩터 그래프 수준에서 밀결합합니다.
World2Minecraft: 점유도 기반 시뮬레이션 장면 구축⭐ 1
World2Minecraft는 3D 시맨틱 점유도 예측으로 실제 장면을 Minecraft 환경으로 변환하고, 156개 실내 장면·10만여 이미지의 MinecraftOcc 데이터셋으로 재구성 품질을 끌어올렸습니다.
👁️Computer Vision2
시각 생성용 표현 프레셰 손실⭐ 43
FD-loss는 대규모 분포 추정과 소규모 그래디언트 계산을 분리해 Fréchet Distance를 직접 학습 목표로 쓰며, ImageNet 256에서 원스텝 생성기 0.72 FID를 달성했습니다.
MoCapAnything V2: 임의 스켈레톤을 위한 엔드투엔드 모션 캡처⭐ 10
MoCapAnything V2는 참조 포즈-회전 쌍을 도입해 임의 스켈레톤의 회전 모호성을 줄이고, Video-to-Pose와 Pose-to-Rotation을 공동 학습하는 최초의 엔드투엔드 모션 캡처 프레임워크입니다.
💻Code & Agents7
인간이 쓰는 마지막 논문: 에이전트 네이티브 연구 산출물⭐ 16
ARA는 논문을 과학 논리·실행 코드·탐색 그래프·증거 계층을 갖춘 기계 실행형 연구 패키지로 바꿔, AI 에이전트의 재현과 확장을 전제로 한 새로운 연구 산출물 형식을 제안합니다.
Claw-Eval-Live: 진화하는 실제 워크플로를 위한 라이브 에이전트 벤치마크⭐ 8
Claw-Eval-Live는 공개 워크플로 수요 신호로 과제를 계속 갱신하고 실행 흔적·감사 로그·산출물까지 채점에 반영해, 정적 벤치마크보다 현실적인 에이전트 평가를 제공합니다.
InteractWeb-Bench: 멀티모달 에이전트는 인터랙티브 웹사이트 생성에서 맹목적 실행을 벗어날 수 있을까?⭐ 4
InteractWeb-Bench는 비전문가의 모호·중복·상충 요구를 사용자 에이전트로 시뮬레이션해, 웹사이트 생성 에이전트의 blind execution 문제를 정면으로 평가하는 첫 멀티모달 상호작용 벤치마크입니다.
🗣️Language Models4
잠재 표현 증류로 탐색하는 대형언어모델⭐ 22
ESamp는 테스트 시점에 경량 Distiller로 심층 표현 예측 오차를 새로움 신호로 삼아 토큰 선택을 재가중함으로써, 표면적 다양성을 넘어 의미적 탐색을 강화하는 디코딩 기법입니다.
Length Value Model: 토큰 단위 길이 모델링을 위한 확장형 가치 사전학습⭐ 5
LenVM은 남은 생성 길이를 토큰 단위 가치 추정으로 학습해 길이 제어 신호를 제공하며, 7B 모델의 LIFEBench 정확 길이 일치 점수를 30.9에서 64.8로 높였습니다.
순응성 대 타당성: 대형언어모델의 추론 제어 가능성에 대하여⭐ 0
이 연구는 LLM이 지시된 논리 스키마와 과제에 맞는 추론 방식이 충돌할 때 대체로 지시 순응보다 타당성을 우선한다는 점을 보여주며, 추론 제어의 한계를 체계적으로 분석했습니다.