오늘의 한줄

오늘은 긴 비디오 생성과 멀티모달 모델링의 효율화, 그리고 코드·헬스케어·GPU 최적화까지 확장되는 에이전트 평가와 운영 프레임워크가 두드러졌습니다. 동시에 VLM의 깊이 추정, 문서 근거 인용, 3D/오디오 생성처럼 실사용 신뢰성과 상호작용성을 높이려는 연구가 빠르게 구체화되고 있습니다.

📄Multimodal & Generative6

LongLive-2.0: 장편 비디오 생성을 위한 NVFP4 병렬 인프라⭐ 1,270

LongLive-2.0은 Balanced SP 기반 시퀀스 병렬 AR 학습과 NVFP4 정밀도를 결합해 장편 비디오 생성의 메모리 병목과 GEMM 비용을 줄이고, ODE 초기화·DMD 없이도 장시간 멀티샷 확산 모델 학습을 단순화했습니다.

Lance: 멀티태스크 시너지로 통합한 멀티모달 모델⭐ 259

Lance는 듀얼스트림 MoE와 modality-aware RoPE, 단계적 멀티태스크 학습을 통해 이미지·비디오 이해, 생성, 편집을 하나의 경량 네이티브 모델로 통합한 실용적 멀티모달 설계를 제시합니다.

CiteVQA: 신뢰할 수 있는 문서 지능을 위한 근거 인용 벤치마크⭐ 55

CiteVQA는 711개 PDF·1,897문항에서 답변과 함께 요소 수준 바운딩박스 인용을 요구해, 정답만 맞추는 Doc-VQA 평가를 넘어 근거 정합성까지 측정하는 문서 이해 벤치마크를 제안합니다.

💡 멀티모달 생성은 이제 단순 품질 경쟁을 넘어 장편 비디오 인프라, 실시간 의상 편집, 파형 직접 생성, 상호작용 가능한 3D 월드처럼 시스템 수준 완성도로 이동하고 있습니다. 특히 통합 모델과 생성 후 편집·상호작용 계층이 함께 발전하면서, 생성 모델이 곧바로 제품 기능으로 연결되는 흐름이 뚜렷합니다.

💻Code & Agents7

SkillsVote: 수집부터 추천·진화까지 에이전트 스킬 거버넌스⭐ 219

SkillsVote는 백만 규모 스킬 코퍼스를 품질·환경·검증 가능성 기준으로 관리하고, 실행 전 추천과 실행 후 원인 귀속을 통해 재사용 가능한 스킬만 진화시키는 에이전트 스킬 생애주기 프레임워크입니다.

MMSkills: 범용 비주얼 에이전트를 위한 멀티모달 스킬⭐ 97

MMSkills는 시각 상태, 절차 설명, 진행·실패 증거를 함께 담는 멀티모달 스킬 패키지를 정의해, 비주얼 에이전트가 과도한 이미지 컨텍스트 없이도 런타임 의사결정에 재사용 가능한 절차 지식을 활용하도록 합니다.

AI 자동 연구: 로드맵과 사용자 가이드⭐ 45

이 논문은 아이디어 생성부터 검증·홍보까지 연구 전 과정을 Creation, Writing, Validation, Dissemination으로 나눠 분석하며, AI가 구조화된 보조에는 강하지만 자율적 과학 판단에는 아직 취약하다는 경계를 정리했습니다.

💡 에이전트 연구는 성능 향상 자체보다 스킬 거버넌스, 코드 하네스, 일반화 평가, 도메인 특화 벤치마크처럼 '운영 가능한 에이전트 시스템'을 만드는 방향으로 성숙해지고 있습니다. 동시에 헬스케어와 GPU 최적화처럼 실패 비용이 큰 환경에서, 긴 작업 수행 능력보다 검증 가능성과 정책 준수가 핵심 병목임을 보여줍니다.

📄Robotics & RL2

ReactiveGWM: 반응형 게임 월드 모델에서 NPC 조종하기⭐ 32

ReactiveGWM은 플레이어 제어와 NPC 행동을 분리해 확산 백본에는 additive bias를, NPC 반응에는 cross-attention을 적용함으로써 상호작용 논리를 학습하고 게임 간 제로샷 전략 전이를 가능하게 합니다.

DexJoCo: MuJoCo 기반 과업형 정교 조작 벤치마크와 툴킷⭐ 29

DexJoCo는 도구 사용, 양손 협응, 장기 과업, 추론을 포함한 11개 정교 조작 과제와 1.1K 시연 궤적을 제공해, 기존 병렬 그리퍼 중심 평가를 넘어 손 조작 모델의 실제 역량을 체계적으로 비교할 수 있게 합니다.

💡 월드 모델과 조작 벤치마크 모두 정적인 인식에서 벗어나 상호작용 구조를 명시적으로 모델링하는 쪽으로 가고 있습니다. NPC 반응 분리나 정교 조작 과업 세분화는, 앞으로의 embodied AI가 '보는 것'보다 '반응하고 조작하는 것'에서 차별화될 것임을 시사합니다.

👁️Computer Vision2

InsightTok: 자기회귀 이미지 생성의 텍스트·얼굴 충실도 높이기⭐ 29

InsightTok은 텍스트 가독성과 얼굴 보존에 맞춘 국소적 콘텐츠 인지 퍼셉추얼 손실을 도입해, 16k 코드북과 16배 다운샘플링에서도 기존 토크나이저보다 글자와 얼굴 재구성을 크게 개선했습니다.

VLM에서 조밀한 미터 단위 깊이 추정 열기⭐ 19

DepthVLM은 LLM 백본에 경량 depth head를 붙이고 2단계 비전-텍스트 통합 학습을 적용해, 멀티모달 능력을 유지한 채 단일 forward로 풀해상도 깊이 맵과 언어 출력을 함께 생성합니다.

💡 비전 연구는 토크나이저와 VLM 헤드처럼 기반 구성요소를 다시 설계해, 텍스트·얼굴·깊이 같은 실사용 핵심 신호를 더 직접적으로 보존하려는 흐름이 강합니다. 범용 표현 하나로 모든 문제를 덮기보다, 중요한 지각 속성에 맞춘 구조적 편향을 주는 접근이 다시 힘을 얻고 있습니다.

📄Training & Optimization2

Flash-GRPO: 원스텝 정책 최적화로 비디오 디퓨전 정렬 가속⭐ 16

Flash-GRPO는 iso-temporal grouping과 temporal gradient rectification으로 타임스텝 편향을 줄여, 14B급 비디오 확산 정렬에서 저비용으로도 full-trajectory 학습보다 더 나은 정렬 품질과 안정성을 달성했습니다.

LiteFrame: 효율적 비전 인코더로 비디오 LLM 프레임 확장하기⭐ 9

LiteFrame은 대형 비전 교사의 시공간 압축 표현을 직접 예측하는 CTD(Compressed Token Distillation)로 경량 인코더를 학습해, 비디오 LLM의 병목을 LLM 이후가 아닌 프레임 인코딩 단계에서 해결합니다.

💡 효율화 연구는 단순한 축소가 아니라, 학습 신호의 왜곡을 줄이면서 계산을 재배치하는 방향으로 진화하고 있습니다. 비디오 확산 정렬과 비디오 LLM 인코딩 모두 병목이 어디로 이동하는지 정확히 짚고, 그 지점에 맞는 최적화를 설계했다는 점이 인상적입니다.

🗣️Language Models1

OSCAR: 2비트 KV 캐시 양자화를 위한 오프라인 공분산 인지 회전⭐ 7

OSCAR는 attention-aware 공분산을 오프라인 추정해 고정 회전과 클리핑 임계값을 설계하고, paged KV-cache와 호환되는 custom INT2 attention kernel까지 제공해 초저비트 LLM 서빙의 정확도와 배포성을 함께 잡았습니다.

💡 LLM 서빙에서는 초저비트 양자화가 더 이상 이론적 압축이 아니라 실제 커널과 서빙 스택 호환성까지 포함한 시스템 문제로 다뤄지고 있습니다. 특히 긴 컨텍스트 추론 수요가 커질수록, KV 캐시를 얼마나 공격적으로 줄이면서 정확도를 지키느냐가 실전 경쟁력의 핵심이 될 가능성이 큽니다.