오늘의 한줄

오늘은 거대 모델을 더 싸고 똑똑하게 만드는 효율화 연구와, 멀티모달·에이전트가 실제 환경으로 확장되는 흐름이 두드러졌습니다. 특히 KV 캐시 압축, GUI·개인비서 에이전트 벤치마크, 오디오·비디오·3D 생성의 실용화가 함께 진전되고 있습니다.

🗣️Language Models4

HRM-Text: 스케일링을 넘어서는 효율적 사전학습⭐ 606

HRM-Text는 느린 전략층과 빠른 실행층으로 나눈 Hierarchical Recurrent Model, MagicNorm, warmup deep credit assignment를 결합해 1B 모델을 400억 토큰만으로 학습하며 대규모 원시 텍스트 의존을 줄였습니다.

Toto 2.0: 시계열 예측도 스케일링 시대로⭐ 437

Toto 2.0은 4M부터 2.5B 파라미터까지 단일 레시피로 확장되는 시계열 파운데이션 모델군으로, BOOM·GIFT-Eval·TIME에서 새 SOTA를 기록해 시계열 예측에도 스케일링 법칙이 통함을 보여줍니다.

TransitLM: 지도 없이 대중교통 경로를 생성하는 대규모 데이터셋과 벤치마크⭐ 107

TransitLM은 4개 중국 도시의 1,300만 건 경로 데이터를 공개하고, LLM이 명시적 지도 없이도 GPS를 역으로 암묵 정렬해 구조적으로 유효한 대중교통 경로를 생성할 수 있음을 보여줍니다.

💡 언어모델 연구는 더 큰 데이터와 모델만이 답이라는 통념에서 벗어나, 구조적 설계와 도메인 특화 코퍼스로 효율을 끌어내는 방향으로 움직이고 있습니다. 동시에 시계열·교통·과학 예측처럼 LLM 패러다임이 비전통적 문제로 확장되며, 범용성보다 실제 문제 적합성이 더 중요해지고 있습니다.

📄Multimodal & Generative6

대규모 오디오 언어모델 서베이: 일반화, 신뢰성, 그리고 전망⭐ 195

이 서베이는 Large Audio Language Model의 구조·정렬 기법과 함께 크로스모달 탈옥, 잠재 음향 백도어 등 신뢰성 위험을 체계화해 오디오 LLM 실전 배치 전 점검해야 할 공격면을 정리했습니다.

Mega-ASR: 실제 환경 음향 시뮬레이션 확장으로 가는 인더와일드 음성인식⭐ 100

Mega-ASR은 54개 복합 음향 시나리오를 담은 Voices-in-the-Wild-2M과 단계적 음향-의미 최적화를 통해 VOiCES에서 45.69%, NOIZEUS에서 21.49% WER로 기존 SOTA를 크게 앞섰습니다.

Stable Audio 3⭐ 122

Stable Audio 3는 의미-음향 오토인코더 기반 잠재 디퓨전과 적대적 후학습으로 수분 길이의 가변 길이 오디오 생성·인페인팅을 지원하며 H200에서 2초 미만의 빠른 생성 속도를 달성했습니다.

💡 멀티모달 연구는 단순 결합을 넘어 오디오·3D·편집·잠재 추론까지 입력 표현 자체를 다시 설계하는 단계로 들어섰습니다. 성능 향상뿐 아니라 신뢰성, 실제 음향 환경, 시뮬레이션 가능 자산처럼 배치 이후의 현실 조건이 핵심 평가축으로 떠오릅니다.

📄Training & Optimization4

Gated DeltaNet-2: 선형 어텐션에서 지우기와 쓰기 분리하기⭐ 69

Gated DeltaNet-2는 선형 어텐션의 메모리 편집에서 erase gate와 write gate를 채널 단위로 분리해 기존 KDA·Gated DeltaNet의 한계를 해결하며 더 정교한 KV 상태 갱신을 가능하게 합니다.

Q-ARVD: 자기회귀 비디오 디퓨전 모델 양자화⭐ 14

Q-ARVD는 AR 비디오 디퓨전의 프레임별 민감도 불균형과 누적 오차 문제를 분석하고 이에 맞춘 양자화 전략을 제안해, 실시간 비디오 생성에 필요한 효율화를 한 단계 앞당겼습니다.

OScaR: LLM 극한 KV 캐시 양자화를 위한 오컴의 면도날⭐ 20

OScaR는 극한 KV 캐시 압축의 핵심 병목을 Token Norm Imbalance로 짚고, 복잡한 파이프라인 대신 Omni-Scaled Canalized Rotation으로 텍스트·멀티모달 LLM 전반에 정확하고 가벼운 압축을 제공합니다.

💡 효율화 연구의 초점은 이제 단순 양자화를 넘어, 어떤 단계와 어떤 상태를 얼마나 정밀하게 다뤄야 하는지에 대한 구조적 분해로 이동하고 있습니다. 선형 어텐션 메모리 편집, AR 비디오 양자화, KV 캐시 압축 모두 시스템 병목을 세밀하게 해부해 실전 서빙 가능성을 높인다는 공통점이 있습니다.

💻Code & Agents4

Mix-Quant: 에이전트형 LLM을 위한 양자화 프리필과 정밀 디코딩⭐ 18

Mix-Quant는 에이전트형 LLM 추론에서 프리필 단계만 NVFP4로 양자화하고 디코딩은 BF16으로 유지하는 단계별 전략으로, 긴 문맥·멀티턴 워크플로의 병목을 정확도 손실 없이 줄입니다.

π-Bench: 장기 워크플로에서 선제적 개인비서 에이전트를 평가하는 벤치마크⭐ 28

π-Bench는 숨은 사용자 의도, 작업 간 의존성, 세션 연속성을 포함한 100개 멀티턴 과제로 개인비서 에이전트의 선제성까지 측정해 기존 태스크 완료 중심 평가의 빈틈을 메웠습니다.

Video2GUI: 범용 GUI 에이전트 사전학습을 위한 대규모 상호작용 궤적 합성⭐ 20

Video2GUI는 5억 개 비디오 메타데이터에서 튜토리얼 영상을 자동 추출해 1,500개 이상 앱·웹사이트를 포괄하는 1,200만 GUI 상호작용 궤적 WildGUI를 만들고, GUI 벤치마크 성능을 5~20% 높였습니다.

💡 에이전트 분야는 더 이상 단일 벤치 점수 경쟁이 아니라, 장기 상호작용·GUI 조작·도구 사용·자기개선 루프를 학습 가능한 데이터와 평가로 연결하는 흐름이 강합니다. 특히 대규모 자동 수집 데이터와 단계별 추론 최적화가 범용 에이전트의 실용성을 좌우할 것으로 보입니다.

👁️Computer Vision2

SpaceDG: 시각 열화 환경에서의 공간 지능 벤치마크⭐ 24

SpaceDG는 3DGS 기반 물리적 열화 합성으로 9종 시각 열화와 약 100만 QA를 구축해, 실제 환경의 블러·저조도·압축 왜곡에서 MLLM의 공간 추론이 얼마나 무너지는지 정밀 평가합니다.

OcclusionFormer: 레이아웃 기반 이미지 생성에서 Z-순서를 정렬하다⭐ 16

OcclusionFormer는 SA-Z 데이터셋과 볼륨 렌더링 기반 Z-order 모델링으로 겹치는 객체의 가림 관계를 명시적으로 다뤄, 레이아웃-투-이미지 생성의 질감 엉킴과 비물리적 레이어링 문제를 줄였습니다.

💡 비전 연구는 깨끗한 입력과 단순한 공간 제어를 가정하던 설정에서 벗어나, 열화와 가림 같은 현실 세계의 구조적 난제를 정면으로 다루고 있습니다. 즉, 생성과 이해 모두에서 '보이는 대로'가 아니라 '가려지고 망가진 상태에서도 맞게' 처리하는 강건성이 핵심 경쟁력이 되고 있습니다.