오늘의 한줄

오늘은 거대 모델을 더 싸고 똑똑하게 만드는 효율화 연구와, 멀티모달·에이전트의 실제 환경 일반화를 노린 데이터셋 및 벤치마크 연구가 두드러졌습니다. 특히 KV 캐시 압축, 선형 어텐션, 에이전트 추론 가속처럼 배포 관점의 최적화와, 오디오·GUI·3D·공간 추론을 아우르는 현실 적응형 멀티모달 연구가 함께 진전되고 있습니다.

🗣️Language Models3

HRM-Text: 스케일링을 넘어선 효율적 사전학습606

HRM-Text는 느린 전략층과 빠른 실행층으로 나눈 Hierarchical Recurrent Model, MagicNorm, deep credit warmup을 통해 1B 모델을 400억 토큰의 instruction-response 데이터만으로 학습해 저비용 사전학습 가능성을 보여줍니다.

Toto 2.0: 시계열 예측도 스케일링 시대에 진입하다437

Toto 2.0은 4M~2.5B 파라미터까지 단일 학습 레시피로 예측 성능이 안정적으로 향상됨을 보이며 BOOM, GIFT-Eval, TIME에서 SOTA를 달성한 오픈 가중치 시계열 파운데이션 모델군입니다.

인공지능으로 과학 발전을 예측하기13

CUSP는 4,760개 과학 이벤트를 바탕으로 AI의 과학 진보 예측 능력을 평가한 결과, 유망한 방향 선택은 가능하지만 실제 실현 여부와 시점 예측은 여전히 불안정하며 분야별 편차도 크다고 보여줍니다.

💡 언어모델 연구는 무작정 더 크게 학습하는 흐름에서 벗어나, 적은 토큰으로도 성립하는 사전학습 구조와 특정 도메인에서의 스케일링 법칙을 다시 쓰는 방향으로 움직이고 있습니다. 동시에 과학 예측처럼 고난도 추론 과제에서는 여전히 한계가 뚜렷해, 성능 확장과 신뢰 가능한 일반화 사이의 간극을 메우는 연구가 중요해 보입니다.

📄Multimodal & Generative6

대규모 오디오 언어모델 서베이: 일반화, 신뢰성, 그리고 전망195

이 서베이는 Large Audio Language Model의 구조·정렬 기법과 함께 cross-modal jailbreaking, latent acoustic backdoor 등 신뢰성 위험을 체계화해 오디오 LLM 실전 배치의 핵심 리스크 지형을 정리합니다.

Mega-ASR: 실제 환경 음향 시뮬레이션 확장으로 구현하는 진짜 야생형 음성인식100

Mega-ASR은 54개 복합 음향 시나리오를 담은 Voices-in-the-Wild-2M과 progressive SFT, WER-gated policy optimization으로 VOiCES와 NOIZEUS에서 기존 SOTA를 큰 폭으로 앞선 강건 음성인식을 달성했습니다.

Stable Audio 3122

Stable Audio 3는 semantic-acoustic autoencoder 기반 잠재 디퓨전과 adversarial post-training으로 수분 길이의 가변 길이 오디오 생성·인페인팅을 지원하며 H200에서 2초 미만의 빠른 생성 속도를 제공합니다.

💡 오디오, 3D, 이미지 편집, 옴니모달 추론까지 공통적으로 보이는 흐름은 더 많은 모달리티를 단순 결합하는 수준을 넘어, 잠재공간 설계와 데이터·평가 체계를 함께 재정의하려는 시도입니다. 특히 실제 환경의 잡음과 물리 제약을 반영한 데이터셋과 학습법이 늘면서, 멀티모달 모델도 이제 데모보다 실전 강건성이 핵심 경쟁력이 되고 있습니다.

💻Code & Agents4

TransitLM: 지도 없이 대중교통 경로를 생성하는 대규모 데이터셋과 벤치마크107

TransitLM은 4개 중국 도시의 1,300만 건 경로 데이터를 공개하고, 이를 학습한 LLM이 별도 지도 없이도 구조적으로 타당한 대중교통 경로와 GPS-정류장 매핑을 생성할 수 있음을 보여줍니다.

π-Bench: 장기 워크플로에서 선제적 개인 비서 에이전트를 평가하는 벤치마크28

π-Bench는 숨겨진 사용자 의도, 작업 간 의존성, 세션 간 연속성을 포함한 100개 멀티턴 과제로 개인 비서 에이전트의 proactive assistance를 장기 상호작용 관점에서 본격 평가합니다.

Video2GUI: 범용 GUI 에이전트 사전학습을 위한 대규모 상호작용 궤적 합성20

Video2GUI는 5억 개 비디오 메타데이터에서 튜토리얼 영상을 자동 추출해 1,500개 이상 앱·웹사이트를 아우르는 1,200만 GUI 궤적 데이터셋 WildGUI를 구축했고, 이를 통해 GUI grounding 성능을 5~20% 높였습니다.

💡 에이전트 분야는 더 똑똑한 추론 자체보다, 어떤 데이터로 사전학습시키고 어떤 장기 시나리오로 평가할지를 정교화하는 단계에 들어선 듯합니다. GUI, 개인 비서, 생성 에이전트 모두에서 대규모 자동 수집 궤적과 proactive·tool-use 평가가 중요해지며, 에이전트의 일반화는 결국 데이터 엔진과 벤치마크 설계가 좌우하고 있습니다.

📄Training & Optimization5

Gated DeltaNet-2: 선형 어텐션에서 지우기와 쓰기를 분리하다69

Gated DeltaNet-2는 선형 어텐션 메모리 편집에서 erase gate와 write gate를 채널별로 분리해 기존 단일 게이트의 한계를 해소하며, 더 안정적이고 정교한 장기 문맥 메모리 갱신을 가능하게 합니다.

Mix-Quant: 에이전트형 LLM을 위한 양자화 프리필과 정밀 디코딩18

Mix-Quant는 에이전트형 LLM 추론에서 프리필 단계만 NVFP4로 양자화하고 디코딩은 BF16으로 유지하는 phase-aware 설계로, 정확도 저하를 줄이면서 긴 컨텍스트·멀티턴 추론 병목을 효과적으로 완화합니다.

Q-ARVD: 자기회귀 비디오 디퓨전 모델 양자화14

Q-ARVD는 프레임별 민감도 불균형과 시간 축 활성값 이상치라는 ARVD 고유 문제를 분석해, 기존 디퓨전용 양자화가 잘 안 먹히는 이유를 짚고 이에 맞춘 효율적 양자화 전략을 제시합니다.

💡 최적화 연구의 중심은 이제 모델 내부 연산과 시스템 경계 모두에서 병목이 되는 상태를 얼마나 똑똑하게 압축·분리·적응시키느냐로 이동하고 있습니다. 선형 어텐션의 메모리 편집, 단계별 양자화, KV 캐시 초압축과 서비스 적응형 압축까지, 배포 효율화가 알고리즘 설계와 시스템 설계를 동시에 요구하는 국면입니다.

👁️Computer Vision2

SpaceDG: 시각 열화 환경에서 공간 지능을 벤치마킹하다24

SpaceDG는 3DGS 기반 물리적 열화 합성 엔진으로 9종 열화가 반영된 약 100만 QA와 1,102개 검증 문항을 구축해, MLLM의 공간 추론이 실제 저품질 입력에서 얼마나 무너지는지 측정합니다.

OcclusionFormer: 레이아웃 기반 이미지 생성을 위한 Z-순서 정렬16

OcclusionFormer는 SA-Z 데이터셋과 함께 객체별 Z-order를 명시적으로 모델링하고 volume rendering으로 합성해, 겹치는 박스 구간의 질감 엉킴과 비물리적 가림 현상을 줄인 layout-to-image 생성을 제안합니다.

💡 비전 연구에서는 깨끗한 입력과 단순한 레이아웃 가정을 버리고, 열화와 가림처럼 현실 장면의 구조적 난제를 명시적으로 모델링하는 흐름이 강해졌습니다. 결국 공간 이해와 생성 품질을 끌어올리려면 더 큰 모델보다도, 물리적으로 그럴듯한 데이터와 중간 구조를 어떻게 넣느냐가 성패를 가르는 모습입니다.

매일 아침, 받은편지함에서 만나보세요

새로운 뉴스레터가 발행될 때마다 이메일로 받아볼 수 있습니다.

받아볼 뉴스레터 선택