오늘의 한줄

오늘은 에이전트 학습을 위한 환경·데이터 자동화와, 이해·생성을 하나로 묶는 통합 멀티모달 학습이 특히 두드러졌습니다. 동시에 장문맥 추론, 선형 어텐션, 양자화처럼 실제 배포 효율과 견고성을 겨냥한 연구도 빠르게 구체화되고 있습니다.

💻Code & Agents5

오토리서치클로: 인간-AI 협업 기반 자기강화 자율 연구12,379

AutoResearchClaw는 다중 에이전트 토론, 실패를 학습으로 바꾸는 self-healing 실행기, 검증 가능한 보고, 사람 개입 모드, 실행 간 진화를 결합해 선형 파이프라인형 자율 연구의 한계를 넘는 연구 자동화 프레임워크를 제안합니다.

EnvFactory: 실행 가능한 환경 합성과 강건한 RL로 툴 사용 에이전트 확장42

EnvFactory는 실제 리소스에서 상태성 있는 실행 환경을 자동 탐색·검증하고 자연스러운 다중 턴 궤적을 합성해, 85개 검증 환경만으로도 툴 사용 에이전트 학습을 대규모로 확장하는 기반을 마련했습니다.

π-Bench: 장기 워크플로우에서 선제적 개인비서 에이전트 평가28

π-Bench는 숨은 사용자 의도, 작업 간 의존성, 세션 간 연속성을 포함한 100개 다중 턴 과제로, 개인비서 에이전트가 장기 상호작용에서 얼마나 선제적으로 요구를 파악하고 해결하는지 평가합니다.

💡 에이전트 연구는 이제 단순한 프롬프트 설계보다 환경, 데이터, 평가를 자동으로 만드는 방향으로 이동하고 있습니다. 연구 자동화부터 GUI·툴 사용·개인비서까지, 실제로 오래 일하고 스스로 개선하는 에이전트를 위한 인프라 경쟁이 본격화됐습니다.

🗣️Language Models3

토토 2.0: 시계열 예측도 스케일링 시대에 진입하다437

Toto 2.0은 4M부터 2.5B 파라미터까지 단일 학습 레시피로 성능이 꾸준히 향상됨을 보이며 BOOM, GIFT-Eval, TIME에서 SOTA를 달성해 시계열 파운데이션 모델의 스케일링 법칙을 입증했습니다.

HRM-Text: 스케일링을 넘어선 효율적 사전학습606

HRM-Text는 전략·실행을 분리한 Hierarchical Recurrent Model과 MagicNorm, warmup deep credit assignment를 통해 1B 모델을 400억 고유 토큰의 instruction-response 데이터만으로 학습하는 효율적 사전학습 가능성을 보여줍니다.

TransitLM: 지도 없이 대중교통 경로를 생성하는 대규모 데이터셋과 벤치마크107

TransitLM은 4개 중국 도시의 1,300만 건 경로 기록을 담은 데이터셋과 벤치마크를 공개해, LLM이 명시적 지도 없이도 GPS를 정류장에 암묵적으로 정렬하며 구조적으로 유효한 대중교통 경로를 생성할 수 있음을 보여줍니다.

💡 언어모델은 더 크게만 만드는 흐름에서 벗어나, 시계열·교통 같은 비전통적 도메인과 효율적 사전학습 구조로 빠르게 확장되고 있습니다. 특히 도메인 특화 데이터와 구조적 학습 목표만 잘 설계하면 적은 자원으로도 강한 기반 모델을 만들 수 있다는 메시지가 분명합니다.

📄Multimodal & Generative7

대규모 오디오 언어모델 서베이: 일반화, 신뢰성, 그리고 전망195

이 서베이는 Large Audio Language Models의 아키텍처와 정렬 기법을 정리하고 cross-modal jailbreak, 잠재 음향 백도어 등 신뢰성 위험을 체계화해 오디오 MLLM 배포 전 점검해야 할 공격면을 명확히 제시합니다.

Mega-ASR: 대규모 현실 음향 시뮬레이션으로 가는 진짜 야생 음성인식100

Mega-ASR는 7개 음향 현상과 54개 복합 시나리오를 담은 Voices-in-the-Wild-2M과 점진적 acoustic-to-semantic 최적화로 악조건 ASR을 개선해 VOiCES와 NOIZEUS에서 기존 SOTA를 큰 폭으로 앞섰습니다.

스테이블 오디오 3122

Stable Audio 3는 의미-음향 오토인코더 위의 가변 길이 잠재 디퓨전과 adversarial post-training으로 수분 길이 오디오 생성·편집을 지원하면서도 H200에서 2초 미만의 빠른 생성 속도를 달성했습니다.

💡 멀티모달 연구는 이해와 생성을 억지로 섞는 대신, 세그멘테이션·편집·물리 속성처럼 둘을 자연스럽게 잇는 중간 과제를 찾는 쪽으로 진화하고 있습니다. 동시에 오디오, 3D, 공간 추론까지 실제 환경의 신뢰성과 견고성을 평가하려는 움직임이 강해졌습니다.

👁️Computer Vision2

TideGS: 아웃오브코어 최적화로 10억 개 이상 3D 가우시안 스플래팅 학습75

TideGS는 SSD-CPU-GPU 계층 메모리, block-virtualized geometry, 비동기 파이프라인, differential streaming으로 단일 GPU 메모리 한계를 넘어 10억 개 이상 3DGS 프리미티브 학습을 가능하게 합니다.

RT-Splatting: 가우시안 스플래팅으로 반사와 투과를 함께 모델링하기55

RT-Splatting은 가우시안의 기하 점유와 광학 불투명도를 분리하고 specular-aware gradient gating을 도입해 반사와 투과가 공존하는 반투명 장면에서 흐릿한 반사와 부유 아티팩트를 줄였습니다.

💡 3D Gaussian Splatting 계열은 이제 품질 개선을 넘어 메모리 확장성과 광학적 복잡성 처리라는 실전 문제를 정면으로 다루고 있습니다. 대규모 학습 인프라와 반사·투과 같은 까다로운 장면 모델링이 맞물리며 3D 표현의 배포 가능성이 높아지고 있습니다.

📄Training & Optimization3

Gated DeltaNet-2: 선형 어텐션에서 지우기와 쓰기 분리하기69

Gated DeltaNet-2는 선형 어텐션의 메모리 편집에서 erase gate와 write gate를 채널 단위로 분리해 기존 단일 스칼라 게이트의 한계를 해소하고, 더 안정적인 연상 보존과 갱신을 노린 구조를 제안합니다.

Mix-Quant: 에이전트형 LLM을 위한 양자화 프리필과 정밀 디코딩18

Mix-Quant는 에이전트형 LLM 추론에서 병목인 prefilling만 NVFP4로 양자화하고 decoding은 BF16으로 유지하는 phase-aware 전략으로, 정확도 손실을 줄이면서 긴 문맥·다중 턴 추론 속도를 높입니다.

GoLongRL: 멀티태스크 정렬을 갖춘 능력 중심 장문맥 강화학습23

GoLongRL은 9개 장문맥 능력을 기준으로 구성한 2.3만 개 RLVR 데이터와 오픈 파이프라인을 공개하고, vanilla GRPO만으로도 실용적 장문맥 요구를 더 잘 반영하는 capability-oriented 후학습 레시피를 제시합니다.

💡 최적화 연구는 모델 내부 메모리 구조와 추론 단계별 계산 특성을 더 세밀하게 분해하는 방향으로 가고 있습니다. 선형 어텐션의 쓰기·삭제 분리, prefilling 전용 양자화, 능력 중심 RL 데이터 설계는 모두 같은 계산으로 더 실용적인 성능을 얻으려는 시도입니다.

매일 아침, 받은편지함에서 만나보세요

새로운 뉴스레터가 발행될 때마다 이메일로 받아볼 수 있습니다.

받아볼 뉴스레터 선택