오늘의 한줄

오늘은 멀티모달 생성과 에이전트 시스템, 그리고 실제 배치 환경에서 성능을 끌어올리는 학습 기법이 특히 두드러졌습니다. 비디오·오디오·3D 생성의 통합이 빨라지는 동시에, 로봇·게임·웹 탐색처럼 긴 상호작용을 다루는 학습 프레임워크도 한층 실전 지향적으로 진화하고 있습니다.

📄Multimodal & Generative8

UniVidX: 디퓨전 사전지식으로 다양한 비디오 생성을 통합하는 멀티모달 프레임워크⭐ 31

UniVidX는 SCM, DGL, CCM 설계로 픽셀 정렬 멀티모달 작업을 하나의 공유 공간에서 양방향 조건 생성으로 통합해, 작업별 별도 모델 없이도 일관된 비디오 생성을 가능하게 합니다.

ViT가 말하게 하라: 생성형 언어-이미지 사전학습⭐ 5

GenLIP은 ViT가 시각 토큰으로부터 언어 토큰을 직접 예측하도록 학습해 대조학습이나 별도 텍스트 디코더 없이도 8B 샘플로 강력한 MLLM 비전 인코더 성능을 달성했습니다.

디퓨전 모델은 언제 여러 객체를 생성하는 법을 배우는가?⭐ 1

MOSAIC 데이터셋으로 분석한 결과, 다중 객체 생성 실패의 핵심 원인은 개념 불균형보다 장면 복잡도였고 특히 카운팅은 저데이터 환경에서 유독 어렵다는 점을 밝혔습니다.

💻Code & Agents4

Web2BigTable: 인터넷 규모 정보 검색·추출을 위한 이중 계층 멀티에이전트 LLM 시스템⭐ 11

Web2BigTable은 상위 오케스트레이터와 병렬 워커, run-verify-reflect 루프, 외부 메모리를 결합해 깊이 있는 탐색과 대규모 표 구조화 추출을 함께 처리하는 웹-투-테이블 에이전트 시스템입니다.

스킬 텍스트에서 스킬 구조로: 에이전트 스킬을 위한 스케줄링-구조-논리 표현

이 논문은 텍스트에 묻혀 있던 에이전트 스킬을 호출 인터페이스, 실행 구조, 부작용까지 드러나는 구조적 표현으로 바꿔 스킬 검색·재사용·추론을 더 기계 친화적으로 만드는 방향을 제시합니다.

Themis: 유연한 다기준 채점을 위한 강건한 다국어 코드 보상모델 학습⭐ 0

Themis는 8개 언어·5개 선호 기준을 다루는 CodeRewardBench와 35만 쌍 이상의 선호 데이터셋을 구축해, 실행 정답성 외 품질까지 평가하는 다국어 코드 보상모델 학습 기반을 마련했습니다.

📄Robotics & RL3

배치하면서 학습하기: 범용 로봇 정책을 위한 플릿 규모 강화학습

LWD는 사전학습된 VLA 정책을 실제 로봇 플릿의 자율 롤아웃과 인간 개입으로 계속 개선하며, DIVL과 QAM을 결합해 희소하고 이질적인 온라인 데이터를 안정적으로 학습합니다.

Odysseus: 강화학습으로 게임에서 100턴 이상 의사결정하는 VLM 확장

Odysseus는 경량 턴 단위 크리틱을 넣은 PPO 변형으로 Super Mario Land에서 100턴 이상의 장기 의사결정을 안정적으로 학습하며, GRPO·Reinforce++보다 샘플 효율과 안정성을 높였습니다.

분산 블랙박스 합의 최적화를 위한 행동·협력 학습

LACMAS는 분산 블랙박스 최적화에서 LLM이 희소한 고수준 지침으로 에이전트의 내부 행동과 협력 패턴을 조정하게 해, 수작업 규칙 기반 군집 최적화의 한계를 넘으려는 시도를 보여줍니다.

📄Training & Optimization3

Stable-GFlowNet: 대조적 궤적 균형으로 더 다양하고 강건한 LLM 레드팀 만들기

S-GFN은 GFlowNet의 불안정한 분배함수 추정을 제거하고 노이즈 보상 마스킹과 유창성 안정화를 도입해, LLM 레드팀에서 공격 성능과 다양성을 동시에 높이는 안정적 탐색을 구현했습니다.

트리에서 플로우로, 다시 트리로: 결정트리와 디퓨전 모델의 통합

이 논문은 결정트리와 디퓨전을 GTSM이라는 공통 원리로 연결하고, tabular 생성용 treeflow에서 2배 속도 향상과 distillation용 dsmtree에서 교사 대비 2% 이내 성능을 보였습니다.

더 나은 모델, 더 빠른 학습: 단일세포 파운데이션 모델을 위한 시그모이드 어텐션

시그모이드 어텐션은 단일세포 모델에서 소프트맥스 대비 세포 유형 분리를 25% 높이고 학습 속도를 최대 10% 개선했으며, 160M 모델 스트레스 테스트에서도 발산 없이 더 안정적이었습니다.

🗣️Language Models1

MASCing: 활성화 스티어링 마스크로 구성 가능한 MoE 동작 제어⭐ 0

MASCing은 LSTM 기반 대리모델로 MoE 라우팅과 행동의 관계를 학습한 뒤 스티어링 마스크를 최적화해, 재학습 없이 안전 목표별로 모델 동작을 빠르게 재구성할 수 있게 합니다.

👁️Computer Vision1

Soft Anisotropic Diagrams: 미분 가능한 이미지 표현

SAD는 학습 가능한 anisotropic site와 top-K softmax 블렌딩으로 콘텐츠 경계에 맞는 명시적 이미지 표현을 만들고, GPU 친화적 렌더링과 안정적인 그래디언트 전파를 함께 달성합니다.