오늘의 한줄

오늘은 멀티모달 생성·이해의 통합, 장기 과제를 다루는 에이전트 설계, 그리고 RL/증류 효율을 높이는 학습 기법이 두드러졌습니다. 특히 공개 데이터만으로 에이전트를 키우거나, 생성과 판별·이해와 생성을 하나의 프레임으로 묶으려는 시도가 인상적입니다.

🗣️Language Models2

Tadabur: 대규모 꾸란 오디오 데이터셋⭐ 136

Tadabur는 600명 이상 낭송자의 1,400시간+ 꾸란 음성을 모아 스타일·화자·녹음 환경 다양성을 크게 넓힌 데이터셋으로, 꾸란 음성 연구의 표준 벤치마크 기반을 제공합니다.

LLaTiSA: 시각 지각에서 의미 이해까지 난이도 계층형 시계열 추론⭐ 70

LLaTiSA는 8.3만 샘플의 HiTSR와 커리큘럼 파인튜닝을 통해 시각 패턴과 정밀 수치표를 함께 활용하며, 시계열 추론과 OOD 일반화 성능을 끌어올린 통합 TSR 모델입니다.

📄Multimodal & Generative4

LLaDA2.0-Uni: 디퓨전 LLM으로 멀티모달 이해와 생성을 통합하다⭐ 50

LLaDA2.0-Uni는 SigLIP-VQ 토크나이저, MoE 기반 dLLM, 디퓨전 디코더를 결합해 멀티모달 이해·이미지 생성·편집을 하나의 네이티브 프레임워크에서 동시에 수행합니다.

생성 관점에서 본 공간 지능 탐구⭐ 14

GSI-Bench는 실제·합성 데이터로 공간 제약을 따르는 이미지 편집 능력을 측정하는 첫 생성형 공간지능 벤치마크로, unified 멀티모달 모델의 공간 제어 개선 가능성을 보여줍니다.

ReImagine: 이미지 우선 합성으로 다시 본 고품질 인물 비디오 생성⭐ 15

ReImagine은 외형 학습을 이미지 생성으로 먼저 분리하고 SMPL-X 모션 가이드와 학습 없는 temporal refinement를 결합해, 포즈·시점 제어가 가능한 고품질 인물 비디오를 생성합니다.

👁️Computer Vision3

Vista4D: 4D 포인트클라우드 기반 비디오 리슈팅⭐ 48

Vista4D는 정적 픽셀 분할과 4D 재구성으로 장면을 4D 포인트클라우드에 고정해, 동적 실사 영상에서도 더 정확한 카메라 제어와 4D 일관성을 갖춘 재촬영 영상을 합성합니다.

StyleID: 스타일 변화에 강한 얼굴 동일성 인식을 위한 지각 기반 데이터셋과 지표⭐ 16

StyleID는 스타일화된 얼굴에서 인간의 same-different 판단과 인지 곡선을 반영한 데이터셋·지표를 제안해, 기존 얼굴 인식기가 놓치던 스타일 불변 정체성 평가를 가능하게 합니다.

UniGenDet: 이미지 생성과 생성 이미지 탐지를 함께 진화시키는 통합 프레임워크⭐ 10

UniGenDet는 생성과 탐지를 하나의 생성-판별 통합 구조로 묶고 symbiotic multimodal self-attention을 도입해, 진위 판별 해석성과 생성 품질을 동시에 끌어올립니다.

💻Code & Agents5

DR-Venus: 1만 개 공개 데이터만으로 만드는 엣지급 딥 리서치 에이전트⭐ 26

DR-Venus는 4B 소형 에이전트를 위해 엄격한 데이터 정제, 장기 궤적 재샘플링, 정보이득 기반 turn-level RL 보상을 결합해 적은 공개 데이터만으로도 강한 리서치 성능을 노립니다.

OpenMobile: 작업·궤적 합성으로 여는 오픈 모바일 에이전트⭐ 20

OpenMobile은 환경 메모리 기반 작업 합성과 learner-expert 정책 전환 롤아웃으로 오류 복구 데이터를 확보해, AndroidWorld급 모바일 에이전트 학습을 더 투명하고 재현 가능하게 만듭니다.

관찰 컨텍스트 압축으로 효율을 높이는 자기진화형 터미널 에이전트 프레임워크⭐ 9

TACO는 상호작용 궤적에서 압축 규칙을 자동 발견·개선해 터미널 환경의 중복 관찰을 줄이며, TerminalBench와 SWE-Bench Lite 등에서 성능과 토큰 효율을 함께 높입니다.

📄Robotics & RL2

DeVI: 합성 비디오 모방으로 구현한 물리 기반 정교 조작 상호작용⭐ 19

DeVI는 텍스트 조건 합성 비디오를 모방 신호로 활용하면서 3D 인간 추적과 2D 물체 추적을 섞은 하이브리드 보상으로, 보지 못한 물체에 대한 물리적으로 그럴듯한 정교 조작 제어를 구현합니다.

UniT: 인간-휴머노이드 정책 학습과 월드모델링을 위한 통합 물리 언어⭐ 30

UniT는 시각 결과를 기준으로 인간과 휴머노이드의 이질적 동작을 공통 이산 토큰으로 정렬해, 인간 데이터로부터 정책 학습과 월드모델링을 함께 확장하는 통합 물리 언어를 제안합니다.