오늘의 한줄
오늘은 에이전트의 자율 진화와 평가, 그리고 멀티모달 생성·로보틱스 시스템의 구조적 고도화가 특히 두드러졌습니다. 동시에 벤치마크와 데이터 중심 학습 프레임워크가 늘어나며, 성능 경쟁이 점점 더 실제 환경 적합성과 신뢰성 검증으로 이동하고 있음을 보여줍니다.
👁️Computer Vision1
MDPBench: 실제 환경 다국어 문서 파싱 벤치마크⭐ 810
MDPBench는 17개 언어·3,400개 문서 이미지로 구성된 최초의 실제 환경 다국어 문서 파싱 벤치마크를 제안하며, Gemini3-Pro는 비교적 강건했지만 오픈소스 모델은 저자원 언어와 촬영 문서에서 큰 취약점을 드러냈습니다.
🗣️Language Models1
잠재공간: 기초, 진화, 메커니즘, 능력, 그리고 전망⭐ 470
이 서베이는 언어 모델에서 토큰 기반 추론의 병목을 넘어 연속적 잠재공간 계산이 왜 중요한지 기초부터 메커니즘·응용·전망까지 통합적으로 정리해, 차세대 LLM 설계 방향을 한눈에 보여줍니다.
📄Multimodal & Generative6
VOID: 비디오 객체 및 상호작용 삭제⭐ 167
VOID는 객체 제거 뒤 충돌·연쇄 반응까지 물리적으로 그럴듯하게 다시 생성하도록, VLM으로 영향 영역을 찾고 비디오 디퓨전으로 반사실적 결과를 합성해 기존 비디오 인페인팅의 한계를 넘어섰습니다.
T5Gemma-TTS 기술 보고서⭐ 284
T5Gemma-TTS는 4B 규모 인코더-디코더 코덱 언어모델에 PM-RoPE를 결합해 긴 발화에서도 텍스트 조건을 안정적으로 유지하며, 17만 시간 다국어 음성 학습으로 제로샷 음성 복제와 길이 제어를 강화했습니다.
생성형 월드 렌더러⭐ 104
Generative World Renderer는 AAA 게임에서 동기화된 RGB와 5개 G-buffer를 포함한 400만 프레임 데이터를 구축해, 실제 환경에 가까운 역렌더링·비디오 생성 학습과 VLM 기반 평가를 동시에 가능하게 했습니다.
💻Code & Agents8
ClawKeeper: 스킬·플러그인·워처 기반 OpenClaw 에이전트 종합 보안 보호⭐ 290
ClawKeeper는 OpenClaw 에이전트의 파일 접근·셸 실행 위험을 줄이기 위해 스킬 수준 정책 주입, 플러그인 제어, 실시간 워처를 결합한 3계층 보안 프레임워크를 제안합니다.
ASI-Evolve: AI가 AI를 가속하다⭐ 71
ASI-Evolve는 cognition base와 analyzer를 갖춘 연구 루프형 에이전트 프레임워크로 데이터·아키텍처·학습 알고리즘을 함께 탐색하며, 선형 어텐션에서 105개의 SOTA 아키텍처를 발견했습니다.
CORAL: 개방형 발견을 위한 자율 멀티에이전트 진화⭐ 100
CORAL은 지속 메모리와 비동기 협업, heartbeat 개입을 갖춘 자율 멀티에이전트 진화 프레임워크로, 10개 과제에서 기존 고정 규칙 탐색 대비 3~10배 높은 개선률을 더 적은 평가 횟수로 달성했습니다.
📄Training & Optimization1
DataFlex: 대규모 언어모델을 위한 데이터 중심 동적 학습 통합 프레임워크⭐ 138
DataFlex는 샘플 선택, 도메인 혼합 조정, 샘플 재가중치를 하나의 LLaMA-Factory 호환 프레임워크로 통합해, 데이터 중심 LLM 학습 기법의 재현성과 실전 적용성을 크게 높였습니다.
📄Robotics & RL3
SKILL0: 스킬 내재화를 위한 인컨텍스트 에이전트 강화학습⭐ 62
SKILL0는 추론 시 스킬 검색에 의존하지 않고 훈련 중 스킬 컨텍스트를 점진적으로 제거하는 커리큘럼 강화학습으로, 도구 사용과 다중 턴 작업 능력을 모델 파라미터에 직접 내재화합니다.
UniDriveVLA: 자율주행을 위한 이해·지각·행동 계획의 통합⭐ 40
UniDriveVLA는 Mixture-of-Transformers 기반 전문가 분리 구조로 자율주행에서 공간 지각과 의미 추론의 충돌을 완화해, 이해·장면 지각·행동 계획을 하나의 VLA 모델로 통합했습니다.
MMaDA-VLA: 통합 멀티모달 지시·생성을 위한 대규모 디퓨전 비전-언어-행동 모델⭐ 29
MMaDA-VLA는 언어·이미지·연속 제어를 하나의 이산 토큰 공간에 넣고 디퓨전으로 미래 관측과 액션 청크를 병렬 생성해, 장기 조작에서 누적 오류와 시간 불일치를 줄였습니다.