오늘의 한줄

오늘은 멀티모달 모델이 픽셀·비디오·3D 구조를 직접 다루며 표현 정합성과 평가 신뢰도를 끌어올리는 흐름이 두드러졌습니다. 동시에 에이전트와 로보틱스에서는 장기적 환경 변화, 조직화, 안전성까지 포함한 실제 배치 관점의 연구가 빠르게 구체화되고 있습니다.

👁️Computer Vision4

Sapiens2는 10억 장 인간 이미지와 마스크드 복원+자기증류 대조학습을 결합한 1K~4K 고해상도 인간 중심 비전 트랜스포머로, 밀집 예측과 제로샷 설정을 함께 강화한 범용 비전 백본입니다.

ReVSI는 실제 입력 프레임에서 답할 수 있고 정답도 신뢰할 수 있는 QA만 남기도록 381개 장면을 재주석해, 기존 VLM 3D 추론 평가의 잘못된 정답·비가시 객체·입력 불일치 문제를 바로잡았습니다.

OmniShotCut은 쇼트 경계 검출을 관계 구조 예측 문제로 재정의하고 합성 전환 생성 파이프라인과 새 벤치마크를 함께 제시해, 미묘한 단절과 해석 불가능한 경계 문제를 줄였습니다.

ClawMark는 이메일·캘린더·파일시스템 등 상태가 매 턴 변하는 5개 서비스 위에서 100개 장기 업무를 1,537개 결정적 체커로 평가해, 실제 사무형 에이전트의 지속 협업 능력을 정밀 측정합니다.

OneManCompany는 스킬과 도구를 휴대 가능한 Talent로 추상화하고 Talent Market과 조직 인터페이스를 통해 실행 중 동적 채용·재구성을 가능하게 해, 멀티에이전트 시스템에 조직 계층을 도입합니다.

이 논문은 에이전트 월드모델을 Predictor·Simulator·Evolver의 3단계와 물리·디지털·사회·과학 법칙의 4축으로 분류해, 목표지향 에이전트의 환경 예측 실패를 해석하는 공통 프레임을 제시합니다.

World-R1은 Flow-GRPO와 사전학습 3D/VLM 피드백으로 아키텍처 변경 없이 텍스트-비디오 모델의 3D 구조 일관성을 높여, 시각 품질을 유지하면서 기하학적 붕괴를 줄였습니다.

Tuna-2는 VAE나 별도 비전 인코더 없이 패치 임베딩만으로 이해와 생성을 통합한 엔드투엔드 멀티모달 모델로, 픽셀 공간 학습만으로도 최신 멀티모달 성능과 고품질 이미지 생성을 달성했습니다.

UniGeo는 표현·아키텍처·손실 수준에 걸친 통합 기하 가이던스를 비디오 모델에 주입해, 연속 카메라 이동에서도 구조 붕괴와 기하 드리프트를 줄이는 카메라 제어 이미지 편집을 구현합니다.

이 서베이는 VLA 시스템의 안전 문제를 학습/추론 시점의 공격·방어 축으로 정리하며, 물리적 피해·멀티모달 공격면·장기 궤적 오류 전파 같은 체화형 모델 고유의 리스크를 체계화했습니다.

DeFI는 미래 예측용 GFDM과 잠재 행동 추정용 GIDM을 분리 사전학습한 뒤 통합 미세조정해, 웹 비디오와 무라벨 전이 데이터를 모두 활용하면서 VLA의 2D 예측-3D 행동 불일치 문제를 완화합니다.

SIREN은 선형 프로빙으로 찾은 안전 뉴런과 적응형 레이어 가중 결합을 활용해 내부 표현만으로 유해성 탐지기를 만들었고, 기존 오픈소스 가드보다 더 잘 맞추면서도 학습 파라미터를 250배 줄였습니다.

Sessa는 어텐션을 순환 피드백 경로 내부에 배치해 긴 문맥에서 단일 체인 기억 소실을 줄이고, 이론적으로 power-law 메모리 꼬리를 보이며 장문 시퀀스 검색·보존 능력을 강화합니다.