오늘의 한줄

오늘은 멀티모달 모델의 실제 적용력과 에이전트·추론 시스템의 운영 안정성을 함께 끌어올리려는 연구가 두드러졌습니다. 특히 3D·비디오·문서 이해처럼 복잡한 입력을 다루는 모델들이 데이터 설계, 구조화된 추론, 테스트타임 제어를 통해 실사용 성능을 높이는 흐름이 인상적입니다.

👁️Computer Vision3

WildDet3D: 오픈월드에서 확장되는 프롬프트형 3D 탐지⭐ 256

WildDet3D는 텍스트·포인트·박스 프롬프트를 모두 받는 geometry-aware 단안 3D 탐지기와 대규모 WildDet3D-Data를 함께 제안해, 닫힌 범주 중심 3D 탐지를 오픈월드 설정으로 확장합니다.

VisionFoundry: 합성 이미지로 VLM의 시각 지각을 가르치기

VisionFoundry는 작업명만으로 질문·답·프롬프트·합성 이미지를 자동 생성하는 파이프라인으로 10개 과제, 1만 개 VQA 데이터를 만들고 VLM의 공간 이해와 시점 인식을 실질적으로 끌어올립니다.

미래를 한 걸음씩 그려내기⭐ 0

이 연구는 조밀한 비디오 대신 희소 포인트 궤적의 단계적 확산 예측으로 장기·다중모달 장면 변화를 모델링해, 단일 이미지에서 수천 개의 가능한 미래를 빠르게 롤아웃할 수 있게 합니다.

📄Multimodal & Generative7

RefineAnything: 국소 디테일을 완성하는 멀티모달 영역별 정제⭐ 49

RefineAnything는 지정 영역만 정밀 복원하고 나머지 픽셀은 그대로 유지하는 확산 기반 정제 모델로, Focused Refinement와 Adaptive Fusion으로 글자·로고·얇은 구조의 국소 붕괴를 효과적으로 복원합니다.

EXAONE 4.5 기술 보고서⭐ 28

EXAONE 4.5는 EXAONE 4.0에 전용 비주얼 인코더를 결합한 오픈웨이트 VLM으로, 256K 컨텍스트와 문서 중심 학습을 통해 문서 이해와 한국어 장문 추론에서 동급 최고 수준 성능을 보여줍니다.

FORGE: 제조 현장을 위한 세밀한 멀티모달 평가⭐ 10

FORGE는 2D 이미지와 3D 포인트클라우드에 정밀 도메인 의미를 붙인 제조 평가셋으로 18개 MLLM을 분석해, 제조 현장 병목이 시각 grounding보다 도메인 지식 부족에 있음을 보여줍니다.

📄Training & Optimization4

EquiformerV3: 효율성과 표현력을 확장한 SE(3) 등변 그래프 어텐션 트랜스포머⭐ 38

EquiformerV3는 merged layer norm, smooth radius cutoff, SwiGLU-S^2를 도입해 strict equivariance를 유지하면서 1.75배 속도 향상과 더 나은 원자계 모델링 성능을 달성했습니다.

MixFlow: 혼합 소스 분포로 개선한 Rectified Flow⭐ 5

MixFlow는 κ-FC 기반 조건부 소스와 무조건 소스를 선형 혼합해 생성 경로 곡률을 줄이는 간단한 학습 전략으로, rectified flow의 샘플링 효율과 품질을 동시에 개선합니다.

ELT: 시각 생성용 탄력적 루프드 트랜스포머

ELT는 가중치 공유 반복 블록과 Intra-Loop Self Distillation을 통해 하나의 학습으로 다양한 루프 수를 지원하며, 이미지·비디오 생성에서 파라미터 효율과 any-time 추론 유연성을 동시에 확보합니다.

💻Code & Agents3

멀티유저 대형언어모델 에이전트⭐ 5

이 연구는 LLM 에이전트를 단일 사용자가 아닌 다중 이해관계자 의사결정 문제로 정식화하고, 충돌·권한·프라이버시가 얽힌 실제 팀 환경에서 필요한 설계 원칙과 평가 틀을 체계적으로 제시합니다.

AgentSwing: 장기 웹 에이전트를 위한 적응형 병렬 컨텍스트 라우팅

AgentSwing은 장기 웹 탐색 중 고정 컨텍스트 전략 대신 여러 컨텍스트 관리 분기를 병렬로 확장하고 lookahead로 선택해, 검색 효율과 최종 정확도를 함께 높이는 적응형 라우팅을 제안합니다.

ScheMatiQ: 연구 질문에서 인터랙티브 스키마 탐색으로 구조화 데이터까지⭐ 0

ScheMatiQ는 자연어 연구 질문과 문서 코퍼스를 받아 LLM 호출로 스키마와 근거 기반 데이터베이스를 만들고, 웹 인터페이스에서 사람이 수정·조정할 수 있게 해 실제 연구 워크플로를 단축합니다.