오늘의 한줄

오늘은 멀티모달 생성과 에이전트 시스템, 그리고 실제 배치를 겨냥한 로보틱스 연구가 특히 눈에 띕니다. 한편으로는 확산·비디오·3D 생성의 효율화가, 다른 한편으로는 LLM의 신뢰성·검색·컨텍스트 학습을 다루는 실용적 접근이 빠르게 구체화되고 있습니다.

📄Multimodal & Generative7

ComboStoc은 차원·속성의 조합 공간을 더 촘촘히 덮는 확률 과정을 도입해 이미지와 3D 생성에서 학습을 유의미하게 가속하고, 테스트 시 차원별 비동기 시간 스텝으로 제어 가능성까지 넓혔습니다.

UniVidX는 SCM, DGL, CMA를 결합해 픽셀 정렬 멀티모달 비디오 작업을 단일 프레임워크로 통합하며, 고정 입력-출력 매핑 없이 전방향 조건부 생성을 가능하게 했습니다.

GenLIP은 ViT가 시각 토큰으로부터 언어 토큰을 직접 예측하게 하는 단순한 생성형 사전학습으로, 추가 텍스트 디코더나 대조학습 없이도 8B 샘플에서 강력한 MLLM 성능을 달성했습니다.

L2C2는 테이블 파운데이션 모델의 합성 사전분포와 실제 오염 데이터를 맞추도록 클리닝 연산 순서를 강화학습으로 학습해, OpenML 10개 데이터셋에서 정확도와 신뢰도 보정을 함께 개선했습니다.

MolmoAct2는 3.3M 샘플로 학습한 MolmoER와 720시간 규모의 양팔 조작 데이터셋을 공개해, 폐쇄형·고비용 VLA의 한계를 넘는 실배치형 오픈 액션 추론 로봇 스택을 제시했습니다.

Web2BigTable은 상위 오케스트레이터와 하위 워커 에이전트, 그리고 run-verify-reflect 루프를 결합해 웹 검색 결과를 대규모 구조화 테이블로 안정적으로 집계하는 시스템입니다.

AcademiClaw는 대학생의 실제 과제·연구 워크플로에서 수집한 80개 장기 과제를 Docker 샌드박스와 다차원 채점으로 평가해, 에이전트의 학술 수준 한계를 정조준한 이중언어 벤치마크입니다.

BlenderRAG는 500개 전문가 검증 예제를 검색해 Blender 코드를 생성함으로써, 컴파일 성공률을 40.8%에서 70.0%로, CLIP 정렬을 0.41에서 0.77로 끌어올렸습니다.

Ctx2Skill은 Challenger-Reasoner-Judge 자기대전 루프로 긴 기술 문맥에서 규칙과 절차를 스스로 추출·정제해, 사람 주석 없이도 문맥 학습용 스킬을 진화시키는 프레임워크입니다.

Stable Counting Capacity 평가는 100개 이상 모델에서 안정적 세기 능력이 광고된 컨텍스트 길이보다 훨씬 낮음을 보여주며, LLM의 절차적 신뢰성이 여전히 취약하다는 점을 드러냈습니다.

이 논문은 환각을 단순 오답이 아니라 '자신감 있는 오답'으로 재정의하며, 사실성 향상의 핵심을 지식 확장보다 모델의 자기 인식과 불확실성 표현 능력에서 찾아야 한다고 주장합니다.

이 연구는 어텐션을 동적 파라미터를 예측하는 MLP로 재해석하고, 이를 바탕으로 선형 복잡도로 Transformer급 전역 시각 모델링을 노리는 WeightFormer 계열 설계를 제안했습니다.

PDACVI는 스캔당 5명의 전문가 주석을 포함한 공개 데이터셋과 불확실성·보정까지 보는 평가 체계를 제시해, 췌장암 수술 가능성 판단에 필요한 혈관 침범 AI 연구의 기준점을 마련했습니다.

T^2PO는 토큰·턴 단위에서 불확실성 변화를 추적해 생각 개입과 재샘플링을 수행함으로써, 멀티턴 에이전트 RL의 비효율적 탐색과 학습 붕괴를 줄이는 안정화 기법입니다.