오늘의 한줄
오늘은 에이전트 시스템의 메모리·검색·안전성 평가를 다루는 연구와, 비디오 생성·편집의 정밀도를 끌어올리는 방법론이 특히 눈에 띕니다. 동시에 로보틱스에서는 월드모델과 중간학습을 통해 실제 행동 성능과 평가 확장성을 높이려는 흐름이 뚜렷합니다.
💻Code & Agents6
에이전트형 월드모델: 기초, 역량, 법칙, 그리고 그 너머⭐ 55
에이전트용 월드모델을 L1 Predictor·L2 Simulator·L3 Evolver와 물리·디지털·사회·과학 법칙 축으로 정리한 'levels × laws' 분류체계를 제안해, 다양한 에이전트 연구를 공통 프레임으로 비교·설계할 수 있게 했습니다.
AgriIR: 도메인 특화 지식 검색을 위한 확장형 프레임워크⭐ 3
AgriIR는 질의 정제·하위 질의 계획·검색·합성·평가를 모듈식으로 분해한 저비용 도메인 RAG 프레임워크로, 1B급 모델과 결정적 인용·텔레메트리를 결합해 감사 가능하고 재현 가능한 지식 검색 파이프라인을 제시합니다.
AgentSearchBench: 실제 환경의 AI 에이전트 검색 벤치마크⭐ 3
AgentSearchBench는 약 1만 개 실제 에이전트를 대상으로 실행 기반 성능 신호로 관련성을 평가하며, 텍스트 유사도와 실제 에이전트 수행 능력 사이의 격차를 드러내는 검색·재순위 벤치마크를 제안합니다.
📄Multimodal & Generative4
인간-AI 협업 감독으로 정밀한 비디오 언어 구축하기⭐ 21
CHAI는 전문가가 모델 초안 캡션을 비평·수정하는 인간-AI 감독 루프와 구조화된 비디오 기술 스펙을 결합해, 정밀 비디오 캡셔닝 데이터와 Qwen3-VL 개선용 감독 신호를 함께 구축합니다.
FlowAnchor: 역변환 없는 비디오 편집을 위한 편집 신호 안정화⭐ 7
FlowAnchor는 Spatial-aware Attention Refinement와 Adaptive Magnitude Modulation으로 비디오 잠재공간의 편집 신호를 안정화해, 학습 없이도 다중 객체·긴 영상에서 더 일관된 inversion-free 편집을 구현합니다.
의미 진행 함수로 비디오를 분석하고 생성하기⭐ 7
Semantic Progress Function은 프레임 간 의미 변화량을 1차원 곡선으로 모델링해 비선형적 의미 점프를 측정하고, semantic linearization으로 전환 속도를 재매개변수화해 더 부드럽고 일관된 영상 생성을 돕습니다.
🗣️Language Models2
LLM 내부 표현으로 유해 콘텐츠를 탐지하기⭐ 7
SIREN은 LLM 내부 레이어의 safety neuron을 선형 프로빙으로 찾아 적응형 레이어 가중 결합을 수행함으로써, 기존 오픈소스 가드 모델보다 더 잘 동작하면서도 학습 파라미터를 250배 줄인 경량 유해성 탐지기를 제시합니다.
Sessa: 선택적 상태공간 어텐션⭐ 7
Sessa는 어텐션을 순환 피드백 경로 안에 배치해 장문맥에서 정보 영향력이 희석되는 문제를 줄였고, 이론적으로 power-law memory tail을 보이며 Transformer와 SSM의 장점을 잇는 새 디코더 구조를 제안합니다.
👁️Computer Vision1
DiffNR: 희소 시점 3D 단층복원을 위한 디퓨전 강화 신경표현 최적화⭐ 3
DiffNR는 단일 스텝 디퓨전 보정기 SliceFixer를 신경장·3D Gaussian 기반 CT 복원에 주기적으로 삽입해 의사 참조 볼륨을 만들고, 희소 시점 조건에서 평균 PSNR을 3.99dB 높이면서 반복 디노이징 비용을 줄였습니다.
📄Robotics & RL2
EmbodiedMidtrain: 중간학습으로 VLM과 VLA의 간극 메우기
EmbodiedMidtrain은 VLA와 가까운 VLM 데이터를 proximity estimator로 선별해 중간학습에 활용함으로써, 오프더셸프 VLM을 그대로 쓰는 대신 로봇 조작 벤치마크 전반에서 더 일관된 VLA 성능 향상을 이끌어냅니다.
dWorldEval: 이산 디퓨전 월드모델로 확장하는 로봇 정책 평가
dWorldEval은 비전·언어·행동을 통합 토큰 공간에 매핑한 이산 디퓨전 월드모델과 sparse keyframe memory, progress token을 활용해 수천 개 환경·과업에서 로봇 정책을 더 저렴하게 평가하는 프록시를 제안합니다.
📄Training & Optimization1
고정된 LLM을 위한 증거 하이라이트 학습
HiLight는 입력을 요약·재작성하지 않고 핵심 구간에 최소한의 highlight tag만 삽입하는 Emphasis Actor를 강화학습으로 학습해, frozen LLM의 장문맥 QA와 순차 추천 성능을 라벨 없이 끌어올립니다.