오늘의 한줄

오늘은 멀티모달 에이전트의 실행력과 신뢰성을 끌어올리는 연구, 그리고 생성·로보틱스 시스템을 더 효율적이고 상호작용 가능하게 만드는 연구가 두드러졌습니다. 특히 벤치마크와 인프라를 함께 제시하며 실제 적용 병목을 푸는 흐름이 강하게 보입니다.

💻Code & Agents2

MMSkills: 범용 비주얼 에이전트를 위한 멀티모달 스킬로97

MMSkills는 시각 에이전트의 절차 지식을 텍스트가 아닌 상태 인식·시각 근거·다음 행동 판단을 포함한 멀티모달 스킬 패키지로 구성해, 과도한 이미지 컨텍스트 없이 런타임 의사결정의 재사용성을 높였습니다.

PAGER: 점 단위 기하 GUI 제어의 의미-실행 간극 메우기1

PAGER는 4,906개 문제와 22.4만 개 픽셀 단위 행동으로 구성된 PAGE Bench를 제안하고, 위상 인지 분해·검증 기반 에이전트로 점 정밀도가 중요한 기하 GUI 작업의 연쇄 오류를 줄였습니다.

💡 에이전트 연구는 이제 단순한 텍스트 계획을 넘어 시각 근거, 정밀 좌표, 위상 제약처럼 실행 현장의 구조를 직접 다루는 방향으로 이동하고 있습니다. 결국 잘하는 에이전트는 더 많이 말하는 모델이 아니라, 더 정확한 증거와 절차 표현을 가진 모델이라는 점이 선명해집니다.

📄Multimodal & Generative6

CiteVQA: 신뢰할 수 있는 문서 지능을 위한 근거 인용 벤치마크55

CiteVQA는 답변뿐 아니라 근거 박스 인용까지 함께 평가하는 Doc-VQA 벤치마크로, 711개 PDF·1,897개 질문에서 모델의 정답률과 근거 정합성을 동시에 검증해 문서 AI의 신뢰성 평가 공백을 메웠습니다.

FashionChameleon: 실시간 상호작용형 사람-의상 비디오 커스터마이징35

FashionChameleon은 단일 의상 비디오만으로도 생성 중 의상을 실시간 전환할 수 있게 하는 프레임워크로, In-Context Learning 기반 Teacher와 일관성 보존 설계로 저지연 의상 제어를 구현했습니다.

ReactiveGWM: 반응형 게임 월드 모델에서 NPC 조종하기32

ReactiveGWM은 플레이어 제어와 NPC 반응을 분리해 디퓨전 백본에는 행동 바이어스를, 크로스어텐션에는 공격·수비 같은 고수준 반응을 주입함으로써 상호작용적 게임 시뮬레이션과 제로샷 전략 전이를 가능하게 했습니다.

💡 생성 모델은 품질 자체보다도 상호작용성, 근거성, 편집 가능성 같은 사용성 축으로 빠르게 확장되고 있습니다. 비디오·문서·3D·아바타 전반에서 '한 번 잘 생성하는 것'보다 '실시간 제어되고 신뢰 가능하며 후속 작업에 연결되는 것'이 핵심 경쟁력이 되고 있습니다.

📄Training & Optimization2

Flash-GRPO: 원스텝 정책 최적화로 비디오 디퓨전 정렬 가속16

Flash-GRPO는 iso-temporal grouping과 temporal gradient rectification으로 시간축 분산과 그래디언트 스케일 불일치를 줄여, 14B 비디오 디퓨전 정렬을 원스텝 학습만으로도 더 적은 연산에서 전체 궤적 학습보다 높은 품질로 수행했습니다.

미리 내다보는 학습: 온폴리시 증류 효율의 비밀13

이 연구는 온폴리시 증류의 효율이 초반부터 최종 업데이트 방향을 예견하는 foresight에 있음을 보이고, 이를 활용한 EffOPD로 외삽 스텝과 모듈 선택을 적응적으로 조정해 후학습 가속을 달성했습니다.

💡 후학습과 정렬에서는 더 많은 스텝보다 더 잘 설계된 업데이트가 중요하다는 메시지가 강합니다. 시간축 분산 제어와 업데이트 방향 예측처럼, 학습 신호의 구조를 바로잡아 적은 예산으로 더 나은 결과를 얻으려는 흐름이 뚜렷합니다.

👁️Computer Vision5

VLM에서 고밀도 미터 단위 깊이 추정 열기19

DepthVLM은 LLM 백본에 경량 depth head를 붙이고 2단계 비전-텍스트 통합 학습을 적용해, 단일 VLM이 한 번의 추론으로 언어 출력과 풀해상도 metric depth를 함께 생성하도록 만들었습니다.

AuralSAM2: 피라미드 오디오-비주얼 프롬프팅으로 SAM2에 청각 더하기9

AuralSAM2는 AuralFuser로 오디오-비주얼 특징을 희소·밀집 프롬프트로 변환해 SAM2의 피처 피라미드 전반에 청각 단서를 주입함으로써, 추가 오버헤드를 낮추면서도 오디오 기반 비디오 분할 성능을 높였습니다.

지리공간 파운데이션 모델의 진짜 SOTA는 아무도 모른다13

이 논문은 152편 감사 분석으로 동일 모델·벤치마크에서도 10점 이상 불일치가 46건, 39%는 가중치 미공개임을 보여주며, 지리공간 FM 연구의 재현성과 비교 가능성을 위한 6가지 커뮤니티 표준을 제안했습니다.

💡 비전 연구는 깊이·오디오 분할·평면도·원격탐사처럼 서로 다른 문제를 다루지만, 공통적으로는 더 구조적인 출력과 더 믿을 수 있는 평가 체계를 지향합니다. 특히 지리공간 분야의 메타 분석은 성능 경쟁만큼 표준화와 재현성 인프라가 시급하다는 점을 잘 보여줍니다.

📄Robotics & RL4

DexJoCo: 과제 지향 정교 조작을 위한 MuJoCo 벤치마크와 툴킷29

DexJoCo는 도구 사용·양손 협응·장기 과제를 포함한 11개 정교 조작 태스크와 1.1K 시연 궤적, 강건성 평가 파이프라인을 제공해 덱스터러스 핸드 연구의 표준화된 비교 기반을 마련했습니다.

PhysBrain 1.0 기술 보고서9

PhysBrain 1.0은 대규모 인간 1인칭 영상을 물리 상식 QA supervision으로 구조화한 뒤 이를 VLM과 VLA 정책에 이전해, PhysBench·LIBERO·RoboCasa·SimplerEnv 등에서 SOTA와 강한 OOD 성능을 기록했습니다.

MobileEgo Anywhere: 범용 하드웨어 기반 장기 1인칭 데이터 인프라5

MobileEgo Anywhere는 스마트폰 센서를 활용해 1시간 이상 지속되는 1인칭 궤적을 수집할 수 있는 오픈 인프라와 200시간 데이터셋을 공개해, 장기 horizon VLA 학습의 데이터 병목을 낮췄습니다.

💡 로보틱스는 모델 자체의 고도화와 함께 데이터·벤치마크·월드모델의 기반 공사를 동시에 진행하는 국면입니다. 인간 1인칭 영상과 모바일 수집 인프라, POMDP 추론, 정교 조작 벤치마크가 맞물리며 실제 환경 일반화를 위한 토대가 빠르게 두꺼워지고 있습니다.

🗣️Language Models1

안전지대 밖으로 밀어내기: RLVR를 위한 전략 유도 탐색4

NudgeRL은 rollout마다 가벼운 전략 컨텍스트를 주는 Strategy Nudging과 inter/intra-context 보상 분해 목적함수를 결합해, RLVR에서 무작정 샘플 수를 늘리지 않고도 더 다양한 추론 경로를 학습하게 합니다.

💡 LLM 추론 강화는 보상 설계보다 탐색 설계가 병목이라는 인식이 강해지고 있습니다. 전략 수준의 다양성을 의도적으로 주입하는 방식은, 앞으로 RLVR 계열 연구가 단순 샘플링 확장보다 구조화된 탐색으로 이동할 가능성을 보여줍니다.

매일 아침, 받은편지함에서 만나보세요

새로운 뉴스레터가 발행될 때마다 이메일로 받아볼 수 있습니다.

받아볼 뉴스레터 선택