오늘의 한줄
오늘은 에이전트 성능을 끌어올리는 하네스·벤치마크·강화학습 설계와, 멀티모달 생성 및 비전 효율화를 겨냥한 실용 연구가 두드러졌습니다. 특히 적은 데이터로 검색 에이전트를 밀어붙이거나, 합성 데이터와 캐싱으로 실제 배포 비용을 낮추는 접근이 인상적입니다.
💻Code & Agents5
ARIS: 적대적 멀티에이전트 협업으로 구현한 자율 연구⭐ 8,158
ARIS는 실행 모델과 이종 모델 리뷰어를 기본 조합으로 둔 연구 하네스를 제안해, 장기 연구 워크플로에서 근거 없는 그럴듯한 성공을 줄이도록 설계했습니다.
OpenSeeker-v2: 정보량 높고 어려운 궤적으로 검색 에이전트 한계 밀어붙이기⭐ 629
OpenSeeker-v2는 10.6k개의 고난도 궤적만으로 SFT만 수행해 BrowseComp 46.0%, BrowseComp-ZH 58.1% 등 4개 벤치마크에서 30B급 검색 에이전트 SOTA를 달성했습니다.
Skills-Coach: 학습 없는 GRPO 기반 자기 진화형 스킬 최적화기⭐ 16
Skills-Coach는 과제 생성, 프롬프트·코드 최적화, 비교 실행, 추적 평가를 묶어 별도 학습 없이 에이전트 스킬을 지속 개선하는 자동화 프레임워크를 제안했습니다.
📄Multimodal & Generative3
SFT에서 RL로를 넘어: 블랙박스 온폴리시 증류 기반 멀티모달 RL 사전 정렬⭐ 45
PRISM은 SFT와 RLVR 사이에 MoE 판별기를 활용한 블랙박스 온폴리시 증류 단계를 삽입해 지각·추론 드리프트를 분리 교정하는 멀티모달 정렬 파이프라인을 제안했습니다.
ComboStoc: 디퓨전 생성 모델을 위한 조합적 확률성⭐ 32
ComboStoc은 차원·속성 조합 구조를 더 잘 덮는 확률 과정을 설계해 이미지와 3D 생성에서 학습을 가속하고, 테스트 시 비동기 타임스텝 제어까지 가능하게 했습니다.
Motion-Aware Caching: 효율적인 자기회귀 비디오 생성을 위한 움직임 인지 캐싱⭐ 4
MotionCache는 프레임 간 차이를 픽셀 운동량의 대리 신호로 활용해 고운동 영역만 더 자주 갱신하는 캐시 재사용 전략으로, 자기회귀 비디오 생성의 계산량을 줄이면서 품질 저하를 억제했습니다.
📄Training & Optimization2
테이블 파운데이션 모델을 위한 사전 정렬형 데이터 클리닝⭐ 54
L2C2는 테이블 파운데이션 모델의 합성 사전분포와 실제 오염 데이터를 맞추기 위해 클리닝 연산 순서를 RL로 학습하는 최초의 prior-alignment 프레임워크를 제시했습니다.
T^2PO: 안정적인 멀티턴 에이전트 강화학습을 위한 불확실성 기반 탐색 제어⭐ 4
T^2PO는 토큰 수준 사고 개입과 턴 수준 재샘플링으로 불확실성 감소가 없는 탐색을 억제해, 멀티턴 에이전트 RL의 불안정성과 학습 붕괴를 줄이는 프레임워크입니다.
👁️Computer Vision4
SVGS: 공간적으로 변하는 색을 가진 프리미티브로 가우시안 스플래팅 강화⭐ 62
SVGS는 단일 색 대신 공간적으로 변하는 색과 불투명도를 갖는 2D Gaussian surfel을 도입해, 복잡한 텍스처 장면에서 새로운 시점 합성과 기하 재구성을 함께 개선했습니다.
X2SAM: 이미지와 비디오를 아우르는 범용 세그멘테이션⭐ 15
X2SAM은 LLM과 Mask Memory를 결합해 텍스트·시각 프롬프트를 모두 지원하면서 이미지와 비디오를 하나의 인터페이스로 처리하는 통합 세그멘테이션 MLLM을 제안했습니다.
명시적 어텐션 없이 선형 시간으로 구현한 전역 시각 모델링⭐ 11
이 연구는 어텐션을 동적 파라미터를 가진 MLP로 재해석하고, 이를 바탕으로 명시적 어텐션 없이도 Transformer급 전역 모델링을 선형 복잡도로 구현하는 방향을 제시했습니다.
🗣️Language Models4
HeavySkill: 에이전트 하네스의 내재 스킬로서의 깊은 사고⭐ 22
HeavySkill은 에이전트 성능의 핵심을 병렬 추론 후 요약하는 2단계 내재 스킬로 해석하며, 이 방식이 전통적 Best-of-N보다 일관되게 우수하고 강한 LLM은 Pass@N에 근접함을 보였습니다.
문맥에서 스킬로: 언어 모델은 문맥으로부터 능숙하게 배울 수 있을까?⭐ 10
Ctx2Skill은 Challenger-Reasoner-Judge의 멀티에이전트 셀프플레이로 긴 문맥에서 규칙과 절차를 스스로 추출·정제·선택해, 인간 라벨 없이 문맥 학습용 스킬을 구축합니다.
PatRe: 특허 심사를 위한 전 단계 의견통지·반박문 생성 벤치마크⭐ 3
PatRe는 480건의 실제 사례로 특허 심사를 의견통지와 출원인 반박이 오가는 다중 턴 생성 과제로 재구성해, 정적 분류 중심 평가의 한계를 넘어서는 벤치마크를 제안했습니다.
📄Robotics & RL2
MolmoAct2: 실제 배포를 위한 행동 추론 모델⭐ 12
MolmoAct2는 3.3M 샘플로 학습한 공간·체화 추론 특화 백본과 720시간 규모의 공개 양팔 조작 데이터셋을 바탕으로, 실제 로봇 배포를 겨냥한 완전 공개 VLA 스택을 제시했습니다.
ESARBench: 에이전트형 UAV 체화 수색·구조 벤치마크⭐ 3
ESARBench는 Unreal Engine 5와 AirSim 기반의 사실적 대규모 환경에서 UAV가 단서를 찾고 피해자 위치를 추론해야 하는 체화 수색·구조 과제를 평가하는 첫 종합 벤치마크입니다.