오늘의 한줄

오늘은 에이전트 성능을 끌어올리는 하네스·벤치마크·강화학습 설계와, 멀티모달 생성 및 비전 효율화를 겨냥한 실용 연구가 두드러졌습니다. 특히 적은 데이터로 검색 에이전트를 밀어붙이거나, 합성 데이터와 캐싱으로 실제 배포 비용을 낮추는 접근이 인상적입니다.

💻Code & Agents5

ARIS는 실행 모델과 이종 모델 리뷰어를 기본 조합으로 둔 연구 하네스를 제안해, 장기 연구 워크플로에서 근거 없는 그럴듯한 성공을 줄이도록 설계했습니다.

OpenSeeker-v2는 10.6k개의 고난도 궤적만으로 SFT만 수행해 BrowseComp 46.0%, BrowseComp-ZH 58.1% 등 4개 벤치마크에서 30B급 검색 에이전트 SOTA를 달성했습니다.

Skills-Coach는 과제 생성, 프롬프트·코드 최적화, 비교 실행, 추적 평가를 묶어 별도 학습 없이 에이전트 스킬을 지속 개선하는 자동화 프레임워크를 제안했습니다.

PRISM은 SFT와 RLVR 사이에 MoE 판별기를 활용한 블랙박스 온폴리시 증류 단계를 삽입해 지각·추론 드리프트를 분리 교정하는 멀티모달 정렬 파이프라인을 제안했습니다.

ComboStoc은 차원·속성 조합 구조를 더 잘 덮는 확률 과정을 설계해 이미지와 3D 생성에서 학습을 가속하고, 테스트 시 비동기 타임스텝 제어까지 가능하게 했습니다.

MotionCache는 프레임 간 차이를 픽셀 운동량의 대리 신호로 활용해 고운동 영역만 더 자주 갱신하는 캐시 재사용 전략으로, 자기회귀 비디오 생성의 계산량을 줄이면서 품질 저하를 억제했습니다.

L2C2는 테이블 파운데이션 모델의 합성 사전분포와 실제 오염 데이터를 맞추기 위해 클리닝 연산 순서를 RL로 학습하는 최초의 prior-alignment 프레임워크를 제시했습니다.

T^2PO는 토큰 수준 사고 개입과 턴 수준 재샘플링으로 불확실성 감소가 없는 탐색을 억제해, 멀티턴 에이전트 RL의 불안정성과 학습 붕괴를 줄이는 프레임워크입니다.

SVGS는 단일 색 대신 공간적으로 변하는 색과 불투명도를 갖는 2D Gaussian surfel을 도입해, 복잡한 텍스처 장면에서 새로운 시점 합성과 기하 재구성을 함께 개선했습니다.

X2SAM은 LLM과 Mask Memory를 결합해 텍스트·시각 프롬프트를 모두 지원하면서 이미지와 비디오를 하나의 인터페이스로 처리하는 통합 세그멘테이션 MLLM을 제안했습니다.

이 연구는 어텐션을 동적 파라미터를 가진 MLP로 재해석하고, 이를 바탕으로 명시적 어텐션 없이도 Transformer급 전역 모델링을 선형 복잡도로 구현하는 방향을 제시했습니다.

HeavySkill은 에이전트 성능의 핵심을 병렬 추론 후 요약하는 2단계 내재 스킬로 해석하며, 이 방식이 전통적 Best-of-N보다 일관되게 우수하고 강한 LLM은 Pass@N에 근접함을 보였습니다.

Ctx2Skill은 Challenger-Reasoner-Judge의 멀티에이전트 셀프플레이로 긴 문맥에서 규칙과 절차를 스스로 추출·정제·선택해, 인간 라벨 없이 문맥 학습용 스킬을 구축합니다.

PatRe는 480건의 실제 사례로 특허 심사를 의견통지와 출원인 반박이 오가는 다중 턴 생성 과제로 재구성해, 정적 분류 중심 평가의 한계를 넘어서는 벤치마크를 제안했습니다.

MolmoAct2는 3.3M 샘플로 학습한 공간·체화 추론 특화 백본과 720시간 규모의 공개 양팔 조작 데이터셋을 바탕으로, 실제 로봇 배포를 겨냥한 완전 공개 VLA 스택을 제시했습니다.

ESARBench는 Unreal Engine 5와 AirSim 기반의 사실적 대규모 환경에서 UAV가 단서를 찾고 피해자 위치를 추론해야 하는 체화 수색·구조 과제를 평가하는 첫 종합 벤치마크입니다.