오늘의 한줄
오늘은 에이전트 학습용 환경·데이터를 자동으로 만들고 검증하는 연구와, 하나의 멀티모달 모델로 이해·생성·편집을 함께 끌어올리려는 시도가 두드러졌습니다. 동시에 장문맥 추론, KV 캐시 압축, 대규모 3D/오디오 생성처럼 실제 배포 효율과 스케일링을 겨냥한 시스템 연구도 빠르게 정교해지고 있습니다.
💻Code & Agents5
오토리서치클로: 인간-AI 협업 기반 자기강화형 자율 연구 시스템⭐ 12,379
AutoResearchClaw는 다중 에이전트 토론, 실패를 정보로 바꾸는 Pivot/Refine 실행기, 검증 가능한 리포팅, 7단계 인간 개입, 실행 간 경험 축적을 결합해 자율 연구를 선형 파이프라인에서 반복 학습형 시스템으로 확장했습니다.
EnvFactory: 실행 가능한 환경 합성과 강건한 RL로 도구사용 에이전트 확장하기⭐ 42
EnvFactory는 실제 리소스에서 상태 있는 실행 환경을 자동 탐색·검증하고 암묵적 의도를 담은 멀티턴 궤적을 합성해, 85개 검증 환경만으로도 도구사용 에이전트 RL 학습의 확장성과 현실성을 높였습니다.
Video2GUI: 범용 GUI 에이전트 사전학습을 위한 대규모 상호작용 궤적 합성⭐ 20
Video2GUI는 인터넷 튜토리얼 영상에서 GUI 상호작용을 자동 추출해 1,500개 이상 앱·웹사이트를 포괄하는 1,200만 개 WildGUI 궤적을 만들었고, 이를 사전학습한 Qwen2.5-VL과 Mimo-VL은 여러 벤치마크에서 5~20% 향상됐습니다.
💡 에이전트 연구의 초점이 이제 모델 자체보다도 검증 가능한 환경, 대규모 궤적 데이터, 현실적인 평가 프로토콜을 어떻게 만들 것인가로 이동하고 있습니다. 특히 GUI·툴사용·자율연구 모두에서 '실행 가능성'과 '검증 가능성'이 성능 향상의 전제 조건으로 자리잡는 흐름이 뚜렷합니다.
🗣️Language Models3
HRM-Text: 스케일링을 넘어선 효율적 사전학습⭐ 606
HRM-Text는 느린 전략층과 빠른 실행층으로 계산을 분리한 Hierarchical Recurrent Model에 MagicNorm과 warmup deep credit assignment를 더해, 1B 모델을 400억 토큰의 instruction-response 데이터만으로도 경쟁력 있게 사전학습했습니다.
Toto 2.0: 시계열 예측도 스케일링 시대에 진입하다⭐ 437
Toto 2.0은 4M부터 2.5B 파라미터까지 단일 학습 레시피로 성능 향상을 일관되게 보여주며 BOOM, GIFT-Eval, TIME에서 SOTA를 달성해 시계열 파운데이션 모델의 스케일링 법칙을 입증했습니다.
GoLongRL: 멀티태스크 정렬 기반 능력지향 장문맥 강화학습⭐ 23
GoLongRL은 장문맥 능력 분류에 따라 9개 과제 유형을 포괄하는 2.3만 개 RLVR 데이터와 오픈 파이프라인을 공개하고, 동일한 GRPO 설정에서도 데이터 설계만으로 장문맥 강화학습 성능 향상을 입증했습니다.
💡 언어모델은 무작정 더 크게 만드는 대신, 구조를 바꾸거나 데이터 구성과 후학습 목표를 재설계해 효율과 능력을 함께 챙기는 방향으로 가고 있습니다. 장문맥과 시계열처럼 도메인별 요구가 뚜렷한 영역에서는 스케일링 법칙을 다시 세우는 작업이 본격화되는 모습입니다.
📄Multimodal & Generative6
대규모 오디오 언어모델 서베이: 일반화, 신뢰성, 그리고 전망⭐ 195
이 서베이는 Large Audio Language Models의 구조·정렬 메커니즘과 함께 크로스모달 jailbreak, 잠재 음향 백도어 등 신뢰성 위험을 체계화해 오디오 멀티모달의 보안·평가 프레임을 정리했습니다.
Mega-ASR: 현실 음향 시뮬레이션 확장으로 진짜 야생 환경 음성인식으로⭐ 100
Mega-ASR는 7개 음향 현상과 54개 복합 시나리오를 담은 Voices-in-the-Wild-2M, progressive SFT, WER-gated policy optimization으로 악조건 ASR을 개선해 VOiCES와 NOIZEUS에서 기존 대비 큰 폭의 WER 향상을 보였습니다.
스테이블 오디오 3⭐ 122
Stable Audio 3는 의미-음향 오토인코더 위의 가변 길이 잠재 디퓨전과 adversarial post-training을 결합해 수분 길이의 오디오 생성·편집을 빠르게 수행하며 H200에서 2초 미만 생성 속도를 제시했습니다.
💡 멀티모달 연구는 단순 결합을 넘어 이해·생성·편집의 표현 공간을 실제로 정렬하는 방법을 찾는 단계에 들어섰습니다. 동시에 오디오·비디오·오디오언어모델 전반에서 품질뿐 아니라 신뢰성, 편집 가능성, 상호작용성까지 함께 요구하는 기준이 강화되고 있습니다.
👁️Computer Vision3
TideGS: 아웃오브코어 최적화로 10억 개 이상 3D 가우시안 스플래팅 학습하기⭐ 75
TideGS는 SSD-CPU-GPU 계층 메모리, block-virtualized geometry, 비동기 파이프라인, trajectory-adaptive differential streaming으로 단일 GPU 환경의 3DGS를 10억 프리미티브 규모까지 확장했습니다.
RT-Splatting: 가우시안 스플래팅으로 반사와 투과를 함께 모델링하기⭐ 55
RT-Splatting은 기하 점유와 광학 불투명도를 분리한 단일 Gaussian 표현과 Specular-Aware Gradient Gating으로 반사와 투과가 공존하는 반투명 장면의 블러·부유 아티팩트를 줄였습니다.
OcclusionFormer: 레이아웃 기반 이미지 생성을 위한 Z-순서 배치⭐ 16
OcclusionFormer는 가림 순서가 명시된 SA-Z 데이터셋과 Z-order를 직접 모델링하는 diffusion transformer, queried alignment loss를 통해 겹치는 객체의 질감 얽힘과 비물리적 레이어링 문제를 줄였습니다.
💡 비전 쪽에서는 3DGS와 레이아웃 생성처럼 기존 표현의 약점을 정면으로 겨냥해 메모리 병목, 반사·투과, 객체 가림 순서 같은 현실 문제를 세밀하게 풀어내고 있습니다. 즉, 고품질 생성의 승부처가 더 큰 모델보다 더 정확한 장면 구조화와 시스템 최적화로 이동하고 있습니다.
📄Training & Optimization2
OScaR: LLM 극한 KV 캐시 양자화를 위한 오컴의 면도날⭐ 20
OScaR는 극한 KV 캐시 압축의 핵심 병목을 Token Norm Imbalance로 규정하고, 복잡한 파이프라인 대신 Omni-Scaled Canalized Rotation으로 텍스트·멀티모달 모델 전반에서 정확도 손실을 줄인 경량 양자화를 제안했습니다.
Mix-Quant: 에이전트형 LLM을 위한 양자화 프리필과 정밀 디코딩⭐ 18
Mix-Quant는 에이전트형 LLM 추론에서 병목인 prefilling만 NVFP4로 양자화하고 decoding은 BF16으로 유지하는 phase-aware 설계로, 정확도 저하를 억제하면서 장문맥·멀티턴 추론 처리량을 높였습니다.
💡 배포 효율화는 이제 단순한 전역 양자화보다 단계별·병목별 특성을 이용하는 정밀 최적화로 진화하고 있습니다. KV 캐시와 prefilling처럼 실제 추론 비용의 중심을 겨냥한 기법들이 장문맥·에이전트 시대의 핵심 인프라가 될 가능성이 큽니다.
📄Robotics & RL1
ESI-Bench: 지각-행동 루프를 닫는 체화 공간지능을 향하여⭐ 20
ESI-Bench는 OmniGibson 위에서 10개 과제군·29개 하위과제로 체화 공간지능을 평가하며, 최신 MLLM도 수동 관찰보다 능동 탐색에서 더 잘하지만 여전히 행동 기반 증거 수집 능력이 크게 부족함을 보여줍니다.
💡 체화 지능에서는 여전히 '무엇을 보느냐'보다 '어떻게 움직여서 증거를 모으느냐'가 더 어려운 문제임이 확인됩니다. 벤치마크도 정답 맞히기보다 지각-행동 루프를 닫는 능력 자체를 측정하는 방향으로 빠르게 재편되고 있습니다.