오늘의 한줄

오늘은 에이전트의 실행 가능성·검증 가능성을 높이는 인프라 연구와, 멀티모달 생성 모델을 더 길고 정교하게 만드는 시스템 연구가 두드러졌습니다. 특히 자율 연구, 컴퓨터 사용, GUI·툴 사용처럼 실제 워크플로를 다루는 벤치마크와 검증 프레임워크가 빠르게 성숙하고 있습니다.

💻Code & Agents8

AutoResearchClaw: 인간-AI 협업 기반 자기강화형 자율 연구 시스템12,379

AutoResearchClaw는 다중 에이전트 토론, Pivot/Refine 자기복구 실행기, 검증 가능한 결과 보고, 7가지 인간 개입 모드, 실행 간 경험 축적을 결합해 선형 파이프라인 한계를 넘는 자율 연구 루프를 제안합니다.

SkillsVote: 수집부터 추천·진화까지 에이전트 스킬 전주기 거버넌스219

SkillsVote는 백만 규모 스킬 코퍼스를 품질·환경·검증 가능성 기준으로 관리하고, 실행 전 추천과 실행 후 원인 귀속을 통해 재사용 가능한 스킬만 진화시키는 에이전트 스킬 거버넌스 프레임워크입니다.

AI 자율 연구: 로드맵과 사용자 가이드45

이 로드맵은 연구 생애주기 전반에서 AI의 역할을 Creation·Writing·Validation·Dissemination으로 정리하며, 구조화된 보조에는 강하지만 완전 자율 연구에는 여전히 무결성 한계가 크다고 짚습니다.

💡 에이전트 연구는 이제 단순 성능 경쟁보다 실행 환경, 검증기, 스킬 거버넌스, 벤치마크 같은 '운영체제'를 갖추는 방향으로 이동하고 있습니다. 특히 자율 연구·컴퓨터 사용·코드 최적화처럼 실패 비용이 큰 영역일수록 검증 가능성과 경험 축적 구조가 핵심 차별점이 되고 있습니다.

📄Multimodal & Generative6

LongLive-2.0: 장편 비디오 생성을 위한 NVFP4 병렬 인프라1,270

LongLive-2.0은 Balanced SP와 NVFP4 정밀도를 결합한 학습·추론 인프라로 장편 비디오 생성의 메모리·속도 병목을 줄이고, ODE 초기화나 DMD 없이도 긴 멀티샷 인터랙티브 생성으로 직접 튜닝합니다.

Lance: 멀티태스크 시너지로 구현한 통합 멀티모달 모델259

Lance는 이중 스트림 MoE, modality-aware RoPE, 단계적 멀티태스크 학습으로 이미지·비디오 이해·생성·편집을 하나의 경량 네이티브 모델에 통합해 멀티모달 범용성을 높였습니다.

통합 멀티모달 모델을 위한 시맨틱 생성 튜닝45

이 논문은 생성 후학습의 최적 프록시로 이미지 세그멘테이션을 제시하고, SGT로 이해와 생성 표현 공간을 정렬해 비전 인식 성능과 생성 레이아웃 품질을 함께 개선합니다.

💡 멀티모달 생성은 모델 자체의 스케일업보다 장기 메모리, 멀티태스크 정렬, 에이전트형 전처리처럼 시스템 설계로 품질을 끌어올리는 흐름이 강합니다. 이미지·비디오·오디오를 하나의 통합 인터페이스로 다루되, 각 모달리티의 시간성과 구조를 어떻게 보존하느냐가 승부처로 보입니다.

👁️Computer Vision2

TideGS: Out-of-Core 최적화로 10억 개 이상 3D 가우시안 프리미티브 학습하기75

TideGS는 SSD-CPU-GPU 계층 메모리, 블록 가상화 기하, 비동기 파이프라인, 차등 스트리밍을 통해 단일 GPU 환경에서도 10억 개 이상 3DGS 프리미티브 학습을 가능하게 합니다.

RT-Splatting: 가우시안 스플래팅으로 반사와 투과를 함께 모델링하기55

RT-Splatting은 기하 점유와 광학 불투명도를 분리한 단일 3DGS 표현과 Specular-Aware Gradient Gating을 도입해 반투명 반사 표면에서 흐린 반사와 과도한 차폐 문제를 줄였습니다.

💡 3DGS 계열 연구는 이제 단순 렌더링 품질을 넘어 메모리 계층과 광학 모델링까지 건드리며 실용 스케일로 확장되고 있습니다. 대규모 학습 인프라와 반사·투과 같은 어려운 광학 현상을 함께 해결해야 실제 장면 재구성의 적용 범위가 넓어진다는 점이 분명해졌습니다.

📄Robotics & RL2

EnvFactory: 실행 가능한 환경 합성과 강건한 RL로 툴 사용 에이전트 확장하기42

EnvFactory는 실제 자원에서 상태를 가진 실행 환경을 자동 발굴·검증하고 자연스러운 다중 턴 궤적을 합성해, 적은 수의 검증된 환경만으로도 툴 사용 에이전트용 Agentic RL을 확장합니다.

ESI-Bench: 지각-행동 루프를 닫는 체화된 공간 지능 벤치마크20

ESI-Bench는 OmniGibson 위 10개 과제군·29개 하위과제로 능동 탐색 기반 공간 지능을 평가하며, 최신 MLLM도 수동 관찰보다 행동을 통한 증거 수집에서 더 나은 성능을 보인다는 점을 보여줍니다.

💡 에이전트 RL은 좋은 보상 함수만이 아니라, 실제로 실행 가능한 환경과 능동적 탐색이 가능한 과제 설계가 성패를 좌우한다는 메시지를 줍니다. 툴 사용과 체화 지능 모두 '행동을 통해 정보를 얻는 루프'를 학습시키는 방향으로 수렴하고 있습니다.

🗣️Language Models1

GoLongRL: 멀티태스크 정렬을 갖춘 능력 중심 장문맥 강화학습23

GoLongRL은 9가지 장문맥 능력 분류에 맞춘 2.3만 개 RLVR 데이터와 오픈 파이프라인을 공개하고, 동일한 GRPO 설정에서도 데이터 설계만으로 장문맥 추론 성능 향상을 이끌어냅니다.

💡 장문맥 RL은 더 복잡한 경로를 억지로 만들기보다, 실제 활용 능력을 기준으로 데이터를 구조화하고 평가를 정교화하는 쪽으로 진화하고 있습니다. 결국 장문맥 성능은 모델 크기보다 어떤 능력을 어떤 보상으로 후학습했는지가 더 중요해지고 있습니다.

📄Training & Optimization1

학습된 신뢰도를 갖춘 프로세스 보상7

BetaPRM은 단계별 성공확률뿐 아니라 신뢰도까지 Beta-Binomial로 학습하는 분포형 PRM이며, 이를 활용한 ACA로 PRM 기반 Best-of-N 추론에서 계산을 더 효율적으로 배분합니다.

💡 추론 보상 모델링도 이제 점수 하나를 맞히는 단계에서 벗어나, 그 점수를 얼마나 믿어야 하는지까지 학습하는 방향으로 나아가고 있습니다. 불확실성을 직접 다루는 보상 모델은 테스트 타임 계산 배분과 탐색 전략을 더 실용적으로 바꿀 가능성이 큽니다.

매일 아침, 받은편지함에서 만나보세요

새로운 뉴스레터가 발행될 때마다 이메일로 받아볼 수 있습니다.

받아볼 뉴스레터 선택