오늘의 한줄

오늘은 에이전트의 신뢰성·안전성 평가와 월드모델의 실시간화, 그리고 대규모 모델 학습 효율화가 핵심 흐름으로 보입니다. 특히 벤치마크와 시스템 논문들이 실제 배포 환경의 병목과 실패 모드를 더 정교하게 드러내고 있다는 점이 인상적입니다.

💻Code & Agents6

RAGEN-2: 에이전트형 강화학습에서의 추론 붕괴2,592

RAGEN-2는 엔트로피로는 보이지 않는 입력 무관 템플릿 붕괴를 발견하고, 상호정보량(MI) 기반 진단 지표가 최종 성능과 더 강하게 상관함을 보여 에이전트 RL의 추론 품질 모니터링 기준을 바꿉니다.

Claw-Eval: 자율 에이전트의 신뢰할 수 있는 평가를 향하여336

Claw-Eval은 300개 인간 검증 과제와 2,159개 세부 루브릭, 3중 증거 채널을 통해 결과만이 아니라 실행 궤적·안전성·견고성까지 함께 채점하는 종단간 에이전트 평가 스위트입니다.

Memory Intelligence Agent92

MIA는 압축 메모리를 관리하는 Manager와 계획 생성 Planner, 탐색 수행 Executor를 결합하고 교대형 RL로 협업을 학습해, 장기 메모리 비용과 탐색 효율 문제를 동시에 개선합니다.

📄Multimodal & Generative3

INSPATIO-WORLD: 시공간 자기회귀로 구현한 실시간 4D 월드 시뮬레이터695

INSPATIO-WORLD는 STAR 아키텍처와 암시적 시공간 캐시·명시적 공간 제약 모듈로 단일 참조 비디오에서 공간 일관성과 상호작용성을 갖춘 고충실도 4D 장면을 실시간 생성합니다.

OpenWorldLib: 고급 월드모델을 위한 통합 코드베이스와 정의445

OpenWorldLib는 지각·상호작용·장기기억을 갖춘 월드모델의 정의를 제안하고, 이질적인 모델들을 하나의 추론 프레임워크로 묶어 재사용성과 협업 추론 효율을 높입니다.

프레임 하나를 토큰 하나로: 델타 토큰 기반 효율적 생성 월드모델46

DeltaTok과 DeltaWorld는 연속 프레임 간 VFM 특징 차이를 단일 연속 델타 토큰으로 압축해 512×512 비디오에서 최대 1,024배 토큰 절감을 달성하며 다양한 미래 상태 생성을 효율화합니다.

🗣️Language Models3

TriAttention: 삼각함수 기반 KV 압축으로 긴 추론을 효율화하다194

TriAttention은 RoPE 이후 쿼리 대신 pre-RoPE 공간의 Q/K 중심성과 거리 선호를 삼각급수로 모델링해 키 중요도를 추정하며, 긴 추론에서 KV 캐시를 더 안정적으로 압축합니다.

DARE: 디퓨전 LLM 정렬과 강화학습 실행 프레임워크170

DARE는 dLLM용 SFT·PEFT·선호최적화·강화학습을 하나의 실행 스택으로 통합해, 분산돼 있던 디퓨전 언어모델 후처리 파이프라인의 재현성과 공정 비교를 크게 높입니다.

Adam's Law: 대형언어모델을 위한 텍스트 빈도 법칙94

Adam's Law는 더 자주 등장하는 표현이 프롬프팅과 미세조정 모두에 유리하다는 TFL을 제시하고, 빈도 기반 재표현·TFD·커리큘럼 학습으로 LLM 입력 설계의 새로운 축을 제안합니다.

👁️Computer Vision5

Video-MME-v2: 종합적 비디오 이해 벤치마크의 다음 단계250

Video-MME-v2는 비디오 이해를 시각 정보 집계·시간 동역학·복합 멀티모달 추론의 3단계로 평가하고, 추측성 정답을 벌점하는 그룹 기반 비선형 채점으로 실제 신뢰도를 더 엄격히 측정합니다.

Elastic 테스트타임 학습 기반 Fast Spatial Memory73

FSM은 Fisher 가중 elastic prior와 EMA 앵커 상태를 도입한 Elastic Test-Time Training으로 LaCT의 망각·과적합을 줄이며, 긴 시퀀스 4D 재구성을 단일 패스로 더 안정적으로 수행합니다.

AURA: 비디오 스트림 기반 상시 이해와 실시간 지원35

AURA는 스트리밍 비디오를 연속 처리하는 단일 VideoLLM으로 실시간 질의응답과 능동 응답을 함께 지원하며, 문맥 관리·학습 목표·배포 최적화를 통합해 장시간 상호작용 성능을 끌어올렸습니다.

📄Training & Optimization1

MegaTrain: 단일 GPU에서 100B+ LLM을 전체 정밀도로 학습하기61

MegaTrain은 파라미터와 옵티마이저 상태를 CPU 메모리에 두고 GPU를 스트리밍 계산 엔진으로 활용해, 단일 H200과 1.5TB 호스트 메모리에서 최대 120B 모델의 full-precision 학습을 가능하게 했습니다.

📄Robotics & RL2

LIBERO-Para: VLA 모델의 패러프레이즈 강건성 진단 벤치마크27

LIBERO-Para는 7개 VLA 설정에서 패러프레이즈 시 성능이 22~52%p 하락하고 실패의 80~96%가 실행이 아닌 계획 단계에서 발생함을 보여, 로봇 언어 일반화의 취약 지점을 정밀하게 드러냅니다.

궤적만이 아니라 의도를 모방하라28

MINT는 행동 청크를 주파수 공간에서 coarse-to-fine으로 분해해 저주파 Intent 토큰과 고주파 Execution 토큰을 분리함으로써, 모방학습의 계획 전이성과 환경 적응력을 함께 높입니다.

매일 아침, 받은편지함에서 만나보세요

새로운 뉴스레터가 발행될 때마다 이메일로 받아볼 수 있습니다.

받아볼 뉴스레터 선택