오늘의 한줄

오늘은 에이전트 평가·안전성, 초대형 모델 학습 효율, 그리고 스트리밍 비디오·이미지 편집 같은 멀티모달 응용이 특히 두드러졌습니다. 단순 성능 경쟁을 넘어, 실제 배포 환경에서의 신뢰성·지연·적응성을 정교하게 측정하고 개선하려는 흐름이 강해지고 있습니다.

💻Code & Agents7

Claw-Eval: 신뢰할 수 있는 자율 에이전트 평가를 향하여336

Claw-Eval은 300개 실제형 과제와 2,159개 세부 루브릭, 실행 추적·감사 로그·환경 스냅샷의 3중 증거 채널을 통해 에이전트를 결과뿐 아니라 과정·안전·강건성까지 평가하는 종단형 벤치마크입니다.

메모리 인텔리전스 에이전트92

MIA는 압축 메모리를 관리하는 Manager와 계획 생성 Planner, 실행 담당 Executor를 결합하고 교대형 강화학습으로 협업을 학습해, 검색형 에이전트의 메모리 진화와 비용 문제를 함께 다룹니다.

ClawArena: 변화하는 정보 환경에서의 AI 에이전트 벤치마크24

ClawArena는 상충하는 다중 정보원, 믿음 수정, 암묵적 개인화가 얽힌 동적 환경을 구성해, 정적인 벤치마크가 놓치던 지속형 에이전트의 상태 추적 능력을 평가합니다.

📄Multimodal & Generative4

OpenWorldLib: 고급 월드 모델의 통합 코드베이스와 정의445

OpenWorldLib는 지각·상호작용·장기기억을 갖춘 월드 모델을 명확히 정의하고, 이질적 모델을 재사용 가능한 단일 추론 프레임워크로 묶어 월드 모델 연구의 공통 기반을 제시합니다.

AURA: 비디오 스트림 기반 상시 이해와 실시간 지원35

AURA는 컨텍스트 관리, 데이터 구성, 학습 목표, 배포 최적화를 통합한 end-to-end 스트리밍 VideoLLM으로, 실시간 질의응답과 선제적 응답을 장시간 안정적으로 지원합니다.

SpatialEdit: 정밀 이미지 공간 편집 벤치마크58

SpatialEdit은 기하 충실도와 시각적 자연스러움을 함께 평가하는 벤치마크와 50만 규모 합성 데이터셋, 그리고 16B 베이스라인 모델을 제안해 정밀 공간 편집 연구의 기준선을 세웠습니다.

📄Training & Optimization3

TriAttention: 삼각함수 기반 KV 압축으로 긴 추론을 효율화하다194

TriAttention은 RoPE 이후 쿼리 대신 pre-RoPE 공간의 Q/K 중심성과 거리 선호를 이용해 키 중요도를 추정함으로써, 긴 추론에서 더 안정적인 KV 캐시 압축을 구현한 방법입니다.

MegaTrain: 단일 GPU에서 100B+ LLM을 풀프리시전으로 학습하기61

MegaTrain은 파라미터와 옵티마이저 상태를 CPU 메모리에 두고 GPU를 계산 엔진으로만 쓰는 메모리 중심 설계로, 단일 H200과 1.5TB 호스트 메모리에서 최대 120B 모델의 풀프리시전 학습을 가능하게 했습니다.

인플레이스 테스트 타임 트레이닝24

In-Place TTT는 LLM의 MLP 마지막 투영 행렬을 빠른 적응 가중치로 활용해 재학습 없이 테스트 시점 업데이트를 가능하게 하고, 언어모델링에 맞춘 목적함수로 실용성을 높였습니다.

👁️Computer Vision2

Video-MME-v2: 종합적 비디오 이해 벤치마크의 다음 단계250

Video-MME-v2는 시각 정보 집계-시간 동역학-복합 멀티모달 추론의 3단계 난이도와 그룹 기반 비선형 채점으로, 비디오 모델의 일관성과 충실한 추론을 더 엄격히 검증합니다.

디테일을 줄일수록 답이 좋아진다: VQA를 위한 열화 기반 프롬프팅16

DDP는 고해상도 세부정보를 일부러 줄이고 구조적 시각 보조와 ICL을 결합해, 환각을 유발하는 시각 잡음을 줄이며 VQA에서 핵심 구조에 더 집중하도록 유도합니다.

🗣️Language Models2

DARE: 디퓨전 LLM 정렬 및 강화학습 실행 프레임워크170

DARE는 dLLM용 SFT, PEFT, 선호 최적화, 강화학습을 하나의 실행 스택으로 통합해, 분산된 디퓨전 언어모델 후처리 생태계를 재현 가능하고 공정한 비교가 가능한 형태로 정리했습니다.

Adam의 법칙: 대규모 언어모델을 위한 텍스트 빈도 법칙94

이 논문은 LLM이 더 빈번한 표현을 선호한다는 Textual Frequency Law를 제안하고, 고빈도 재표현·빈도 증류·커리큘럼 학습으로 프롬프팅과 파인튜닝을 개선하는 방향을 제시합니다.

📄Robotics & RL2

LIBERO-Para: VLA 모델의 패러프레이즈 강건성 진단 벤치마크와 지표27

LIBERO-Para는 VLA 모델이 지시문 패러프레이즈에 22~52%p 성능 하락을 보이며, 실패의 80~96%가 실행이 아닌 계획 단계에서 발생함을 밝혀 언어 일반화의 취약점을 정량화했습니다.

궤적만이 아니라 의도를 모방하라28

MINT는 행동 표현을 주파수 공간에서 다중 스케일 토큰으로 분해해 저주파 Intent 토큰과 고주파 Execution 토큰을 분리함으로써, 모방학습의 계획·전이·환경 적응성을 높입니다.

매일 아침, 받은편지함에서 만나보세요

새로운 뉴스레터가 발행될 때마다 이메일로 받아볼 수 있습니다.

받아볼 뉴스레터 선택