오늘의 한줄

오늘은 실시간 비디오 이해, 에이전트의 메모리·개인화·보안, 그리고 LLM 추론 효율화가 특히 두드러졌습니다. 복잡한 구조를 더하는 대신 단순한 베이스라인이나 형식 검증, 잠재 추론처럼 본질을 다시 설계하는 흐름이 인상적입니다.

📄Robotics & RL2

OpenWorldLib: 고급 월드 모델을 위한 통합 코드베이스와 정의415

OpenWorldLib는 월드 모델을 지각·상호작용·장기기억을 갖춘 프레임워크로 재정의하고, 이질적 모델을 하나의 추론 프레임워크로 통합해 재사용성과 협업 추론을 높였습니다.

LIBERO-Para: VLA 모델의 패러프레이즈 강건성 진단 벤치마크와 지표26

LIBERO-Para는 VLA 모델이 지시문 패러프레이즈에 22~52%p 성능 하락을 보이며, 실패의 80~96%가 실행이 아닌 계획 단계에서 발생함을 보여 언어 일반화의 취약점을 정밀 진단했습니다.

🗣️Language Models2

TriAttention: 삼각함수 기반 KV 압축으로 긴 추론을 효율화하기121

TriAttention은 RoPE 이후 쿼리 대신 pre-RoPE 공간의 Q/K 중심성과 거리 선호를 이용해 키 중요도를 추정함으로써, 장문 추론의 KV 캐시 병목을 더 안정적으로 줄이는 압축 방법을 제안했습니다.

아담의 법칙: 대형 언어모델을 위한 텍스트 빈도 법칙86

이 논문은 빈도가 높은 표현이 프롬프팅과 파인튜닝 모두에 유리하다는 Textual Frequency Law를 제시하고, 패러프레이징·TFD·커리큘럼 학습으로 이를 실제 LLM 학습에 연결했습니다.

💻Code & Agents7

메모리 인텔리전스 에이전트80

MIA는 Manager-Planner-Executor 구조와 교대형 강화학습을 결합해 압축된 검색 궤적 메모리를 진화시키며, 단순 유사 사례 검색보다 효율적인 장기 경험 활용을 노렸습니다.

ClawArena: 변화하는 정보 환경에서 AI 에이전트를 평가하는 벤치마크20

ClawArena는 다중 소스 충돌 추론, 동적 신념 수정, 암묵적 개인화를 함께 평가하는 14개 유형 벤치마크로, 정적 환경 중심의 기존 에이전트 평가 공백을 메웠습니다.

FileGram: 파일시스템 행동 흔적에 기반한 에이전트 개인화11

FileGram은 파일시스템 행동 흔적을 활용하는 데이터 엔진, 벤치마크, 메모리 모델을 함께 제안해 프라이버시 제약이 큰 로컬 에이전트 개인화를 더 현실적인 신호 위에서 평가·학습하게 했습니다.

📄Multimodal & Generative6

스트리밍 비디오 이해를 위한 단순한 베이스라인46

SimpleStream은 최근 4프레임만 보는 슬라이딩 윈도우만으로도 OVO-Bench 67.7%, StreamingBench 80.59%를 기록하며 복잡한 메모리 기반 스트리밍 비디오 모델들을 맞먹거나 앞섰습니다.

AURA: 비디오 스트림 기반 상시 이해와 실시간 지원29

AURA는 컨텍스트 관리, 데이터 구성, 학습 목표, 배포 최적화를 통합한 엔드투엔드 스트리밍 VideoLLM으로 실시간 QA와 선제적 응답을 동시에 지원하며 SOTA를 달성했습니다.

토큰 워핑은 MLLM이 인접 시점을 더 잘 보게 돕습니다10

이 논문은 픽셀 대신 ViT 토큰을 backward warping하는 방식이 깊이 오차와 왜곡에 더 강하며, ViewBench에서 인접 시점 변화에 대한 MLLM의 추론 안정성을 높인다고 보였습니다.

👁️Computer Vision2

SpatialEdit: 정밀 이미지 공간 편집 벤치마크56

SpatialEdit는 기하 충실도와 시각적 자연스러움을 함께 평가하는 SpatialEdit-Bench와 50만 샘플 데이터셋, 그리고 SpatialEdit-16B를 제시해 세밀한 공간 편집 성능을 체계적으로 끌어올렸습니다.

디테일을 줄일수록 답이 좋아진다: VQA를 위한 열화 기반 프롬프팅15

DDP는 다운샘플링, 구조 보조 시각화, 과제 분류를 활용해 이미지 세부정보를 의도적으로 줄임으로써 VQA에서 환각과 추론 오류를 줄이고 핵심 구조에 집중하게 만들었습니다.

📄Training & Optimization1

자기 증류 기반 RLVR

Self-Distilled RLVR은 privileged teacher 기반 자기증류의 정보 누수 문제를 짚고, RLVR에 자기증류를 결합한 RLSD로 토큰 단위 업데이트 강도를 조절해 더 안정적인 학습을 제안했습니다.

매일 아침, 받은편지함에서 만나보세요

새로운 뉴스레터가 발행될 때마다 이메일로 받아볼 수 있습니다.

받아볼 뉴스레터 선택