오늘의 한줄

오늘은 에이전트의 장기 학습과 실행 구조를 재설계하는 연구, 생성 모델을 더 적은 스텝과 더 강한 물리 일관성으로 확장하는 연구, 그리고 LLM 학습 효율을 높이는 최적화 기법이 두드러졌습니다. 특히 컨텍스트 관리·스킬 진화·워크플로 자동화처럼 실제 배포에서 바로 체감되는 시스템 연구가 많았습니다.

💻Code & Agents8

GenericAgent: A Token-Efficient Self-Evolving LLM Agent via Contextual Information Density Maximization (V1.0)GenericAgent: 문맥 정보 밀도 극대화로 스스로 진화하는 토큰 효율 LLM 에이전트⭐ 5,358

GenericAgent는 최소 원자 도구, 계층형 온디맨드 메모리, SOP·코드로의 자기진화, 문맥 절단 전략을 결합해 제한된 컨텍스트 안에 의사결정 핵심 정보만 남기도록 설계한 장기 과제용 LLM 에이전트입니다.

EvoMaster: A Foundational Agent Framework for Building Evolving Autonomous Scientific Agents at ScaleEvoMaster: 대규모 자기진화형 자율 과학 에이전트를 위한 기반 프레임워크⭐ 119

EvoMaster는 가설 수정, 자기비판, 지식 축적을 실험 주기마다 반복하는 자기진화형 과학 에이전트 프레임워크로, 약 100줄 코드만으로 다양한 학문 분야의 에이전트를 확장 가능하게 구축하도록 설계됐습니다.

OpenGame: Open Agentic Coding for GamesOpenGame: 게임 개발을 위한 오픈 에이전트 코딩 프레임워크⭐ 67

OpenGame은 템플릿 스킬과 디버그 스킬로 프로젝트 골격과 검증된 수정 프로토콜을 축적해, 여러 파일과 장면 상태가 얽힌 웹 게임을 고수준 설계에서 끝까지 플레이 가능한 코드로 만드는 첫 오픈소스 에이전트 프레임워크입니다.

📄Training & Optimization3

Accurate and scalable exchange-correlation with deep learning딥러닝으로 구현한 정확하고 확장 가능한 교환-상관 함수⭐ 206

Skala는 딥러닝 기반 XC 함수로 GMTKN55에서 2.8 kcal/mol 오차를 기록하며 최신 하이브리드 함수보다 정확하면서도 준국소 DFT 수준의 계산 비용을 유지해 화학 시뮬레이션의 정확도-효율 트레이드오프를 깼습니다.

GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient RectificationGFT: 편향 없는 그룹 이점과 동적 계수 보정으로 모방학습에서 보상 파인튜닝까지⭐ 25

GFT는 SFT를 희소 보상의 정책경사 관점에서 재해석하고 Group Advantage Learning과 Dynamic Coefficient Rectification으로 단일 경로 의존·엔트로피 붕괴·그래디언트 폭주를 줄여 SFT와 RL을 하나의 후학습 틀로 통합합니다.

ShadowPEFT: Shadow Network for Parameter-Efficient Fine-TuningShadowPEFT: 파라미터 효율 파인튜닝을 위한 그림자 네트워크⭐ 11

ShadowPEFT는 각 층에 독립 저랭크 보정을 넣는 대신 깊이 공유형 shadow module로 층 수준 정제를 수행해, 백본과 분리된 재사용 가능 적응 경로를 제공하는 새로운 중앙집중형 PEFT 설계를 제안합니다.

📄Multimodal & Generative4

Extending One-Step Image Generation from Class Labels to Text via Discriminative Text Representation판별적 텍스트 표현으로 클래스 기반 원스텝 이미지 생성을 텍스트 조건으로 확장하기⭐ 85

이 연구는 MeanFlow식 원스텝 생성에 LLM 텍스트 인코더를 그대로 붙이면 실패하는 이유를 분석하고, 판별적 텍스트 표현을 통해 클래스 조건을 텍스트 조건으로 확장해 한 번의 생성만으로도 더 풍부한 텍스트-이미지 생성이 가능함을 보였습니다.

CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-GenerationCoInteract: 공간 구조화 공동 생성으로 물리 일관성을 높인 인간-객체 상호작용 비디오 합성⭐ 33

CoInteract는 Human-Aware MoE와 Spatially-Structured Co-Generation을 DiT에 넣어 손·얼굴 안정성과 접촉 물리성을 함께 개선함으로써, 사람·상품 이미지와 텍스트·음성을 조건으로 더 자연스러운 HOI 영상을 합성합니다.

VoxMind: An End-to-End Agentic Spoken Dialogue SystemVoxMind: 엔드투엔드 에이전트형 음성 대화 시스템⭐ 21

VoxMind는 470시간 AgentChat 데이터와 Think-before-Speak 메커니즘, 대규모 도구 통합 지연을 줄이는 구조를 결합해 음성 대화 모델에 계획·추론·도구 사용 능력을 종단간으로 부여했습니다.

👁️Computer Vision2

AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion ModelAnyRecon: 비디오 디퓨전 모델로 구현한 임의 시점 3D 재구성⭐ 71

AnyRecon은 임의 순서의 희소 입력 뷰를 전역 장면 메모리와 기하 인지 조건화로 통합해, 대규모 장면에서도 명시적 기하 제어를 유지하면서 더 일관된 신규 시점 생성과 3D 재구성을 가능하게 합니다.

MARCO: Navigating the Unseen Space of Semantic CorrespondenceMARCO: 보지 못한 공간까지 확장하는 시맨틱 대응 학습⭐ 25

MARCO는 coarse-to-fine 목적함수와 self-distillation으로 희소 키포인트를 조밀한 대응으로 확장해 SPair-71k, AP-10K, PF-PASCAL에서 SOTA를 달성했고, 특히 미세 위치 정밀도 PCK@0.01에서 8.9포인트 향상했습니다.

📄Robotics & RL2

MultiWorld: Scalable Multi-Agent Multi-View Video World ModelsMultiWorld: 확장 가능한 다중 에이전트·다중 시점 비디오 월드 모델⭐ 62

MultiWorld는 Multi-Agent Condition Module과 Global State Encoder로 여러 에이전트 제어와 다중 시점 일관성을 동시에 달성하며, 게임과 다중 로봇 조작 환경에서 병렬 시점 생성까지 지원하는 확장형 비디오 월드 모델입니다.

EasyVideoR1: Easier RL for Video UnderstandingEasyVideoR1: 비디오 이해를 위한 더 쉬운 강화학습 프레임워크⭐ 48

EasyVideoR1은 비디오 디코딩·전처리 병목과 민감한 하이퍼파라미터 문제를 줄인 전용 RLVR 파이프라인으로, 대형 비전언어모델의 비디오 이해 강화학습을 더 효율적이고 재현 가능하게 만듭니다.

🗣️Language Models1

Target-Oriented Pretraining Data Selection via Neuron-Activated Graph뉴런 활성 그래프로 수행하는 목표 지향 사전학습 데이터 선택⭐ 6

NAG-based Ranking은 타깃 입력을 고영향 뉴런의 희소 그래프로 표현해 사전학습 데이터를 훈련 없이 선별하며, 6개 벤치마크에서 랜덤 샘플링 대비 평균 4.9% 향상, HellaSwag에서는 기존 방법 대비 5.3% 정확도 향상을 기록했습니다.