오늘의 한줄

오늘은 장기 문맥과 경험을 축적하는 자기진화형 에이전트, 비디오·3D·확산 모델의 효율 개선, 그리고 추론·학습 비용을 줄이는 최적화 연구가 두드러졌습니다. 특히 벤치마크와 자동 환경 생성까지 함께 제안하는 작업이 많아져, 모델 성능뿐 아니라 평가·운영 인프라의 중요성도 커지고 있음을 보여줍니다.

💻Code & Agents6

GenericAgent: 문맥 정보 밀도 극대화로 토큰 효율을 높인 자기진화형 LLM 에이전트5,358

GenericAgent는 최소 원자 도구, 계층형 온디맨드 메모리, SOP·코드로의 자기진화, 문맥 절단 전략을 결합해 제한된 컨텍스트 안에 의사결정 정보를 더 촘촘히 유지하는 장기 작업용 LLM 에이전트를 제안합니다.

EvoMaster: 대규모 자기진화형 자율 과학 에이전트를 위한 기반 프레임워크119

EvoMaster는 가설 수정, 자기비판, 지식 축적을 실험 주기마다 반복하는 자기진화형 과학 에이전트 프레임워크로, 약 100줄 코드로 다양한 도메인에 확장 가능한 Agentic Science 기반을 제공합니다.

AccelOpt: AI 가속기 커널 최적화를 위한 자기개선형 LLM 에이전트 시스템34

AccelOpt는 느린-빠른 커널 쌍에서 축적한 최적화 메모리로 Trainium 커널을 자율 개선해 NKIBench에서 평균 peak throughput을 T1 49%→61%, T2 45%→59%로 높였고 Claude Sonnet 4 수준을 26배 저렴하게 달성했습니다.

📄Multimodal & Generative7

확산 확률 모델의 SNR-t 편향을 밝히다69

이 논문은 추론 시 샘플의 SNR과 타임스텝이 어긋나는 SNR-t 편향을 규명하고, 주파수별 차등 보정을 통해 오류 누적을 줄여 확산 모델의 생성 품질을 간단하게 개선합니다.

판별적 텍스트 표현으로 원스텝 이미지 생성을 클래스에서 텍스트로 확장하기85

이 연구는 MeanFlow의 원스텝 생성기를 텍스트 조건으로 확장하면서, LLM 기반 텍스트 인코더가 한 번의 정제 단계에서도 잘 작동하도록 판별적 텍스트 표현 학습을 도입해 텍스트-이미지 생성 성능을 끌어올립니다.

PersonaVLM: 장기 개인화 멀티모달 LLM48

PersonaVLM은 멀티모달 상호작용에서 기억 추출·요약, 메모리 기반 다중 턴 추론, 시간에 따라 변하는 성향 정렬을 결합해 정적인 개인화를 넘어서는 장기 맞춤형 MLLM 비서를 구현합니다.

📄Robotics & RL3

RoboLab: 범용 작업 정책 분석을 위한 고충실도 시뮬레이션 벤치마크72

RoboLab은 광현실·물리 기반 시뮬레이션에서 인간·LLM이 장면과 과제를 생성할 수 있게 하고, 120개 벤치마크로 실제 정책의 일반화와 외란 민감도를 더 엄밀하게 분석하게 해줍니다.

EasyVideoR1: 비디오 이해를 위한 더 쉬운 강화학습48

EasyVideoR1은 비디오 디코딩·전처리 비용과 재현성 문제를 줄이도록 설계된 대규모 비전언어모델용 비디오 RL 프레임워크로, RLVR를 비디오 이해 과제까지 실용적으로 확장합니다.

ClawEnvKit: 집게형 에이전트를 위한 자동 환경 생성8

ClawEnvKit은 자연어 설명에서 파라미터 추출, 과제·도구·채점 생성, 검증까지 자동화해 24개 카테고리 1,040개 환경의 Auto-ClawEval을 구축했으며, 수작업 환경과 맞먹거나 그 이상인 품질을 달성했습니다.

👁️Computer Vision2

NTIRE 2026 비디오 시선집중 예측 챌린지: 방법과 결과15

이 논문은 2,000개 비디오와 5,000명 이상 평가자의 시선 데이터로 구성된 대규모 공개 데이터셋과 20개 이상 팀이 참여한 NTIRE 2026 비디오 살리언시 챌린지 결과를 정리해 향후 비교 기준을 제공합니다.

MARCO: 보지 못한 의미 대응 공간을 탐색하다25

MARCO는 coarse-to-fine 목적함수와 self-distillation으로 희소 키포인트를 조밀한 대응으로 확장해 SPair-71k, AP-10K, PF-PASCAL에서 SOTA를 기록했고 특히 미세 정합 임계값에서 PCK@0.01을 8.9 향상했습니다.

📄Training & Optimization1

GFT: 편향 없는 그룹 어드밴티지와 동적 계수 보정으로 모방학습에서 보상 파인튜닝으로25

GFT는 SFT를 희소 보상의 정책경사 관점으로 재해석하고 Group Advantage Learning과 Dynamic Coefficient Rectification으로 보상 희소성·가중치 불안정을 완화해 지식 주입과 일반화를 함께 노립니다.

🗣️Language Models1

손실을 줄이자: 효율적 병렬 추론을 위한 조기 경로 가지치기 학습7

STOP은 병렬 추론의 실패 경로를 초반 접두사 단계에서 잘라내는 learnable internal pruning 기법으로, 고정 연산량에서 GPT-OSS-20B의 AIME25 정확도를 84%에서 거의 90%까지 끌어올렸습니다.

매일 아침, 받은편지함에서 만나보세요

새로운 뉴스레터가 발행될 때마다 이메일로 받아볼 수 있습니다.

받아볼 뉴스레터 선택