오늘의 한줄

오늘은 에이전트의 스킬을 학습 가능한 외부 상태로 다루는 연구, 멀티모달 생성 모델의 정렬·효율·평가를 재설계하는 연구, 그리고 추론 성능의 착시를 걷어내는 분석이 두드러졌습니다. 특히 후처리·보상·벤치마크 설계가 모델 성능 못지않게 중요해지고 있다는 흐름이 뚜렷합니다.

📄Multimodal & Generative8

See What I Mean: Aligning Vision and Language Representations for Video Fine-grained Object UnderstandingSee What I Mean: 비디오 세밀 객체 이해를 위한 비전-언어 표현 정렬⭐ 83

SWIM은 학습 시 마스크 감독으로 교차 주의를 정렬해 추론 시 마스크·포인트 없이도 텍스트만으로 지정 객체를 정확히 찾게 하며, 이를 위해 정밀 지시문 데이터셋 NL-Refer도 함께 제안했습니다.

Lens: Rethinking Training Efficiency for Foundational Text-to-Image ModelsLens: 파운데이션 텍스트-이미지 모델의 학습 효율 재고⭐ 113

Lens는 3.8B 규모로도 6B+급 모델과 맞먹거나 이를 넘는 성능을 내며, GPT-4.1 기반 평균 109단어의 고밀도 캡션 데이터와 다해상도 배치 설계로 Z-Image 대비 학습 연산을 19.3%만 사용했습니다.

RankE: End-to-End Post-Training for Discrete Text-to-Image Generation with Decoder Co-EvolutionRankE: 디코더 공진화를 통한 이산 텍스트-이미지 생성의 엔드투엔드 후학습⭐ 16

RankE는 정책만 미세조정할 때 생기는 latent covariate shift를 짚고, AR 정책과 VQ 디코더를 번갈아 함께 최적화해 보상 향상과 실제 이미지 품질 저하 사이의 괴리를 줄였습니다.

💡 멀티모달·생성 분야는 단순히 더 큰 모델을 만드는 대신 정렬 신호, 후학습, 디코더 구조, 평가 벤치마크를 함께 손보는 방향으로 빠르게 이동하고 있습니다. 특히 텍스트-이미지·비디오·오디오 전반에서 '학습 데이터와 보상 설계가 성능을 결정한다'는 메시지가 점점 더 강해집니다.

💻Code & Agents5

SkillOpt: Executive Strategy for Self-Evolving Agent SkillsSkillOpt: 자기 진화형 에이전트 스킬을 위한 실행 전략⭐ 72

SkillOpt는 고정된 에이전트 바깥의 단일 스킬 문서를 텍스트 공간에서 add/delete/replace 방식으로 최적화하고 검증 점수 개선 시에만 반영해, 6개 벤치마크와 7개 모델에서 안정적인 스킬 향상을 보였습니다.

SciAtlas: A Large-Scale Knowledge Graph for Automated Scientific ResearchSciAtlas: 자동화된 과학 연구를 위한 대규모 지식 그래프⭐ 44

SciAtlas는 26개 분야 4,300만 편 논문, 1억5,700만 엔티티, 30억 트리플을 통합한 학술 지식 그래프로, 키워드 검색을 넘어 에이전트의 과학 탐색과 위상적 추론을 위한 구조적 기반을 제공합니다.

PhotoFlow: Agentic 3D Virtual Photography MissionsPhotoFlow: 에이전트형 3D 가상 사진 촬영 미션⭐ 24

PhotoFlow는 Director-Reviewer-Reflector의 폐루프 카메라 탐색으로 3D 장면 이해와 미적 판단을 함께 다루며, 47개 Blender 장면과 141개 미션으로 구성된 VPhotoBench를 통해 가상 사진 에이전트를 체계적으로 평가합니다.

💡 에이전트 연구는 이제 프롬프트 엔지니어링을 넘어 스킬 자체를 최적화·평가·재사용하는 공학으로 진화하고 있습니다. 동시에 장기 과제에서는 어떤 경험을 스킬로 남기고 어느 실패 구간만 교정할지 선택적으로 다루는 능력이 핵심이 되고 있습니다.

📄Robotics & RL1

SCOPE: Simulating Cross-game Operations in Playable Environments for FPS World ModelsSCOPE: FPS 월드 모델을 위한 크로스게임 조작 시뮬레이션⭐ 26

SCOPE는 사전학습 비디오 디퓨전의 각 블록에 위치별 액션 반응 모듈을 삽입해 총기 주변의 국소 이벤트와 배경 동작을 분리 처리하며, 7개 게임 6.9만 클립의 CrossFPS 데이터셋도 함께 공개했습니다.

💡 월드 모델 쪽에서는 행동 신호를 장면 전체에 균일하게 주입하기보다, 실제 영향 범위를 구조적으로 분리해 모델링하는 접근이 중요해지고 있습니다. 게임처럼 고빈도 제어 환경에서도 데이터셋 설계와 공간적 조건화가 일반화 성능의 관건임을 보여줍니다.

🗣️Language Models2

Equilibrium Reasoners: Learning Attractors Enables Scalable ReasoningEquilibrium Reasoners: 어트랙터 학습으로 확장 가능한 추론⭐ 25

EqR는 올바른 해에 대응하는 안정적 고정점을 학습하는 잠재 동역학 관점으로 추론을 재해석하고, 반복 깊이와 다중 초기화 폭을 함께 늘려 외부 검증기 없이도 테스트타임 연산 확장을 가능하게 했습니다.

The Illusion of Reasoning: Exposing Evasive Data Contamination in LLMs via Zero-CoT Truncation추론의 환상: Zero-CoT 절단으로 드러내는 LLM의 은밀한 데이터 오염⭐ 1

Zero-CoT Probe는 CoT를 의도적으로 제거해 모델의 숨은 암기 지름길을 노출시키고, 원본과 패러프레이즈 벤치마크에서의 zero-CoT 성능 차이를 비교해 우회적 데이터 오염까지 탐지하는 블랙박스 기법을 제안합니다.

💡 LLM 연구는 추론을 더 오래 시키는 것뿐 아니라, 그 내부가 실제 문제 해결인지 암기인지 구분하는 방향으로 확장되고 있습니다. 즉 테스트타임 스케일링의 원리와 벤치마크 신뢰성 검증이 함께 가야 한다는 문제의식이 선명합니다.

👁️Computer Vision2

Good Token Hunting: A Hitchhiker's Guide to Token Selection for Visual Geometry TransformersGood Token Hunting: 비주얼 지오메트리 트랜스포머의 토큰 선택 가이드⭐ 7

이 연구는 다중 시점 3D 재구성용 트랜스포머에서 프레임 간 다양성 기반 선택과 프레임 내 중요 토큰 필터링을 결합해, 전역 어텐션 비용을 줄이면서도 장면 커버리지와 재구성 성능을 유지하는 일반 전략을 제시했습니다.

Next-Acceleration-Scale Prediction for Autoregressive MRI Reconstruction자기회귀 MRI 복원을 위한 다음 가속도 스케일 예측

이 연구는 MRI 복원을 이산 다중 스케일 잠재공간의 자기회귀 next-acceleration-scale 예측으로 바꿔 고가속 희소 측정에서도 더 선명한 해부 구조를 복원하고, privileged information distillation으로 후학습 가능성도 열었습니다.

💡 비전 분야에서는 계산량이 큰 3D·복원 문제를 이산화와 토큰 선택으로 재구성해 효율과 품질을 동시에 잡으려는 시도가 돋보입니다. 결국 중요한 정보만 남기고 표현 공간을 더 구조화하는 것이 다음 성능 향상의 열쇠로 보입니다.

📄Training & Optimization2

Rethinking Muon Beyond Pretraining: Spectral Failures and High-Pass Remedies for VLA and RLVR사전학습 이후 Muon 재고: 스펙트럼 실패와 VLA·RLVR용 하이패스 해법⭐ 3

이 연구는 Muon의 균일 스펙트럼 whitening이 VLA와 RLVR에서 저랭크·저신호 대 잡음 그래디언트를 불안정하게 만든다고 분석하고, Promotion+Suppression 기반 high-pass NS 반복을 쓰는 Pion을 대안으로 제안했습니다.

From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models보는 것에서 생각하는 것으로: 지각과 추론 분리가 VLM 후학습을 개선한다⭐ 4

이 연구는 VLM 성능 병목이 긴 추론보다 시각 지각에 있음을 보이고, 지각→시각 추론→텍스트 추론의 단계적 학습과 지각 단계의 RL이 혼합 학습보다 더 일관되게 성능을 끌어올린다고 보여줍니다.

💡 후학습과 최적화 연구는 '하나의 좋은 레시피'보다 단계 분리와 도메인별 스펙트럼 특성을 반영한 맞춤형 설계가 필요하다는 쪽으로 기울고 있습니다. 사전학습에서 통하던 방법이 멀티모달·RL 단계에서는 실패할 수 있다는 점을 정교하게 짚어낸 점이 인상적입니다.