오늘의 한줄
오늘은 멀티모달 모델의 이해·생성 통합, 장기 과제를 다루는 에이전트의 데이터·제어 설계, 그리고 RL/증류 효율을 높이는 학습 기법이 특히 눈에 띕니다. 벤치마크와 데이터셋 논문도 많아, 성능 경쟁이 이제는 평가 축의 정교화로 확장되고 있음을 보여줍니다.
🗣️Language Models1
Tadabur: 대규모 꾸란 음성 데이터셋⭐ 136
Tadabur는 600명 이상 낭송자와 1400시간 이상 음성을 포함해 낭송 스타일·화자·녹음 환경 다양성을 크게 넓힌 꾸란 음성 데이터셋으로, 표준화된 꾸란 음성 벤치마크 구축의 기반을 제공합니다.
📄Multimodal & Generative5
LLaTiSA: 난이도 계층형 시계열 추론을 향해⭐ 70
LLaTiSA는 4단계 추론 체계와 8.3만 샘플 HiTSR 데이터셋, 시각 패턴+정밀 수치표 결합 및 커리큘럼 파인튜닝으로 시계열 추론과 OOD 일반화를 함께 끌어올린 TSRM입니다.
LLaDA2.0-Uni: 디퓨전 LLM으로 멀티모달 이해와 생성을 통합하다⭐ 50
LLaDA2.0-Uni는 SigLIP-VQ, MoE 기반 dLLM, 디퓨전 디코더를 결합해 멀티모달 이해와 이미지 생성·편집을 하나의 프레임워크로 통합하고, 인터리브드 생성·추론까지 지원합니다.
생성 관점에서 본 공간 지능 탐구⭐ 14
GSI-Bench는 실제·합성 데이터와 자동 평가 프로토콜로 이미지 편집 과정의 3D 공간 제약 준수 능력을 측정하는 첫 생성형 공간 지능 벤치마크이며, GSI-Syn 파인튜닝의 개선 효과도 보여줍니다.
👁️Computer Vision3
Vista4D: 4D 포인트클라우드 기반 비디오 리슈팅⭐ 48
Vista4D는 정적 픽셀 분리와 4D 재구성으로 장면을 4D 포인트클라우드에 고정해, 실제 동적 영상에서도 더 나은 카메라 제어·4D 일관성·시각 품질의 새 시점 비디오를 합성합니다.
StyleID: 스타일 변화에 강인한 얼굴 정체성 인식을 위한 지각 기반 데이터셋과 지표⭐ 16
StyleID는 사람의 동일인 판단을 반영한 StyleBench-H/S와 평가 프레임워크를 제안해, 사진 중심 얼굴 인식기가 스타일화에서 무너지는 문제를 정량화하고 스타일 불변 정체성 보존 학습의 기준을 제공합니다.
UniGenDet: 이미지 생성과 생성 이미지 탐지를 함께 진화시키는 통합 프레임워크⭐ 10
UniGenDet는 생성과 탐지를 분리하지 않고 공생적 멀티모달 self-attention과 통합 파인튜닝으로 함께 학습해, 생성 품질과 생성물 판별 해석 가능성을 동시에 끌어올립니다.
💻Code & Agents5
DR-Venus: 1만 개 공개 데이터만으로 만드는 엣지급 딥리서치 에이전트⭐ 26
DR-Venus는 4B 소형 연구 에이전트를 위해 에이전트형 SFT와 정보 이득 기반 turn-level 보상을 쓰는 RL을 결합해, 1만 개 공개 데이터만으로도 장기 딥리서치 실행 신뢰성을 높였습니다.
OpenMobile: 작업·궤적 합성으로 구축하는 오픈 모바일 에이전트⭐ 20
OpenMobile은 환경 메모리 기반 작업 합성과 learner-expert 정책 전환 롤아웃으로 오류 복구 데이터를 포함한 고품질 모바일 에이전트 데이터를 만들고, AndroidWorld급 벤치마크에서 경쟁력 있는 성능을 보였습니다.
관찰 문맥 압축으로 효율적인 터미널 에이전트를 만드는 자기진화 프레임워크⭐ 9
TACO는 상호작용 궤적에서 압축 규칙을 스스로 발견·개선해 터미널 관찰 문맥의 중복을 줄이고, TerminalBench와 SWE-Bench Lite 등에서 토큰 비용과 장기 작업 성능을 함께 개선합니다.
📄Robotics & RL3
DeVI: 합성 비디오 모방으로 구현한 물리 기반 정교 조작 상호작용⭐ 19
DeVI는 텍스트 조건 합성 비디오를 3D 인간 추적과 강건한 2D 물체 추적을 결합한 하이브리드 보상으로 해석해, 고품질 3D 시연 없이도 새로운 물체에 대한 물리적으로 그럴듯한 정교 조작을 학습합니다.
UniT: 인간-휴머노이드 정책 학습과 월드모델링을 위한 통합 물리 언어⭐ 30
UniT는 시각 앵커링 기반 삼중 분기 교차 재구성으로 embodiment-agnostic 잠재 액션 토큰을 학습해, 인간 데이터에서 휴머노이드 정책과 월드모델을 함께 확장할 수 있는 통합 물리 언어를 제안합니다.
근미래 정책 최적화
NPO는 현재 정책보다 강하지만 외부 교사보다 가까운 같은 학습 런의 '미래 체크포인트' 궤적을 오프폴리시 보조 신호로 활용해, RLVR의 수렴 속도와 최종 성능 상한을 함께 끌어올립니다.
📄Training & Optimization3
대형 모델 시대의 리워드 해킹: 메커니즘, 창발적 불정렬, 과제⭐ 17
이 서베이는 RLHF 시대의 verbosity bias, 아첨, 평가자 조작 등을 Proxy Compression Hypothesis로 묶어 설명하며, 대형 모델 정렬에서 보상 설계와 감독 메커니즘의 취약성을 체계화했습니다.
LLM을 위한 하이브리드 정책 증류⭐ 3
HPD는 토큰 수준 재가중 로그우도 관점에서 KD를 통합 해석하고 forward/reverse KL과 근사 on-policy 샘플링을 결합해 수학 추론·대화·코드 전반에서 더 안정적이고 효율적인 LLM 증류를 달성합니다.
공동 이미지-특징 디퓨전에서 함께 진화하는 표현⭐ 3
CoReDi는 고정된 시맨틱 특징 공간 대신 선형 프로젝션을 디퓨전과 함께 공동 학습하고 stop-gradient·정규화·정규화를 통해 붕괴를 막아, 생성 목적에 맞는 표현 공간으로 성능을 높입니다.