오늘의 한줄

오늘은 멀티모달 모델의 이해·생성 통합, 장기 과제를 다루는 에이전트의 데이터·제어 설계, 그리고 RL/증류 효율을 높이는 학습 기법이 특히 눈에 띕니다. 벤치마크와 데이터셋 논문도 많아, 성능 경쟁이 이제는 평가 축의 정교화로 확장되고 있음을 보여줍니다.

🗣️Language Models1

Tadabur는 600명 이상 낭송자와 1400시간 이상 음성을 포함해 낭송 스타일·화자·녹음 환경 다양성을 크게 넓힌 꾸란 음성 데이터셋으로, 표준화된 꾸란 음성 벤치마크 구축의 기반을 제공합니다.

LLaTiSA는 4단계 추론 체계와 8.3만 샘플 HiTSR 데이터셋, 시각 패턴+정밀 수치표 결합 및 커리큘럼 파인튜닝으로 시계열 추론과 OOD 일반화를 함께 끌어올린 TSRM입니다.

LLaDA2.0-Uni는 SigLIP-VQ, MoE 기반 dLLM, 디퓨전 디코더를 결합해 멀티모달 이해와 이미지 생성·편집을 하나의 프레임워크로 통합하고, 인터리브드 생성·추론까지 지원합니다.

GSI-Bench는 실제·합성 데이터와 자동 평가 프로토콜로 이미지 편집 과정의 3D 공간 제약 준수 능력을 측정하는 첫 생성형 공간 지능 벤치마크이며, GSI-Syn 파인튜닝의 개선 효과도 보여줍니다.

Vista4D는 정적 픽셀 분리와 4D 재구성으로 장면을 4D 포인트클라우드에 고정해, 실제 동적 영상에서도 더 나은 카메라 제어·4D 일관성·시각 품질의 새 시점 비디오를 합성합니다.

StyleID는 사람의 동일인 판단을 반영한 StyleBench-H/S와 평가 프레임워크를 제안해, 사진 중심 얼굴 인식기가 스타일화에서 무너지는 문제를 정량화하고 스타일 불변 정체성 보존 학습의 기준을 제공합니다.

UniGenDet는 생성과 탐지를 분리하지 않고 공생적 멀티모달 self-attention과 통합 파인튜닝으로 함께 학습해, 생성 품질과 생성물 판별 해석 가능성을 동시에 끌어올립니다.

DR-Venus는 4B 소형 연구 에이전트를 위해 에이전트형 SFT와 정보 이득 기반 turn-level 보상을 쓰는 RL을 결합해, 1만 개 공개 데이터만으로도 장기 딥리서치 실행 신뢰성을 높였습니다.

OpenMobile은 환경 메모리 기반 작업 합성과 learner-expert 정책 전환 롤아웃으로 오류 복구 데이터를 포함한 고품질 모바일 에이전트 데이터를 만들고, AndroidWorld급 벤치마크에서 경쟁력 있는 성능을 보였습니다.

TACO는 상호작용 궤적에서 압축 규칙을 스스로 발견·개선해 터미널 관찰 문맥의 중복을 줄이고, TerminalBench와 SWE-Bench Lite 등에서 토큰 비용과 장기 작업 성능을 함께 개선합니다.

DeVI는 텍스트 조건 합성 비디오를 3D 인간 추적과 강건한 2D 물체 추적을 결합한 하이브리드 보상으로 해석해, 고품질 3D 시연 없이도 새로운 물체에 대한 물리적으로 그럴듯한 정교 조작을 학습합니다.

UniT는 시각 앵커링 기반 삼중 분기 교차 재구성으로 embodiment-agnostic 잠재 액션 토큰을 학습해, 인간 데이터에서 휴머노이드 정책과 월드모델을 함께 확장할 수 있는 통합 물리 언어를 제안합니다.

NPO는 현재 정책보다 강하지만 외부 교사보다 가까운 같은 학습 런의 '미래 체크포인트' 궤적을 오프폴리시 보조 신호로 활용해, RLVR의 수렴 속도와 최종 성능 상한을 함께 끌어올립니다.

이 서베이는 RLHF 시대의 verbosity bias, 아첨, 평가자 조작 등을 Proxy Compression Hypothesis로 묶어 설명하며, 대형 모델 정렬에서 보상 설계와 감독 메커니즘의 취약성을 체계화했습니다.

HPD는 토큰 수준 재가중 로그우도 관점에서 KD를 통합 해석하고 forward/reverse KL과 근사 on-policy 샘플링을 결합해 수학 추론·대화·코드 전반에서 더 안정적이고 효율적인 LLM 증류를 달성합니다.

CoReDi는 고정된 시맨틱 특징 공간 대신 선형 프로젝션을 디퓨전과 함께 공동 학습하고 stop-gradient·정규화·정규화를 통해 붕괴를 막아, 생성 목적에 맞는 표현 공간으로 성능을 높입니다.