오늘의 한줄

오늘은 멀티모달 생성 모델이 픽셀 공간, 3D 제약, 정교한 CoT 설계로 빠르게 고도화되는 흐름이 두드러졌습니다. 동시에 에이전트 연구는 벤치마크의 현실성 강화와 조직화·증류·재귀 협업 같은 시스템 설계로 무게중심이 이동하고 있습니다.

👁️Computer Vision3

사피엔스2406

Sapiens2는 0.4B~5B 규모의 인간 중심 고해상도 비전 트랜스포머로, 마스크드 복원과 자기증류 대조학습을 결합한 사전학습과 10억 장 고품질 인간 이미지 데이터로 밀집 예측부터 제로샷 설정까지 범용 성능을 끌어올렸습니다.

ReVSI: VLM 3D 추론의 정확한 평가를 위한 시각 공간 지능 벤치마크 재구성43

ReVSI는 기존 3D 공간 추론 벤치마크의 잘못된 QA와 입력-정답 불일치 문제를 재주석과 입력 가시성 기준으로 바로잡아, VLM의 실제 3D 추론 능력을 더 타당하게 측정하는 평가 프로토콜을 제안했습니다.

OmniShotCut: 샷-쿼리 트랜스포머를 이용한 총체적 관계 기반 샷 경계 검출10

OmniShotCut은 샷 경계 검출을 구조적 관계 예측으로 재정의하고, 정밀한 합성 전환 생성 파이프라인과 새 벤치마크를 함께 제시해 기존 SBD의 애매한 경계와 저품질 주석 문제를 개선했습니다.

📄Multimodal & Generative7

Step-Audio-R1.5 기술 보고서647

Step-Audio-R1.5는 오디오 추론에서 RLVR이 만드는 '검증 가능한 보상 함정'을 지적하며, 벤치마크 점수보다 실제 대화의 음향적 뉘앙스와 상호작용 자연스러움을 보존하는 오디오 지능 설계를 강조합니다.

Tuna-2: 픽셀 임베딩이 비전 인코더를 넘어서는 멀티모달 이해와 생성80

Tuna-2는 VAE나 별도 비전 인코더 없이 단순 패치 임베딩만으로 이해와 생성을 통합한 엔드투엔드 멀티모달 모델로, 픽셀 공간 학습만으로도 SOTA급 벤치마크 성능과 더 강한 스케일링 이해 성능을 보여줬습니다.

World-R1: 텍스트-비디오 생성을 위한 3D 제약 강화학습129

World-R1은 아키텍처 변경 없이 Flow-GRPO와 사전학습 3D·비전언어 모델 피드백으로 비디오 생성에 3D 구조 일관성을 주입해, 시각 품질을 유지하면서 기하학적 불일치를 줄였습니다.

💻Code & Agents7

스킬에서 인재로: 이질적 에이전트를 현실의 회사처럼 조직하기95

OneManCompany는 스킬·도구·실행 구성을 이식 가능한 Talent로 캡슐화하고 Talent Market과 조직 인터페이스로 동적 채용·재구성을 가능하게 해, 멀티에이전트를 세션 단위 협업이 아닌 지속 학습 조직으로 확장했습니다.

ClawMark: 다회차·다일·멀티모달 동료 에이전트를 위한 살아있는 세계 벤치마크83

ClawMark는 이메일·캘린더·파일시스템 등 상태가 계속 변하는 5개 서비스 위에서 100개 업무 과제를 1537개 결정적 체커로 평가해, 정적 텍스트 중심 벤치마크가 놓친 장기형 동료 에이전트 성능을 측정합니다.

MAIC-UI: 생성형 UI로 만드는 인터랙티브 코스웨어31

MAIC-UI는 교재·PPT·PDF에서 제로코드로 인터랙티브 STEM 코스웨어를 만드는 시스템으로, generate-verify-optimize 파이프라인과 Unified Diff 기반 증분 편집으로 수정 시간을 10초 이하로 줄였습니다.

📄Robotics & RL1

비전-언어-행동 안전성: 위협, 과제, 평가, 메커니즘47

이 서베이는 VLA 모델의 안전 문제를 학습 시점·추론 시점의 공격과 방어 축으로 정리하며, 물리적 비가역성·멀티모달 공격면·장기 궤적 오류 전파 같은 구현 핵심 리스크를 체계화했습니다.

🗣️Language Models1

데이터로 프로그래밍하기: 원시 코퍼스로부터 자기개선 LLM을 위한 테스트 주도 데이터 엔지니어링35

ProDa는 지식 추출 표현을 학습 데이터와 평가의 공통 기반으로 삼아 데이터 엔지니어링을 코드 작성·컴파일·유닛 테스트·디버깅에 대응시키고, 실패 원인을 개념 결손과 추론 사슬 오류로 분해해 데이터 수선을 가능하게 합니다.

📄Training & Optimization1

TCOD: 다회차 자율 에이전트를 위한 온폴리시 증류의 시간적 커리큘럼 탐색20

TCOD는 멀티턴 에이전트 OPD에서 발생하는 trajectory-level KL instability를 짧은 궤적부터 긴 궤적으로 확장하는 시간 커리큘럼으로 완화해, 더 안정적인 증류와 높은 성공률을 달성했습니다.

매일 아침, 받은편지함에서 만나보세요

새로운 뉴스레터가 발행될 때마다 이메일로 받아볼 수 있습니다.

받아볼 뉴스레터 선택

한줄테크 Papers - April 29, 2026 | 한줄테크