오늘의 한줄

오늘은 생성모델 후학습과 평가 체계, 그리고 데이터·연산 제약 아래서의 효율적 학습 설계가 특히 두드러졌습니다. 벤치마크와 스케일링 법칙, 모듈형 아키텍처까지 실전 적용을 겨냥한 연구들이 많아졌다는 점이 인상적입니다.

📄Multimodal & Generative11

MARBLE은 가중합 보상의 샘플 단위 불일치를 짚고 다중 보상을 공동 학습하는 디퓨전 RL 정렬 기법을 제안해, 수작업 단계 스케줄 없이도 인간 선호의 여러 평가 축을 함께 최적화합니다.

CDM은 DMD를 연속시간 최적화로 확장해 동적 길이 스케줄과 전역 경로 정규화를 도입함으로써, GAN·보상모델 없이도 few-step 디퓨전 증류의 아티팩트와 과도한 평활화를 줄입니다.

이 서베이는 대규모 파운데이션 모델 관점에서 오디오-비주얼 지능을 처음으로 체계화하며, 이해·생성·추론 전반의 분절된 연구 지형과 평가 기준을 하나의 분류 체계로 정리했습니다.

SimpleAudit는 라벨 없는 환경에서 LLM 안전성을 비교 평가하는 감사 프레임워크를 제시하며, 노르웨이어 안전성 팩에서 AUROC 0.89~1.00과 타깃 주도 분산 η²≈0.52로 도구적 타당성을 검증했습니다.

이 연구는 Qwen3-8B 내부 표현에서 개인부터 국가까지 사회적 역할의 세분성을 가르는 'Granularity Axis'를 정의했고, 해당 축이 역할 표현 분산의 52.6%를 설명하며 PC1과 코사인 0.972로 정렬됨을 보였습니다.

이 연구는 깊이가 충분한 트랜스포머와 bidirectional prefix mask 조건에서 Horn clause 암묵 추론이 명시적 CoT 수준에 근접할 수 있음을 보였지만, 깊이 외삽에는 여전히 CoT가 필요하다고 분석했습니다.

KernelBench-X는 15개 범주 176개 작업으로 LLM 기반 GPU 커널 생성을 분석해, 방법보다 작업 구조가 정답성에 더 큰 영향을 주고 반복 개선은 컴파일률을 52.3%→68.8% 높이지만 성능은 오히려 떨어질 수 있음을 보여줍니다.

A^2TGPO는 멀티턴 에이전트 LLM의 희소 결과 보상 문제를 해결하기 위해 정보 이득 기반 턴별 공로 할당과 적응형 턴 클리핑을 결합해, 외부 과정 보상모델 없이도 더 안정적인 RL 학습을 가능하게 합니다.

이 연구는 전문가 에이전트들이 가설·코드 수정·실험 결과를 계보 형태로 공유하는 자동 연구 루프를 구축해, 사람 개입 없이 1,197회 실험에서 실패 신호까지 다음 레시피 개선에 활용하는 모습을 보여줍니다.

UniPool은 레이어별 전문가 소유 구조를 전역 공유 풀로 바꿔 깊이 증가에 따른 전문가 파라미터 선형 증가를 줄이고, pool-level 균형 손실과 NormRouter로 안정적 희소 라우팅을 구현합니다.

이 논문은 반복 학습에 따른 과적합 패널티를 더한 새 스케일링 법칙으로 데이터 부족 구간의 최적 모델·토큰 배분을 제시하며, 일정 지점 이후 반복보다 모델 용량 확대가 낫고 강한 weight decay(λ=1.0)가 과적합 계수를 약 2배 줄인다고 보고합니다.

Balanced Aggregation은 GRPO에서 token 집계의 부호-길이 결합과 sequence 집계의 장문 저가중 문제를 동시에 교정하는 드롭인 대체 규칙으로, 수학·코드 RLVR 학습의 편향을 더 균형 있게 줄입니다.