오늘의 한줄

오늘은 AI 에이전트가 소프트웨어와 하드웨어를 실제로 어떻게 바꾸고 있는지가 핵심입니다. 기업 소프트웨어의 인터페이스가 API 중심으로 재편되는 한편, 모델 성능 경쟁과 에이전트 보안 리스크도 더 현실적인 이슈로 떠오르고 있습니다.

🤖Artificial Intelligence2

AI 에이전트 스킬, 실제 환경에선 벤치마크의 절반도 못 미쳐

UC Santa Barbara, MIT CSAIL, MIT-IBM Watson AI Lab 연구팀은 오픈소스에서 수집한 3만4,198개의 스킬을 바탕으로 AI 에이전트의 실제 활용 능력을 평가했습니다. 그 결과, 벤치마크에서 높게 보이던 성능이 현실적인 작업 환경에서는 절반에도 못 미치는 경우가 많아, 스킬을 ‘안다’는 것과 실제로 ‘쓸 수 있다’는 것 사이에 큰 간극이 드러났습니다. 기업이 에이전트 도입을 검토할 때 데모나 리더보드보다 실제 워크플로 재현성과 실패율을 먼저 봐야 하는 이유를 잘 보여줍니다.

앤트로픽, 최고 성능 범용 공개 모델 ‘Claude Opus 4.7’ 출시

Anthropic은 새 플래그십 모델 Claude Opus 4.7을 공개하며, 에이전트형 코딩, 확장된 도구 사용, 컴퓨터 사용, 금융 분석 등 주요 벤치마크에서 OpenAI GPT-5.4와 Google Gemini 3.1 Pro를 근소하게 앞섰다고 밝혔습니다. 다만 격차는 매우 좁아 직접 비교 가능한 지표에서 Opus 4.7의 우위는 7 대 4 수준에 그쳤고, 더 강력한 후속 모델 ‘Mythos’는 기업 보안 테스트용으로 제한 공개 중입니다. 한국 기업에는 이제 모델 선택 기준이 ‘누가 1등인가’보다 보안 검증, 도구 사용 안정성, 실제 업무 적합성으로 이동하고 있음을 시사합니다.

🚀Startups1

피지컬 인텔리전스, 학습하지 않은 작업도 해결하는 새 로봇 브레인 공개

로보틱스 스타트업 Physical Intelligence는 새로운 모델 ‘π0.7’을 공개하며, 사전에 명시적으로 학습하지 않은 작업도 로봇이 스스로 파악해 수행할 수 있다고 밝혔습니다. 회사는 이를 범용 로봇 브레인을 향한 초기지만 의미 있는 진전으로 설명했습니다. 제조·물류·서비스 로봇에 관심 있는 국내 업계에는, 로봇 경쟁력이 하드웨어보다 범용 행동 모델과 일반화 성능으로 빠르게 이동하고 있다는 신호입니다.

🛠️Developer Tools5

세일즈포스, 전 플랫폼을 AI 에이전트 인프라로 바꾸는 ‘헤드리스 360’ 출시

세일즈포스는 TDX 개발자 콘퍼런스에서 27년 역사상 가장 큰 아키텍처 전환으로 ‘Headless 360’을 공개했습니다. 플랫폼의 거의 모든 기능을 API, MCP 툴, CLI 명령으로 노출하고 100개 이상의 새 툴과 스킬을 즉시 제공해, AI 에이전트가 브라우저 UI 없이 CRM과 워크플로를 직접 조작할 수 있게 했습니다. 한국 기업 입장에선 이제 SaaS 경쟁력이 화면 UX보다 에이전트 친화적인 인터페이스 설계와 시스템 연결성으로 이동하고 있다는 신호로 읽힙니다.

Android CLI, 어떤 AI 에이전트와도 연결해 앱 개발 속도 3배 향상

새로 공개된 Android CLI는 터미널 기반 인터페이스를 통해 Gemini, Claude Code, Codex, Antigravity 같은 다양한 AI 에이전트와 연결되며, Android 앱 개발 속도를 최대 3배 높이는 것을 목표로 합니다. 개발자는 Android Studio 밖에서도 빌드, 테스트, 코드 수정 같은 작업을 자동화할 수 있어 에이전트 중심 개발 흐름을 더 쉽게 구성할 수 있습니다. 모바일 팀에게는 IDE 중심 개발에서 벗어나 CLI와 에이전트를 조합한 자동화 파이프라인이 점점 표준이 되고 있다는 의미가 큽니다.

Thoughtworks 테크놀로지 레이더 34호 공개

Thoughtworks는 기술을 ‘도입 권장, 시험 사용, 평가, 주의’ 4단계로 나눠 정리한 Technology Radar 34호를 공개하며, 이번 호의 핵심 테마로 에이전트 시대의 기술 평가, 패턴 재검토, 에이전트 보안, 코딩 에이전트 하네스를 제시했습니다. 특히 AI 도입이 빨라질수록 기존 설계 원칙은 유지하되, 개발·보안·운영 방식은 새롭게 점검해야 한다는 메시지가 두드러집니다. 한국 조직에도 유행 기술을 좇기보다 에이전트 운영 기준과 안전장치를 함께 설계해야 한다는 실무적 기준점을 제공합니다.

클라우드플레어, 에이전트를 위한 양방향 이메일 플랫폼 공개 베타 출시

Cloudflare는 Email Sending과 Email Routing을 결합한 ‘Email Service’ 공개 베타를 내놓으며, 이메일을 에이전트와 애플리케이션의 핵심 인터페이스로 재정의하고 있습니다. 이제 개발자는 Cloudflare 환경 안에서 메일 수신, 처리, 응답까지 한 번에 구성할 수 있어, 에이전트가 이메일을 읽고 행동하는 자동화 흐름을 더 쉽게 만들 수 있습니다. 기업 입장에선 여전히 가장 널리 쓰이는 업무 채널인 이메일이 AI 자동화의 실행 레이어로 편입되고 있다는 점이 중요합니다.

pi-autoresearch, 카파시의 ‘AI 자율 실험’ 아이디어를 범용화한 오픈소스

pi-autoresearch는 ‘아이디어를 시도하고, 측정하고, 개선되면 유지하고 아니면 버린다’는 반복 실험 루프를 자동화하는 오픈소스 프로젝트입니다. Karpathy가 제안한 AI 자율 실험 개념을 더 범용적으로 확장해, 터미널 기반 코딩 에이전트가 가설 생성부터 평가와 개선까지 이어서 수행하도록 설계됐습니다. 연구개발 조직에는 AI를 단순 보조 도구가 아니라 실험 속도를 높이는 자동화 연구원처럼 활용할 가능성을 보여줍니다.

🇰🇷Korea Tech2

Codex, 삼성 스마트 TV 해킹 실험에서 완전한 공격 체인 수행

OpenAI와의 협력 실험에서 Codex는 삼성 스마트 TV의 펌웨어 소스와 장치 접근 권한을 활용해 취약점을 자동으로 찾고, 브라우저 권한에서 루트 권한까지 상승시키는 완전한 공격 체인을 수행했습니다. 단순 코드 생성 수준을 넘어 실제 기기에서 취약점 탐색, 악용, 권한 상승까지 이어졌다는 점이 핵심입니다. 국내 제조사와 보안팀에는 AI를 개발 생산성 도구로만 볼 게 아니라, 공격 자동화 역량을 가진 새로운 위협 모델로 봐야 한다는 경고입니다.

라이드플럭스, 국내 첫 자율주행 트럭 유상 화물운송 허가 획득

라이드플럭스는 국토교통부로부터 국내 최초로 도심 일반도로를 포함한 장거리 구간의 자율주행자동차 유상 화물운송 허가를 받았습니다. 이에 따라 서울 송파 동남권물류단지와 충북 진천 물류센터를 잇는 112km 구간에서 정기 상업 운송을 시작할 예정이며, 앞서 25톤 대형 로보트럭이 11톤 화물을 싣고 단 한 차례의 인간 개입 없이 주행을 마친 바 있습니다. 국내 자율주행 산업에는 기술 실증을 넘어 실제 매출이 발생하는 상용화 단계로 넘어갔다는 점에서 매우 상징적인 이정표입니다.