오늘의 한줄
오늘은 AI 에이전트의 성능 평가 방식이 얼마나 쉽게 흔들릴 수 있는지, 그리고 그 와중에도 모델·인프라·보안 경쟁이 얼마나 빠르게 고도화되는지가 동시에 드러난 날이었습니다. 생성형 AI의 활용 범위는 3D 시뮬레이션, 바이오, 커머스 운영까지 넓어졌지만, 실제 서비스에선 검증·보안·인프라 설계가 더 중요해지고 있습니다.
🤖Artificial Intelligence11
AI 에이전트 벤치마크, 이렇게 뚫렸다
주요 AI 에이전트 벤치마크 8종이 실제 문제 해결 능력과 무관하게 높은 점수를 얻을 수 있는 구조적 취약점을 안고 있다는 점이 드러났습니다. 연구팀은 자동 스캐닝 에이전트로 SWE-bench, WebArena, OSWorld, GAIA 등의 점수 계산 로직을 악용해 100%에 가까운 점수를 만들 수 있음을 보였고, 이는 현재의 에이전트 평가 체계가 생각보다 쉽게 게임될 수 있음을 의미합니다. 한국의 AI 제품팀과 연구조직에도 중요한 메시지는 분명합니다. 데모 성능이나 리더보드 숫자보다, 실제 업무 환경에서의 재현성과 검증 가능한 평가 설계가 더 중요해졌다는 점입니다.
Opus로 Sonnet 성능 끌어올리는 어드바이저 전략
Anthropic의 Claude Platform에 '어드바이저 전략'이 공식 도입됐습니다. Opus를 조언자(advisor), Sonnet이나 Haiku를 실행자(executor)로 조합해 비용은 낮추면서도 Opus에 가까운 추론 성능을 노리는 방식으로, Sonnet 단독보다 SWE-bench 등에서 더 나은 결과를 보인다고 설명합니다. 이 패턴은 국내 기업에도 실용적입니다. 가장 비싼 모델을 항상 직접 쓰기보다, 고성능 모델은 계획과 검토에만 쓰고 저렴한 모델은 실행에 투입하는 식으로 비용 대비 성능을 최적화할 수 있기 때문입니다.
유전자 편집, 베타 지중해빈혈에도 효과 확인
새로운 유전자 편집 접근법이 태아형 헤모글로빈 유전자를 다시 활성화해 β-지중해빈혈 치료에 효과를 보였다는 임상 결과가 나왔습니다. 겸상적혈구병에 이어 또 다른 혈액질환에서도 유전자 편집의 치료 가능성이 확인되면서, 정밀의료와 바이오 연산 분야의 기대감이 커지고 있습니다. AI 뉴스 사이에 바이오가 섞여 보일 수 있지만, 실제로는 데이터 해석·신약 탐색·임상 설계까지 계산 기술의 영향력이 커지는 흐름과 맞닿아 있습니다.
구글 Gemini, 질문에 3D 모델과 시뮬레이션으로 답한다
구글이 Gemini를 업그레이드해, 질문에 텍스트 대신 상호작용 가능한 3D 모델과 시뮬레이션으로 답할 수 있게 했습니다. 예를 들어 달의 지구 공전을 묻자 회전 가능한 3D 모델과 함께 공전 속도 조절 슬라이더, 궤도선 표시 토글, 일시정지 버튼 같은 인터랙션이 제공됐습니다. 이는 AI가 '설명하는 도구'를 넘어 '직접 보여주는 인터페이스'로 진화하고 있다는 의미입니다. 교육, 제조, 설계, 과학 커뮤니케이션 분야에선 특히 큰 파급력이 예상됩니다.
불소그래판으로 구현한 원자 규모 메모리, 447TB/cm² 밀도 제시
연구진이 불소그래판 단일층의 공유결합 방향성을 이용해 원자 단위 비트 저장이 가능한 비휘발성 메모리 구조를 제안했습니다. C–F 결합 반전 장벽이 4.6~4.8eV로 계산돼 자발적 비트 손실 가능성을 사실상 제거했고, 저장 밀도는 447TB/cm² 수준으로 제시됐습니다. 아직 상용화까지는 거리가 있지만, AI 시대의 병목이 연산보다 메모리와 전력 효율로 옮겨가는 상황에서 이런 연구는 장기적으로 차세대 반도체 설계의 방향성을 보여줍니다.
알리바바 새 영상 생성 AI, 글로벌 랭킹 1위
알리바바의 새 영상 생성 모델 'HappyHorse 1.0'이 공개 직후 글로벌 AI 모델 성능 랭킹 선두에 올랐습니다. 텍스트·이미지 생성에 이어 영상 생성까지 중국 빅테크가 최상위권 경쟁에 본격적으로 진입했다는 점에서 의미가 큽니다. 한국의 콘텐츠, 광고, 커머스 업계에선 비용과 품질이 빠르게 개선될 가능성을 주목할 만합니다. 동시에 글로벌 생성형 미디어 경쟁이 더 치열해지면서 국내 서비스의 차별화 포인트도 더 분명히 요구받게 됐습니다.
Meta AI의 자기개선 에이전트 프레임워크, HyperAgents
HyperAgents는 태스크 수행 에이전트와 이를 개선하는 메타 에이전트를 분리해, 시스템이 자기 자신의 학습·문제 해결 방식을 계속 다듬도록 설계한 프레임워크입니다. 고정된 메타 메커니즘에 의존하던 기존 재귀적 자기개선 방식의 한계를 넘어서려는 시도로, 인간 엔지니어링 개입을 줄이는 것이 목표입니다. 이 흐름은 단순히 '더 똑똑한 모델'이 아니라 '스스로 운영 방식을 최적화하는 시스템'으로 AI가 진화하고 있음을 보여줍니다. 실무에선 에이전트 오케스트레이션과 품질 통제 기술이 더 중요해질 가능성이 큽니다.
메타의 새 헬스 AI, 민감한 건강 데이터를 요구하고도 엉터리 조언을 했다
Wired는 Meta의 Muse Spark 모델이 검사 결과 같은 원시 건강 데이터를 요구하면서도, 실제로는 의사 역할을 대체할 수준의 조언을 제공하지 못했다고 지적했습니다. 개인정보 민감도가 매우 높은 헬스케어 영역에서, 모델 성능과 안전장치가 충분치 않은 상태로 사용자 데이터를 수집하는 위험이 드러난 셈입니다. 국내 헬스테크 업계에도 시사점이 큽니다. 의료 AI는 '가능해 보이는 UX'보다 데이터 거버넌스, 책임 범위, 임상적 신뢰성이 먼저 확보돼야 합니다.
27년간 놓친 취약점을 AI가 찾아냈다… 보안팀의 탐지 방식이 바뀌어야 한다
Anthropic의 Claude Mythos Preview가 27년 동안 인간 리뷰와 퍼저를 통과해온 OpenBSD TCP 스택 버그를 자율적으로 찾아냈고, 해당 발견 캠페인 비용은 약 2만 달러, 실제 취약점 발견에 쓰인 특정 모델 실행 비용은 50달러 미만이었다고 합니다. 성능도 인상적입니다. Firefox 147 익스플로잇 작성에서 Mythos는 181회 성공해 Claude Opus 4.6의 2회를 크게 앞질렀고, SWE-bench Pro는 77.8% 대 53.4%, CyberGym 취약점 재현은 83.1% 대 66.6%를 기록했습니다. 이는 보안팀이 더 이상 인간 리뷰와 정적 도구만으로는 충분하지 않다는 뜻입니다. 앞으로는 AI 기반 탐지·공격 시뮬레이션을 전제로 한 새로운 방어 플레이북이 필요해집니다.
Managed Agents를 확장하는 법: 두뇌와 손의 분리
장기 실행 에이전트를 위한 Managed Agents는 모델이 바뀌어도 안정적으로 유지되는 인터페이스 중심 아키텍처를 채택하고, 계획·추론을 담당하는 '두뇌'와 실제 작업을 수행하는 '손'을 분리하는 방향으로 확장되고 있습니다. 하네스는 Claude가 혼자 수행하지 못하는 작업을 보완하지만, 모델이 발전할수록 이 가정은 빠르게 낡기 때문에 구조적 분리가 중요하다는 설명입니다. 에이전트 서비스를 운영하는 팀이라면 특히 주목할 만합니다. 모델 교체 속도가 빠른 시대에는 프롬프트보다 시스템 경계 설계가 경쟁력이 됩니다.
백악관, 강력한 AI 도구의 위협 선제 대응에 속도
미국 백악관이 국가사이버국장 Sean Cairncross가 이끄는 그룹을 중심으로, Anthropic과 OpenAI 같은 기업의 차세대 모델이 공개되기 전에 보안 취약점을 미리 파악하는 작업에 속도를 내고 있습니다. 생성형 AI가 단순한 산업 이슈를 넘어 국가 안보와 규제의 핵심 의제로 이동했음을 보여주는 장면입니다. 국내 기업에도 영향이 있습니다. 앞으로는 모델 성능 못지않게 사전 위험평가, 레드팀 테스트, 정부와의 협력 체계가 글로벌 사업의 필수 조건이 될 가능성이 큽니다.
🏢Big Tech1
코어위브와 앤트로픽, AI 클라우드 계약 체결
CoreWeave와 Anthropic이 새로운 파트너십을 맺고, CoreWeave의 클라우드 인프라에서 Claude 모델 운영을 지원하기로 했습니다. AI 모델 경쟁이 이제는 모델 자체뿐 아니라, 누가 더 안정적으로 GPU·네트워크·서빙 인프라를 확보하느냐의 싸움으로 옮겨가고 있다는 점을 보여주는 사례입니다. 한국 기업 입장에서도 의미가 큽니다. 대형 모델을 서비스하려면 단순한 API 사용을 넘어, 특정 클라우드·가속기 사업자와의 전략적 결합이 점점 더 중요해지고 있습니다.
🛠️Developer Tools4
앱 취약점을 직접 찾고 고치는 오픈소스 AI 해커, strix
strix는 자율형 AI 에이전트 방식으로 코드를 직접 실행하고, 취약점을 찾은 뒤 PoC까지 만들어 실제 악용 가능성을 검증하는 오픈소스 보안 도구입니다. CI/CD 파이프라인과 GitHub Actions에 통합할 수 있어 PR마다 자동으로 보안 스캔을 돌리고, 발견 즉시 수정 워크플로까지 연결할 수 있습니다. 보안 인력이 부족한 팀일수록 이런 도구의 가치가 큽니다. 한국의 스타트업과 플랫폼 팀에도 '출시 전 점검'이 아니라 '개발 과정에 녹아든 보안'이 기본값이 되고 있다는 신호입니다.
Claude Code·Codex로 쇼피파이 스토어 관리하는 AI 툴킷
Shopify AI Toolkit은 AI 에이전트가 Shopify 문서, API 스키마, 코드 검증 기능을 활용해 쇼핑몰 구축과 운영을 자동화할 수 있게 해줍니다. '상품 전체에 15% 할인 적용', 'SEO 최적화 진행' 같은 작업을 자연어로 지시할 수 있고, 권장 방식은 플러그인 설치입니다. 커머스 운영이 점점 '백오피스 UI 클릭'에서 '에이전트 지시'로 이동하고 있다는 점이 핵심입니다. 국내 이커머스 SaaS와 리테일테크 업계도 비슷한 방향으로 빠르게 따라갈 가능성이 큽니다.
커널 없이 시작하는 사용자 공간 USB 드라이버 입문
USB 드라이버 개발이 꼭 커널 레벨 작업일 필요는 없고, libusb를 활용하면 사용자 공간에서도 장치 열거, 제어 전송, 데이터 송수신을 구현할 수 있다는 실용적인 입문 글입니다. 소켓 프로그래밍과 비슷한 난이도로 접근할 수 있어, 하드웨어 프로토타이핑이나 장치 제어 툴 개발의 진입장벽을 낮춰줍니다. 임베디드·디바이스 스타트업이 많은 한국 개발 생태계에서도 유용합니다. 드라이버를 무겁게 시작하기보다, 사용자 공간에서 빠르게 검증하는 방식이 더 매력적일 수 있습니다.
실제 쇼핑몰을 SQLite로 운영해보니 배운 점들
AI 에이전트가 상품 디자인, 주문 처리, 블로그 작성까지 맡는 쇼핑몰 ultrathink.art를 실제 Stripe 결제까지 포함한 프로덕션 환경에서 SQLite로 운영한 경험담입니다. 구성은 파일 4개, 볼륨 1개처럼 단순하지만, 그만큼 운영 복잡도와 비용을 크게 줄일 수 있었다는 점이 핵심입니다. 많은 팀이 초기에 과도한 분산 시스템을 도입하는데, 이 사례는 작고 빠른 서비스라면 SQLite 같은 단순한 선택이 오히려 더 현실적일 수 있음을 보여줍니다.
🇰🇷Korea Tech1
SKT, Arm·리벨리온과 손잡고 CPU+NPU AI 서버 만든다
SK텔레콤이 Arm, 리벨리온과 전략적 MOU를 맺고 Arm의 'Arm AGI CPU'와 리벨리온의 추론 특화 NPU '리벨카드'를 결합한 AI 서버를 공동 개발합니다. CPU가 데이터 흐름과 시스템 운영을 맡고 NPU가 추론 연산을 전담하는 이종 컴퓨팅 구조로, 성능과 전력 효율을 동시에 높이겠다는 전략이며 리벨카드는 올해 3분기 출시 예정입니다. 국내 AI 인프라 생태계에선 매우 중요한 움직임입니다. 한국도 GPU 일변도에서 벗어나, 추론 최적화 중심의 서버 아키텍처와 국산 반도체 조합을 본격 실험하는 단계로 들어가고 있습니다.