AI가 보안·테스트·데이터 수집의 실행 주체로 이동
AI는 단순 보조 도구를 넘어 취약점 탐색, 패치 검증, E2E 테스트, 웹 데이터셋 생성처럼 실제 개발·운영 업무를 수행하는 에이전트로 확장되고 있다. 보안 자동화는 생산성을 크게 높이지만, 대규모 API 탐색과 공격 자동화 사례처럼 방어와 악용의 경계가 함께 커지고 있다.
근거 기사 5건 살펴보기
-
OpenAI DayBreak – GPT-5.5-Cyber
Hacker News
OpenAI는 Daybreak를 확대해 Codex Security 플러그인, GPT-5.5-Cyber, 파트너 프로그램, ‘Patch the Planet’ 이니셔티브로 취약점 발견보다 패치·검증·배포까지 자동화하는 방어 중심 보안 체계를 강화한다고 밝혔다. GPT-5.5-Cyber는 CyberGym 85.6% 등 기존 GPT-5.5보다 높은 보안 벤치마크 성능을 보였으며, 검증된 방어자와 파트너에게 제한적으로 제공된다.
-
구글을 AI로 해킹해서 7억원 벌기
긱뉴스(GeekNews)
보안 연구자가 AI로 구글 API를 자동 탐색·공격하게 해 3개월 만에 50만 달러(약 7억 원)의 버그 바운티를 벌었다. 6만 개 이상의 안드로이드 앱에서 수집한 API 키와 구글 API 명세서를 결합해 취약점을 대규모로 찾아낸 사례다.
-
에이전틱 테스팅 - E2E 테스트 스택에서 에이전트의 역할
긱뉴스(GeekNews)
Slack 엔지니어링팀은 에이전트 기반 E2E 테스트가 기존의 결정론적 테스트를 대체할 수 있는지 확인하기 위해 200건 이상의 에이전틱 워크플로를 실험했다. 기존 E2E 테스트가 고정된 UI 경로를 검증하는 방식이라면, 에이전트는 목표 중심으로 더 유연하게 동작해 테스트 스택에서 보완적 역할을 할 가능성을 보여준다.
-
bigset - 세상의 모든 데이터를 가지고 있다면?
긱뉴스(GeekNews)
bigset은 자연어 한 문장만으로 라이브 웹에서 구조화된 데이터셋을 만들고, 지정한 주기마다 자동 갱신해주는 오픈소스 도구다. 입력 문장에서 스키마를 추론해 웹 데이터를 수집·정리하며, 예를 들어 채용 중인 YC 기업 목록과 투자 단계·위치·공개 채용 수 같은 데이터를 자동으로 생성할 수 있다.
-
Will It Mythos?
Hacker News
저자는 Anthropic의 보안 취약점 탐지 모델 ‘Mythos’가 정말 독보적인지 확인하기 위해 Mythos가 발견했다고 공개된 실제 버그 9개로 벤치마크를 만들고 여러 LLM을 비교했다. 결과는 데이터가 적고 1회 실행 중심이라 확정적 증거는 아니지만, 대부분 모델이 예상보다 고전했으며 일부 저렴한 중국 모델(Qwen, DeepSeek, MiMo 등)과 Gemma가 상용 프런티어 모델과 경쟁력 있는 성과를 보였다.