AI와 사이버 보안 환경

조아오 코레이아

2023년 3월 10일 - 기술 에반젤리스트

지난 몇 달 동안 새로운 AI 채팅 봇에 대한 수많은 기사가 게시되었으며, 해당 봇이 대중에게 공개된 이후 해당 시스템을 기반으로 한 흥미롭고 흥미로운 데모도 많이 진행되었습니다.

하지만 항상 "하지만"이라는 단서가 붙기 마련이지만, 봇의 인프라 자체와 봇이 사용될 수 있는 (ab)용도 모두에서 사이버 보안 관점에서 매우 우려스러운 몇 가지 고려 사항이 있습니다.

채팅 '봇' 또는 운이 좋은 도박꾼?

"봇"은 많은 의미를 내포하고 있는 용어입니다. 로봇에 대한 공상 과학적 사례와 여러 산업 분야에 실제로 배포된 로봇 시스템을 통해 얻은 경험을 종합해 볼 때, 봇은 최소한 예측 가능한 방식으로 자율적으로 반복적인 작업을 수행할 수 있을 것으로 '기대'합니다.

반면에 채팅 봇은 약간 다르게 작동합니다. 어느 날은 "다음 모비딕 영화 소개"라고 물어보고 한 가지 결과를 얻을 수 있지만, 다음 날 또는 2분 후에 같은 질문을 하면 완전히 다른 결과를 얻을 수 있습니다. 봇이 그렇게 행동할 것이라고 기대할 수는 없습니다.

왜 그럴까요? '채팅 봇'은 그 핵심이 미화된 기계 학습 언어 모델이라는 것이 밝혀졌습니다. 간단히 말해, '문법'과 같은 규칙을 식별하고 주어진 문맥에서 어떤 '단어'가 뒤따를지 '추측'하는 데 매우 능숙합니다. "문법", "추측", "단어"가 " " 사이에 있는 것을 분명히 눈치채셨을 것입니다. 이 용어는 텍스트에서와 마찬가지로 이미지 편집, 사운드 또는 동영상에서도 유사한 규칙이 적용되기 때문입니다. 현재 세대의 채팅 봇을 뒷받침하는 동일한 대화 모델은 텍스트 단락과 마찬가지로 프롬프트가 주어지면 이미지를 생성할 수 있습니다. 중요한 것은 규칙과 그 규칙에 가장 잘 맞는 다음 이미지를 추측하는 것입니다.

그렇다면 동일한 프롬프트에 대해 서로 다른 응답을 어떻게 설명할 수 있을까요? 글쎄요, 다음에 나올 내용을 '추측'하는 것은 확률을 살펴보고 주어진 프롬프트에 가장 적합한 것을 찾는 것입니다. 봇이 더 많은 데이터를 학습하거나 사람의 상호작용으로 인해 특정 응답의 가치가 다른 응답보다 낮아지거나 단순한 무작위 확률이 작용하는 등 시간이 지남에 따라 달라질 수 있으며, 실제로도 달라집니다. 카지노에서 게임을 해본 사람이라면 90%의 승률이 10%의 패배를 의미한다는 것을 알고 있습니다.

봇은 규칙 학습에 매우 능숙합니다.

게임 규칙

사이버 보안은 본질적으로 규칙 기반 게임입니다. 일련의 규칙을 따르는 시스템/소프트웨어/사람이 있고, 첫 번째 그룹의 규칙을 악용하여 이득을 취하려는 또 다른 시스템/소프트웨어/사람 그룹이 있습니다.

스팸 및 피싱 이메일을 예로 들어보겠습니다. 누구나 본 적 있고 누구나 수신하며 스팸 필터가 대부분의 스팸을 걸러내겠지만 이상한 이메일은 여전히 뚫고 들어옵니다. 스팸 필터는 이메일이 스팸이라는 명백한 징후를 찾아 일련의 규칙 그리고 통과하는 이메일은 이러한 규칙을 위반하거나 회피합니다. 스팸 필터에 차단할 이메일을 정의하는 명시적인 규칙이 있든, 휴리스틱에 기반한 복잡한 접근 방식이 있든, 스팸 필터는 여전히 규칙입니다. 다만 두 번째 경우에는 사용자가 직접 규칙을 만들지 않을 뿐입니다.

스팸 이메일이 비교적 쉽게 발견되고 차단되는 이유 중 하나는 명백한 문법 오류(예: 은행에서 "신용카드 번호와 인증 ID"를 원하지 않습니다)가 많기 때문입니다. 따라서 이메일에 포함된 텍스트에 맞춤법 검사기를 실행하는 것만으로도 스팸 이메일에 플래그를 지정할 수 있습니다.

하지만 이제 무료로 제공되는 봇은 이러한 오류 없이 텍스트를 작성할 수 있습니다. 우리는 잘못 작성된 이메일에 플래그를 지정하는 것에서 실수, 약어 또는 기타 언어가 전혀 없는 이메일에 플래그를 지정하는 것으로 전환했을 수도 있습니다. 그리고 이런 일은 하룻밤 사이에 일어났습니다.

그러나 이러한 봇의 인기 증가로 인해 사이버 보안이 영향을 받는 것은 스팸 이메일뿐만이 아닙니다. 이러한 봇 또는 언어 모델의 또 다른 흥미로운 특징은 이러한 시스템이 한 언어에서 다른 언어로 텍스트를 번역하는 것이 얼마나 쉬운가 하는 점입니다. 익숙하지 않은 외국어로 된 텍스트를 입력하면 동일한 텍스트를 완벽하게 읽을 수 있는 텍스트로 출력합니다. 단순히 직역하는 것 이상으로, (일반적으로) 문맥을 이해하고 이전의 자동 번역 시스템보다 훨씬 더 의미 있는 텍스트를 제공합니다. 이러한 시스템은 컴퓨터 코드를 일반 영어로 번역할 수 있다는 점에서 덜 분명한 측면이 있습니다. 예, 컴퓨터 코드는 다른 규칙을 가진 또 다른 언어일 뿐입니다. 사실 모든 컴퓨터 프로그래밍 언어는 정확히 말하자면 규칙의 집합입니다. 그리고 봇은 규칙을 쉽게 학습합니다.

이게 정확히 무슨 뜻일까요? 바이너리 파일에 대한 리버스 엔지니어링 코드가 들어가고, 원하는 경우 이 코드의 기능에 대한 일반 텍스트 설명이 한 줄씩 나옵니다. 노련한 프로그래머라면 알겠지만, 이는 전례가 없는 일이며 리버스 엔지니어링이 암흑의 예술인 이유 중 하나입니다. 사람이 자신이 작성하지 않았거나 심지어 몇 달 전에 작성한 코드를 이해하고, 추론하고, 설명하려면 많은 노력이 필요합니다. 봇은 그런 문제가 없습니다.

그렇다면 이것이 사이버 보안에 어떤 영향을 미칠까요? 첫째, 블루팀은 훌륭한 새 도구를 확보하게 됩니다. 식별할 수 없는 새로운 멀웨어 변종을 발견하셨나요? 코드를 봇에 입력하면 봇이 악성 코드의 기능을 설명해 줍니다. 경쟁사의 애플리케이션이 어떻게 작동하는지 알고 싶으신가요? 특정 네트워크 장비의 ACL 및 방화벽 규칙을 이해하는 데 도움이 필요하신가요?

몇 분도 걸리지 않습니다.

그 반대도 마찬가지입니다. 원격 서버에 업로드할 수 있는 새로운 리버스 셸을 작성하고 싶으신가요? EDR 시스템이 탐지하지 못하고 경고를 트리거하지 않는 전에 본 적 없는 무언가를 만들고 싶으신가요? 봇에게 올바른 프롬프트를 제공하면 코드가 나옵니다.

현 세대 AI 봇은 이러한 출력을 생성하지 않도록 보호 기능을 갖추고 있지만, 교묘하게 구성된 프롬프트는 보호 기능을 우회할 수 있는 것으로 밝혀졌습니다.

매트릭스의 결함

하지만 인공지능의 영역에서 모든 것이 완벽한 것은 아닙니다. 새로운 봇에 대한 과대광고가 계속되고 있지만, IT의 모든 분야가 그렇듯이 현실 점검을 통해 기대치를 다소 낮출 수 있습니다.

글리치 매트릭스 — [이미지 출처: https://en.wikipedia.org/wiki/Gartner_hype_cycle]

AI 봇의 경우, 단점이 드러나면서 과대광고는 줄어들 가능성이 높습니다.

무엇보다도 봇이 학습한 데이터, 즉 규칙을 학습한 데이터는 편향되어 있습니다. 이는 모든 머신 러닝 플랫폼에서 본질적으로 피할 수 없고 예상되는 현상입니다. 즉, 채팅 봇에서 나오는 모든 결과물도 본질적으로 편향되어 있다는 뜻입니다. 그리고 편견이나 대표성, 기타 여러 가지 바람직하지 않은 행동과 같은 일반적인 인간 편향성을 말하는 것이 아닙니다. (분명히) 제한된 데이터 샘플로 학습되었다는 점에서 편향성을 의미합니다. 이렇게 하면 주어진 프롬프트에 대한 가능한 답변의 범위가 제한됩니다.

또 다른 냉혹한 현실 점검은 AI 봇은 전문가 시스템이 아니라는 점입니다. 사실, 봇은 구체적인 사실을 전혀 알지 못합니다. 현재 세대의 봇에게 특정 정보를 물어보면 틀린 대답을 듣거나 최소한 부정확한 대답을 들을 가능성이 높습니다. 봇은 규칙에 따라 다음 단어를 예측하는 데는 매우 능숙하지만 사실을 '기억'하지는 못합니다. 어떤 웹사이트의 URL을 물어보면 즉시 완벽하게 정확한 URL을 생성합니다. 하지만 방금 만든 것이기 때문에 깨질 가능성이 높습니다.

텍스트, 이미지, 코드 등 AI 봇 콘텐츠 제작에 사람의 검증이 배제되는 것은 아닙니다. 문제를 발견하려면 해당 주제에 대한 도메인 지식이 필요합니다. 답변은 액면 그대로 보면 완벽하지만 틀릴 수도 있습니다. 일례로, Stack Overflow에서는 이미 AI가 생성한 답변이 너무 자주 틀렸기 때문에 이를 금지했습니다.

디지털 권리, 책임 또는 책임과 같은 측면은 언급하지도 않았습니다. AI가 생성한 답변의 소유권은 누가 가질까요? 잘못된 응답으로 인해 발생하는 문제를 해결할 책임은 누구에게 있을까요? AI가 생성한 새로운 이미지의 소유권은 누구에게 있나요?

마무리 발언

우리는 IT 분야에서 새롭고 매혹적인 시대를 살고 있습니다. 인공지능은 수많은 실패를 거듭한 끝에 처음으로 공상과학 소설에서나 나올 법한 실제 사용 가능한 수준의 상호 작용에 근접할 것입니다. 특히 실제 작업을 수행하는 대신 봇에 프롬프트하고 결과물을 검증하는 규칙 기반 활동에서 생산성을 크게 향상시킬 수 있는 잠재력을 가지고 있습니다. 사이버 보안 분야에서는 프로그래밍, 위협 분석, 취약성 테스트 또는 시스템 평가에 즉시 적용됩니다.

하지만 이 세대에 무료로 제공되는 AI 봇 중 인터넷이 지원되는 것은 하나도 없습니다. 이는 우연이 아닙니다. 타사 시스템에서 즉각적으로 동작을 시작할 수 있는 시스템이 보안에 미치는 영향은 AI 봇의 배후에 있는 회사를 포함하여 많은 사람들에게 두려움의 대상입니다. 인종적 편견, 편견, 차별에 대한 안전장치는 쉽게 조작될 수 있고, 멀웨어 생성 등 악의적인 출력에 대한 안전장치도 취약하며, AI 봇이 플랫폼에서 가장 먼저 서비스 거부 공격을 시작하는 것은 누구도 원하지 않습니다. 또는 AI 봇이 보안 프로빙을 시작하거나. 아니면 AI 해커일 수도 있습니다.

물론 보안 솔루션 공급업체들은 AI를 시스템에 통합하는 방법을 모색하고 있습니다. 어떻게 그렇지 않을 수 있을까요? 하지만 위에서 언급한 편견을 기억하시나요? 새로운 AI 기반 보안 솔루션이 특정 방식으로 사물을 설명하는 경향이 있다면 데이터를 간과하거나 잘못 해석할 수 있습니다. 그 정도가 어느 정도인지는 상황에 따라 다르겠지만, 결과는 매우 신중해야 합니다.

요약

기사 이름

AI와 사이버 보안 환경

설명

새로운 AI 챗봇과 사이버 보안 관점에서 우려되는 몇 가지 고려 사항에 대해 자세히 알아보세요.

작성자

조아오 코레이아

게시자 이름

TuxCare

게시자 로고

Kernel 재부팅, 시스템 다운타임 또는 예정된 유지 보수 기간 없이 취약성 패치를 자동화하고 싶으신가요?

TuxCare로 라이브 패치에 대해 알아보기

TuxCare 게스트 작가 되기

시작하기

솔루션

리소스

다음 패치 주기까지 시간을 벌고 싶다면

대상 고객

인기 뉴스레터 구독하기

4,500명 이상의 Linux 및 오픈소스 전문가와 함께하세요!

AI와 사이버 보안 환경

조아오 코레이아

채팅 '봇' 또는 운이 좋은 도박꾼?

게임 규칙

매트릭스의 결함

마무리 발언

Kernel 재부팅, 시스템 다운타임 또는 예정된 유지 보수 기간 없이 취약성 패치를 자동화하고 싶으신가요?

TuxCare 게스트 작가 되기

솔루션

리소스

다음 패치 주기까지 시간을 벌고 싶다면

대상 고객

인기 뉴스레터 구독하기

4,500명 이상의 Linux 및 오픈소스 전문가와 함께하세요!

AI와 사이버 보안 환경

조아오 코레이아

채팅 '봇' 또는 운이 좋은 도박꾼?

게임 규칙

매트릭스의 결함

마무리 발언

Kernel 재부팅, 시스템 다운타임 또는 예정된 유지 보수 기간 없이 취약성 패치를 자동화하고 싶으신가요?

TuxCare 게스트 작가 되기

가입

4,500