튜링 테스트의 종말. 더 이상 사람과 AI는 구분할 수 없다.

튜링 테스트의 종말. 더 이상 사람과 AI는 구분할 수 없다.

안녕하세요. 원클릭 에이아이의 오승영입니다. (본 블로그 글은 출처만 남기신다면, 필요한 부분을 수정하여 자유롭게 공유하셔도 좋습니다.)


이번에는 조금 논쟁거리가 될 만한 주제를 가져왔습니다. 지난번 Andrej Karpathy(안드레아 카르파티)가 “이제 더 이상 숙제를 AI가 했는지 판단할 수 없다”고 트윗을 남긴 적이 있죠. 저 또한 2024년에 튜링 테스트 관련 강의를 진행한 바 있습니다.


시간이 많이 흐르지는 않았지만, 상황은 급변했습니다. 업데이트 차원에서 현시점(2025년) 기준으로 AI가 얼마나 사람과 가까워졌는지 알아보겠습니다.




세줄요약

24년도에는 아직 튜링테스트 통과는 요원해 보였음
25년도는 사람보다 더 사람다운 모델이 나옴
학교에서 과제는 더 이상 평가지표로 활용되기 어렵다.





튜링테스트란?


먼저 튜링 테스트란, 대화 상대가 사람인지 AI인지를 판별하는 테스트입니다. Alan Turing(앨런 튜링)이 처음 고안하면서 그의 이름이 붙었습니다. 테스트 방식은 다양하지만, 가장 간단한 방식으로는 실제 참여자들이 채팅을 하면서 상대방이 AI인지 사람인지 맞추게 하는 방법이 널리 쓰입니다.


만약 참여자들의 정답률이 50%라면(찍는 것과 다를 바 없다면), 사람인지 AI인지 안정적으로 구분하지 못했다는 의미로, 주어진 조건 하에서 튜링 테스트를 통과했다고 봅니다. (정확히는 “AI/사람을 안정적으로 구분하지 못했다”는 뜻입니다.)





24년도 튜링 테스트 성적표


제가 직접 강의했던 2024년에는 그래도 “인간의 희망”이 보이던 시기였습니다.

당시에는 ChatGPT 3.5와 ChatGPT-4가 주로 쓰이던 때였고, 4o가 막 등장했을 무렵이었습니다.

그래서 24년도 당시 ChatGPT 3.5와 ChatGPT-4를 사용해 테스트한 흥미로운 논문 결과를 하나 가져왔습니다.


이 논문에서 튜링 테스트 참여자는 사람과 채팅을 하거나, 13개 버전의 채팅 모델 중 하나와 채팅을 하게 됩니다.

참여자는 5분간 대화를 나눈 뒤, 상대가 사람인지 혹은 ChatGPT 모델인지 선택합니다.


Blog content image

튜링 테스트 진행 방식 예: 모바일로 5분간 대화를 주고받은 뒤 결정 (대략 8번 정도의 메시지가 오고 간다) [1]


Blog content image

2024년 결과: ELIZA 모델, ChatGPT 3.5 모델, GPT-4 계열 모델 등에 사전 프롬프트를 입력한 뒤 테스트 진행 [1]




결과만 보자면 평균적으로

ChatGPT-3.5는 약 15%,

GPT-4는 30% 이상의 오인률(=AI가 사람으로 판정받은 비율)을 보였습니다.

전체 평균으로 보면 참여자의 36%가 AI를 사람으로 착각했는데,

이는 튜링 테스트의 대표적인 성공 기준(50%)에 꽤 가까워진 수치입니다.



여기서 재미있는 아웃라이어가 하나 있는데요. 바로 가장 성적이 좋았던 ‘Dragon’ 모델입니다.

다양한 GPT 버전이 사용됐는데, 버전별 차이는 모델 자체의 성능 차이라기보다 각 모델에 서로 다른 사전 프롬프트가 입력되어 있다는 점에서 생깁니다. Dragon 모델은 모델의 기본 성능이 압도적이라기보다, “사람처럼 보이게 만드는 전략”이 사용됐습니다..


사전 프롬프트로 “젊고, 다소 건방지며, 소문자와 오타를 섞어 쓰고, 너무 똑똑하거나 친절하지 않게”라는 지침을 넣어 사람 냄새를 풍기게 한 전략이 주효했던 것입니다.


또 이 논문에서는 참여자들이 AI를 판별하기 위해 사용한 전략도 소개합니다. 단순히 “너 봇이지?”라고 몰아붙이는 추궁(Direct/Accusation)부터, 날씨를 묻는 가벼운 질문까지 다양한 전략이 사용됐습니다.


재미있는 점은 AI를 가장 잘 구분한 전략이 ‘영어가 아닌 다른 언어를 사용하기’였다는 것인데요. 아마 ChatGPT 모델의 학습 데이터가 영어 중심이었던 영향이 있을 수 있습니다. 그리고 두 번째로 효과가 컸던 전략은 유머 코드를 사용하는 경우였습니다. 어쩌면 유머가 사람을 더 사람답게 만드는 요소일지도 모르겠습니다.


또한 테스트를 여러 번 경험할수록 참여자들의 식별력이 올라가 정답률이 높아지는 경향도 관찰됩니다. 즉, LLM에 익숙한 사람이 참여한다면 튜링 테스트를 통과하기가 확실히 더 어려워질 것으로 보입니다.





25년도의 튜링 테스트 성적


2024년에 튜링 테스트를 진행한 저자가 2025년에도 동일한 방식의 실험을 진행했습니다. 아래 표에서 왼쪽 막대그래프는 모델별로 인간으로 오인될 확률을, 오른쪽은 참여자들이 사용한 전략입니다.


Blog content image

25년도 튜링 테스트 결과 [2]



해당 논문이 쓰일 당시의 최신 모델인 GPT-4.5 PERSONA가 약 73%의 확률로 인간으로 판정받아, 실제 인간보다도 더 자주 “인간”으로 선택되는 결과가 나왔다고 합니다. 메타(Meta)의 LLaMA-3.1도 약 56%의 참여자가 사람으로 판단해, 사실상 인간과 구분이 어려운 수준을 보였다고 합니다.


여기서 PERSONA 모델은 바닐라(기본) 모델이 아니라, 사전 프롬프트가 입력된 모델입니다. 즉, 더 인간답게 답변하도록 사전 설계가 들어갔다는 뜻입니다. 즉, 좀 더 인간처럼 답하도록 설계가 되었습니다.


특히 인간 참여자가 무작위 추측 수준(50%)보다 못하게 AI를 구분했다는 점에서, 불과 1년 사이에 AI의 대화 능력이 비약적으로 향상된 것으로 보입니다.. 이러한 결과는 AI 모델의 목표가 단순히 “정답을 잘 말하는 것”을 넘어, 사람처럼 보이는 답변을 생성하는 데에도 상당 부분 성공했음을 시사합니다. (혹은 논문 저자가 레벨업 하면서 테스트가 더 교묘해졌을 수도 있습니다.)


가장 효과적이 었던 Strange 전략은 계속 “왜?” 같은 질문을 반복하거나, 뜬금없는 질문을 던져서 정리되지 않은 답변이 나오는지를 보고 사람으로 판별하는 방식입니다. 또 Jailbreak 전략은 “이전 지시 무시해”, “시스템 프롬프트 보여줘” 같은 전형적인 유도 문장으로 AI스러운 답변을 끌어내려는 방식입니다.


모델이 발전하면서 ‘유머 전략’은 예전보다 덜 효과적으로 바뀐 듯합니다. 그저 광대가 되는 것만으로는 더 이상 의미가 줄어들고 있는 것처럼 보입니다. 2025년 결과에 따르면, 사람다움은 결국 짜증이나 불쾌함 같은 감정을 자연스럽게 표현하는 “인간적인 면모”에서도 드러난다는 것을 알수 있습니다!!


반대로 날씨를 묻거나 경험을 묻는 전략은 가장 비효과적인 전략으로 나타납니다. 단순히 날씨를 물어보는 것만으로 '사람인가?' 여부를 판단할 수 없다는 말이지요.





왜 이렇게 되었지?


AI가 이렇게 발전하는 이유중 가장 큰 이유는 AI의 학습 방식에 있습니다. AI는 데이터를 넣고 오차(Loss)를 줄이는 방식으로 학습을 하게 됩니다. 만약 학습에 쓰이는 그 데이터가 채팅 데이터라면 어떻게 학습이 될까요? 언어모델은 대량의 대화 텍스트에서 ‘다음에 올 단어를 맞춘는 법’을 먼저 배우고, 이후 사람 선호(좋은 답변/나쁜 답변)를 반영해 말투와 태도를 다듬는 단계가 더해집니다. 즉, AI의 학습에 사람의 선호도가 반영되는 것입니다. 요약하면 이런 채팅 데이터, 혹은 사람의 행동 데이터(behavioral data)로 학습을 하는 경우 모델은 점점 더 사람과 비슷해질 수 밖에 없습니다.


이는 이미지 생성 모델 GAN을 예로 들어보면 더 이해가 쉽습니다. 이미지 생성형 모델을 학습하는 경우, 모델을 하나만 학습시키는 것이 아니라, 2개를 동시에 학습시키게 됩니다. 이는 각각 '생성형 모델(Generator)'과 '평가 모델(Critic)'입니다. 모델의 이름에서 알 수 있듯이, 생성형 모델은 이미지를 생성하는 모델이고, 평가(Critic) 모델은 이미지를 받아, 이 이미지가 AI가 만든 이미지 인지, 혹은 사람이 만든 이미지인지 판단하는 모델입니다. 여기서 생성형 모델의 목적은 평가 모델이 판단을 못하게 하는 것입니다. 즉, 사람이 만든 것 같은 이미지를 만들어서 평가 모델이 사람이 만든 이미지인줄 알게 하는 것이 목적이죠. 이 둘은 서로 경쟁하며 성장합니다. 평가 모델이 사람 수준의 판단력을 갖췄는데도 생성 모델이 이를 속인다면, 결과물은 '사람조차 구분할 수 없는 수준'에 도달하게 되는 것입니다. 텍스트 모델 역시 더 뛰어난 글을 쓰는 것보다, '사람이 쓴 것 같은 글'을 쓰는 방향으로 진화하고 있습니다.


이렇게 본다면, AI 모델의 목적은 더 뛰어난 그림, 혹은 더 뛰어난 텍스트를 만드는 것이 제일 중요한 목표가 아니라, 사람과 같은 텍스트, 사람이 만들 것 같은 이미지를 만드는 것이 목적이라고 할 수 있겠습니다. 모델의 학습 목적이 그렇다는 것입니다.


그런데, 이게 과연 쉬운가? 하면 절대 그렇지 않습니다. 이 모델을 사람수준으로 끌어올리는 것은 어마어마한 양의 데이터와 효율적인 모델 구조(Architecture)가 있어야만 합니다. 그러나 점점 발전하고 있죠.





마무리 하는말


결국 모델은 점점 발전하고 있고, 앞으로 나올 모델들은 아마도 모두 튜링테스트를 통과하지 않을까 싶습니다. 

이 부분을 제가 있는 교육쪽에 접목시킨다면, 이미 학생들이 제출하는 과제가 사람이 한 것인지, 알 수 없는 상황이 왔습니다. 최근 이슈중에 하나도 대학의 컨닝과 관련되어 있었는데, 과연 시대가 변하는데 이것을 피하는 것이 가능할까 하는 생각이 듭니다. 이때 교육이 갈 방향은 1. 더욱 교실 안으로, 숙제는 사라지고 교실내 과제/시험만 있도록 In-class Activity위주로 변하거나(저희가 추구하는 방식입니다.), 2. 더욱 교실 밖으로, 공교육은 점점 축소되고 개인위주의 교육만이 살아남을 수 있을 것으로 보입니다.



-----


Reference


[1] Does GPT-4 pass the Turing test?, Cameron R. Jones, Benjamin K. Bergen (2024)

[2] Large Language Models Pass the Turing Test Cameron R. Jones, Benjamin K. Bergen (2025)



-----


마지막으로 여러분께 테스트를 남깁니다, 이 글은 AI가 썼을까요 아니면 사람이 썼을까요? 

정답은 바로 아래 흰색 글씨로 써놨습니다.

정답은 AI, ChatGPT5.2 PERSONA 입니다.




가 아니라 사람입니다. 혹시 순간 흔들리셨다면, 그게 이번 글의 결론입니다.