인공지능 논리력 대결: 클로드 3.7 익스텐디드 vs ChatGPT o1
최근 Anthropic에서 새로운 모델인 클로드 3.7 소넷을 출시했습니다. AI의 최신 기능에 항상 관심이 있지만, 특히 "익스텐디드" 모드에 눈길이 갔습니다. 이 기능은 OpenAI가 ChatGPT에 o1 모델을 처음 선보였을 때를 떠올리게 합니다. ChatGPT 4o 모델을 사용하여 창을 벗어나지 않고도 o1에 액세스할 수 있는 방법을 제공했죠. "/reason"을 입력하면 AI 챗봇이 o1을 대신 사용했습니다. 지금은 쓸모없지만, 여전히 앱에서 작동합니다. 두 모델 모두 더 깊고 구조화된 추론을 제공한다고 약속했기 때문에 서로 어떻게 대결하는지 확인하고 싶었습니다.
클로드 3.7 익스텐디드 모드의 특징
클로드 3.7의 익스텐디드 모드는 하이브리드 추론 도구로 설계되어 사용자에게 빠르고 대화적인 응답과 심층적인 단계별 문제 해결 사이를 전환할 수 있는 옵션을 제공합니다. 답변을 제공하기 전에 프롬프트를 분석하는 데 시간이 걸립니다. 따라서 수학, 코딩 및 논리에 적합합니다. 속도와 심층성 사이의 균형을 미세 조정하여 응답에 대한 시간 제한을 설정할 수도 있습니다. Anthropic은 이를 통해 표면적인 응답이 아닌 계층화되고 체계적인 문제 해결이 필요한 실제 애플리케이션에 AI를 더욱 유용하게 만들 수 있다고 설명합니다.
몬티 홀 문제로 성능 테스트
클로드 3.7에 액세스하려면 클로드 프로 구독이 필요하므로 대신 아래 비디오 데모를 테스트로 사용하기로 했습니다. 익스텐디드 사고 모드에 도전하기 위해 Anthropic은 AI에게 인기 있는 빈티지 확률 퍼즐인 몬티 홀 문제를 분석하고 설명하도록 요청했습니다. 이 문제는 겉으로는 간단해 보이지만 수학에 능숙하다고 생각하는 사람들을 포함하여 많은 사람들을 당황하게 만드는 문제입니다. 설정은 간단합니다. 당신은 게임 쇼에 출연하여 세 개의 문 중 하나를 선택하라는 요청을 받습니다. 하나의 문 뒤에는 자동차가 있고 다른 문 뒤에는 염소가 있습니다. Anthropic은 변덕스럽게 염소 대신 게를 사용하기로 결정했지만 원리는 동일합니다. 선택을 한 후 각 문 뒤에 무엇이 있는지 알고 있는 진행자는 나머지 두 문 중 하나를 열어 염소(또는 게)를 보여줍니다. 이제 당신은 선택할 수 있습니다. 원래 선택을 고수하거나 마지막으로 열리지 않은 문으로 바꾸십시오. 대부분의 사람들은 중요하지 않다고 생각하지만 직관과는 달리 스위치를 사용하면 승리할 확률이 2/3인 반면 첫 번째 선택을 고수하면 확률이 1/3에 불과합니다.
게 선택 시나리오 분석
익스텐디드 사고가 활성화된 클로드 3.7은 신중하고 거의 학문적인 접근 방식으로 문제를 설명했습니다. 정답을 단순히 제시하는 대신 진행자가 게를 밝힌 후 확률이 이동하는 이유를 강조하면서 여러 단계로 기본 논리를 신중하게 제시했습니다. 건조한 수학 용어로만 설명하지도 않았습니다. 클로드는 가상 시나리오를 통해 확률이 반복되는 시행에서 어떻게 작용하는지 보여주어 왜 스위칭이 항상 더 나은 움직임인지 이해하기 훨씬 쉽게 만들었습니다. 응답은 서두르지 않았습니다. 마치 교수가 천천히 신중하게 걸어 다니며 왜 일반적인 직관이 틀렸는지 진정으로 이해하도록 하는 것과 같았습니다.
ChatGPT o1 모델의 접근 방식
ChatGPT o1은 많은 분석을 제공했으며 문제를 잘 설명했습니다. 실제로 여러 형식과 스타일로 설명했습니다. 기본적인 확률 외에도 게임 이론, 내러티브 관점, 심리적 경험, 심지어 경제적 분석까지 다루었습니다. 오히려 약간 압도적이었습니다.
게임 플레이 기능 비교
클로드의 익스텐디드 사고가 할 수 있는 것이 전부가 아닙니다. 비디오에서 볼 수 있듯이 클로드는 몬티 홀 문제를 창에서 바로 플레이할 수 있는 게임 버전으로 만들 수도 있었습니다. ChatGPT o1에서 동일한 프롬프트를 시도해도 똑같지는 않았습니다. 대신 ChatGPT는 브라우저에서 저장하고 열 수 있는 문제 시뮬레이션용 HTML 스크립트를 작성했습니다. 아래에서 볼 수 있듯이 작동했지만 몇 가지 추가 단계가 필요했습니다. (이미지 제공: Anthropic)
클로드와 ChatGPT의 장단점
작업 중인 코드 또는 수학 종류에 따라 품질에 약간의 차이가 있을 수 있지만 클로드의 익스텐디드 사고와 ChatGPT의 o1 모델은 모두 논리적 문제에 대한 견고하고 분석적인 접근 방식을 제공합니다. 클로드가 제공하는 추론의 시간과 깊이를 조정하는 것이 유리하다는 것을 알 수 있습니다. 즉, 정말 서두르거나 비정상적으로 많은 분석을 요구하지 않는 한 ChatGPT는 너무 많은 시간을 소비하지 않으며 생각에서 상당히 많은 콘텐츠를 생성합니다. 채팅 내에서 문제를 시뮬레이션으로 렌더링하는 기능은 훨씬 더 주목할 만합니다. 실제 시뮬레이션이 ChatGPT에서 작성한 HTML과 매우 유사한 코드를 사용할 가능성이 높더라도 클로드가 더 유연하고 강력하게 느껴집니다.
맺음말
클로드 3.7 익스텐디드 모드와 ChatGPT o1 모델은 모두 강력한 AI 도구입니다. 클로드는 문제 해결 과정을 게임처럼 만들어 사용자 경험을 향상시키는 데 강점을 보입니다. 반면 ChatGPT는 다양한 각도에서 문제에 접근하며 풍부한 정보를 제공합니다. 어떤 도구를 선택할지는 사용자의 특정 요구와 선호도에 따라 달라질 것입니다. 앞으로 두 모델이 어떻게 발전해 나갈지 기대됩니다.