GenAI, 효율 넘어 신뢰가 답이다

Share

생성형 AI, 완벽한 효율을 넘어 신뢰성 확보가 중요한 이유

생성형 AI(GenAI) 기술이 가진 확장성, 효율성, 유연성은 기업 임원들의 이목을 사로잡기에 충분했습니다. 너도나도 이 기술을 한계까지 밀어붙이려 했죠. 하지만 환각 현상, 불완전한 훈련 데이터, 쿼리 무시, 가이드라인 무시 등 결함 있는 결과물에 대한 우려가 있었습니다. Mayo Clinic은 이러한 문제점에 적극적으로 대응하고 있습니다.

Mayo Clinic의 접근 방식: CURE 알고리즘과 역 RAG

Mayo Clinic은 CURE(Clustering Using Representatives) 알고리즘을 LLM(대규모 언어 모델) 및 벡터 데이터베이스와 결합하여 데이터 검색을 이중으로 확인합니다. CURE 알고리즘은 이상치 또는 일치하지 않는 데이터 포인트를 감지하는 능력이 있습니다. Mayo Clinic의 LLM은 CURE와 역 RAG(Retrieval Augmented Generation) 접근 방식을 결합하여 생성된 요약을 개별 사실로 분리한 다음 소스 문서와 다시 매칭합니다. 이후 두 번째 LLM은 사실과 소스 간의 인과 관계를 평가하여 얼마나 잘 일치하는지 점수를 매깁니다.

효율성 vs. 신뢰성: 인간 개입과 AI 감시

GenAI의 신뢰성 부족을 해결하는 방법은 크게 두 가지입니다. 첫째, 인간을 개입시키는 것(주로 많은 인력 필요)이고, 둘째, AI가 AI를 감시하는 방식입니다. 인간이 GenAI 결과물을 모니터링하는 것은 안전한 접근 방식이지만, GenAI의 핵심 가치인 '엄청난 효율성'을 저해합니다. 효율성이 높아지면 인력을 전략적인 업무에 재배치하거나, 인력 감축으로 이어질 수 있습니다. 하지만 GenAI 효율성은 수천 명의 업무를 대체할 수 있습니다. 인간의 감독을 추가해도 수십 명이면 충분할 수 있으므로 여전히 수학적으로 타당합니다.

AI 감시 AI: 위험하지만 매력적인 대안

AI가 AI를 감시하는 방식은 더 위험하지만, 많은 기업들이 시도하고 있습니다. 일부는 GenAI 계산을 다른 업체에 맡겨 책임을 전가하려 하고, 또 다른 일부는 제3자에게 비용을 지불하여 GenAI 정확도를 개선하려 합니다. 하지만 내부적으로 GenAI 신뢰성을 효과적으로 개선할 방법이 부족하기 때문에 많은 PoC(개념 증명) 테스트가 빠르게 승인되었지만 실제 프로덕션 환경으로 이전되지 못했습니다.

인간 감독의 중요성: "AI 감시 AI는 실패할 것"

결국 GenAI 결과물을 감시하기 위해 더 많은 인력을 투입하는 방식이 당분간은 우세할 것으로 보입니다. George Mason University의 Missy Cummings 교수는 "반드시 인간 감독자가 있어야 합니다. AI가 AI를 감시하는 것은 실패할 것이 보장됩니다."라고 말했습니다. 사람들은 기술의 약속을 믿고 싶어하기 때문에 AI의 자기 확신에 속아 넘어갈 수 있다고 경고합니다. Forrester의 Rowan Curran 수석 분석가는 Mayo Clinic의 접근 방식이 타당성이 있을 수 있다고 말했습니다. 입력과 출력을 비교하여 얼마나 밀접하게 일치하는지 확인하는 것이 중요하며, 모델이 쿼리의 모든 구성 요소를 포함하여 직접적인 답변을 시도하는지 확인하는 것도 중요합니다.

LLM의 한계 인정과 에이전트 간 협업

Sailpoint의 CISO인 Rex Booth는 LLM이 자체적인 한계에 대해 더 많은 설명을 하도록 강제하는 것이 결과물의 신뢰성을 높이는 데 큰 도움이 될 것이라고 말합니다. 예를 들어, 모델이 방대한 데이터베이스에서 답변을 찾을 수 없을 때 환각 현상이 발생합니다. 시스템이 "모르겠습니다" 또는 "훈련 데이터에 해당 내용이 없습니다"라고 말하면 결과물에 대한 신뢰도가 높아질 것입니다. Booth는 또한 "에이전트가 에이전트를 확인하는" 개념이 효과적일 수 있지만, 각 에이전트에게 개별적인 작업이 할당되어야 한다고 강조합니다. IT 의사 결정자는 이러한 작업과 분리가 존중될 것이라고 가정해서는 안 됩니다.

위험 감수 수준 설정과 경영진의 이해

GenAI를 더욱 신뢰성 있게 만드는 또 다른 보편적인 개념은 고위 경영진, 특히 이사회가 위험 감수 수준에 동의하고 이를 문서화하여 게시하도록 강제하는 것입니다. 이를 통해 경영진은 이러한 도구에 어떤 문제가 발생할 수 있는지, 얼마나 많은 피해를 입힐 수 있는지에 대한 어려운 질문을 던지도록 유도할 수 있습니다. ABI Research의 Reece Hayden 수석 분석가는 고위 경영진이 GenAI 위험을 얼마나 진정으로 이해하는지 회의적입니다. 그들은 이점과 10%의 부정확성을 이해하지만, 이를 인간과 유사한 오류, 즉 작은 실수, 복구 가능한 실수로 간주합니다. 하지만 알고리즘이 궤도를 벗어나면 인간보다 훨씬 심각한 오류를 범할 수 있습니다.

시스템 관리가 모델 관리보다 중요

Tredence의 최고 전략 책임자인 Soumendra Mohanty는 기업 환경이 GenAI 시스템에 더욱 적합하게 적응할 때까지는 신뢰성 문제가 해결되지 않을 수 있다고 말합니다. 그는 "더 심각한 문제는 대부분의 기업이 모델을 마법 상자처럼 취급하여 지저분하고 불완전하며 오래된 시스템에서 완벽하게 작동하기를 기대한다는 것입니다. GenAI 모델은 결함이 있기 때문에 환각을 일으킬 뿐만 아니라 기계 의사 결정을 위해 구축되지 않은 환경에서 사용되기 때문입니다. 이를 극복하려면 CIO는 모델 관리를 중단하고 모델 주변의 시스템 관리를 시작해야 합니다. 즉, 데이터 흐름 방식, AI가 비즈니스 프로세스에 내장되는 방식, 의사 결정 방식, 확인 및 개선 방식을 재고해야 합니다."라고 강조합니다.

비용 문제와 책임 회피 심리

경영진이 이 문제를 직시하기를 꺼리는 심리적인 이유가 있습니다. GenAI 모델 라이선스는 엄청나게 비쌉니다. 따라서 기술에 막대한 투자를 한 후에는 결과물의 신뢰성을 높이기 위해 더 많은 돈을 쏟아 붓는 것에 대한 자연스러운 저항이 있습니다. 하지만 GenAI 게임 전체는 결과물을 제공하는 데 초점을 맞춰야 합니다. 즉, 작동하는 것뿐만 아니라 작동하지 않는 것에도 대처해야 합니다. 이러한 잘못된 답변이나 결함 있는 조치가 발견되면 수정하는 데 상당한 비용이 소요될 것입니다. 당황스럽지만 필요한 일입니다. GenAI의 이점에 대해 열렬히 칭찬받는 사람들은 나중에 나타나는 오류에 대해 비난받을 것입니다. 현명한 선택을 하십시오.

맺음말

생성형 AI는 분명 혁신적인 기술이지만, 그 효율성을 극대화하기 위해서는 신뢰성 확보가 필수적입니다. 기업은 인간 개입, AI 감시, 데이터 관리, 위험 감수 수준 설정 등 다양한 방법을 통해 GenAI의 신뢰성을 높여야 하며, 무엇보다 시스템 관리에 집중해야 합니다.

You may also like...