Gemini AI 추론 능력 조절 다이얼 공개! 개발 비용 절감 효과?
🤯 구글 Gemini, AI 과 thinking 문제 해결 위해 '추론 강도 조절' 다이얼 도입! (개발자 비용 절감 & 성능 향상)
안녕하세요, IT 트렌드세터 여러분! 👋 오늘은 구글 DeepMind의 Gemini AI 모델에 새롭게 추가된 흥미로운 기능에 대한 이야기를 나눠보려고 합니다. 바로 AI의 "thinking(사고)" 정도를 조절할 수 있는 '추론 강도 조절' 다이얼인데요. 이 기능이 개발자에게 어떤 이점을 제공하고, AI 기술의 미래에 어떤 영향을 미칠지 함께 살펴보겠습니다.
🧐 AI, 왜 이렇게 "thinking"에 집착할까?
최근 몇 년간 AI 모델의 성능을 향상시키는 방법으로 데이터 양을 늘리거나, 좋은 답변에 대한 피드백을 강화하는 방식이 주로 사용되었습니다. 하지만 작년부터 구글 DeepMind를 비롯한 AI 기업들은 "추론(reasoning)"이라는 새로운 접근 방식에 주목하기 시작했습니다.
DeepMind의 Jack Rae 연구원은 "'thinking'을 정말 열심히 밀어붙이고 있다"라고 말합니다. 추론 모델은 논리적으로 문제를 해결하고, 답변을 도출하는 데 더 많은 시간을 할애하도록 설계되었죠. 이러한 모델은 DeepSeek R1 모델 출시와 함께 올해 초 두각을 나타내기 시작했습니다.
AI 기업들이 추론 모델에 매력을 느끼는 이유는 기존 모델을 개선하여 문제에 더욱 실용적으로 접근하도록 훈련할 수 있기 때문입니다. 즉, 새로운 모델을 처음부터 구축할 필요 없이 기존 모델의 성능을 향상시킬 수 있다는 장점이 있습니다.
💰 "과thinking"은 돈과 에너지를 낭비한다?
AI 모델이 쿼리에 더 많은 시간(과 에너지)을 쏟을수록 실행 비용은 증가합니다. 실제로 추론 모델 리더보드를 보면, 하나의 작업을 완료하는 데 200달러 이상이 소요될 수 있다고 합니다. 물론, 추가적인 시간과 비용을 통해 추론 모델은 코드 분석이나 문서 정보 수집과 같은 어려운 작업을 더 잘 처리할 수 있다는 장점이 있습니다.
Google DeepMind의 CTO인 Koray Kavukcuoglu는 "특정 가설과 생각을 반복할수록 올바른 것을 찾을 가능성이 높아진다"라고 말합니다. 하지만 항상 그런 것은 아닙니다.
Gemini 제품 팀을 이끄는 Tulsee Doshi는 Gemini Flash 2.5 모델(추론 강도 조절 슬라이더 포함)에 대해 "모델이 과thinking한다"라고 지적합니다. 간단한 프롬프트의 경우, 모델이 필요 이상으로 더 많이 생각한다는 것이죠.
모델이 문제 해결에 불필요하게 많은 시간을 소비하면 개발자의 실행 비용이 증가하고, AI의 환경 발자국이 악화되는 문제가 발생합니다.
🔨 망치만 있으면 모든 게 못으로 보일까?
Hugging Face의 엔지니어 Nathan Habib은 AI 기업들이 더 똑똑한 AI를 보여주기 위해 추론 모델을 만능 도구처럼 사용하고 있다고 지적합니다. 실제로 OpenAI는 지난 2월 새로운 모델을 발표하면서, 이것이 회사의 마지막 비추론 모델이 될 것이라고 밝혔습니다.
Habib은 특정 작업에서는 성능 향상이 "부인할 수 없다"라고 말하지만, 일반적인 AI 사용 사례에서는 그렇지 않다고 합니다. 심지어 추론이 적합한 문제에 사용되더라도 문제가 발생할 수 있습니다. Habib은 한 가지 예로, 최고의 추론 모델이 유기 화학 문제를 해결하는 과정에서 오류가 발생하여 수백 번 "잠깐만, 하지만…"을 반복하는 것을 보여주었습니다. 결국 비추론 모델보다 훨씬 더 많은 시간이 소요된 것이죠. DeepMind에서 Gemini 모델 평가를 담당하는 Kate Olszewska도 구글 모델이 루프에 갇힐 수 있다고 말합니다.
⚙️ 구글의 해결책: "추론 강도 조절" 다이얼
구글이 제시한 해결책은 바로 "추론 강도 조절" 다이얼입니다. 현재는 Gemini 소비자 버전이 아닌 앱을 개발하는 개발자를 위해 구축되었는데요. 개발자는 모델이 특정 문제에 얼마만큼의 컴퓨팅 성능을 소비해야 하는지에 대한 예산을 설정할 수 있습니다. 즉, 작업에 많은 추론이 필요하지 않은 경우 다이얼을 낮추는 것이죠. 추론을 켠 상태에서 모델 출력을 생성하는 데는 약 6배 더 많은 비용이 소요됩니다.
이러한 유연성을 제공하는 또 다른 이유는 더 나은 답변을 얻기 위해 언제 더 많은 추론이 필요한지 아직 명확하지 않기 때문입니다.
Rae는 "어떤 작업이 'thinking'에 가장 적합한지 경계를 긋기가 정말 어렵다"라고 말합니다.
명확한 작업으로는 코딩(개발자가 수백 줄의 코드를 모델에 붙여넣고 도움을 요청하는 경우) 또는 전문가 수준의 연구 보고서 생성이 있습니다. 이러한 경우에는 다이얼을 최대로 높여야 하며, 개발자는 그만한 가치가 있다고 판단할 수 있습니다. 하지만 중간 또는 낮은 설정이 충분한 경우를 파악하려면 더 많은 테스트와 개발자 피드백이 필요할 것입니다.
⚖️ AI 모델 개선의 새로운 패러다임?
Habib은 추론 모델에 대한 투자가 AI 모델 개선 방식의 기존 패러다임이 변화하고 있다는 신호라고 말합니다. 즉, "규모의 법칙이 대체되고 있다"라는 것이죠.
대신 기업들은 더 큰 모델보다 더 긴 thinking 시간을 통해 최상의 응답이 나올 것이라고 확신하고 있습니다. AI 기업들이 훈련보다 추론(모델이 실제로 응답을 생성하기 위해 "핑"을 받는 경우)에 더 많은 비용을 지출하고 있다는 것은 이미 수년 전부터 분명해졌으며, 추론 모델이 등장하면서 이러한 지출은 더욱 가속화될 것입니다. 또한, 추론은 배출량 증가의 주요 원인이기도 합니다.
🤔 AI, 정말로 "thinking"하는 걸까?
AI 모델이 인간처럼 "추론"하거나 "thinking"하는 것은 아닙니다. Rae는 회사가 이러한 의인화된 언어를 사용하는 이유에 대해 "간단한 이름을 가질 수 있었고, 사람들은 그것이 무엇을 의미하는지 직관적으로 이해할 수 있기 때문"이라고 설명합니다. Kavukcuoglu는 구글이 모델에서 특정 인간 인지 과정을 모방하려는 것은 아니라고 덧붙였습니다.
🚀 DeepMind의 미래: "사고하는 모델"
DeepSeek의 결과가 12월과 1월에 유통되기 시작했을 때, 강력한 추론 모델을 저렴하게 사용할 수 있다는 약속 때문에 주식 시장에서 거의 1조 달러가 하락하는 사건이 있었습니다. DeepSeek 모델은 "open weight"라고 불리는데, 이는 내부 설정(weight라고 함)이 공개되어 개발자가 구글이나 OpenAI의 독점 모델에 액세스하기 위해 비용을 지불하는 대신 자체적으로 실행할 수 있도록 하기 때문입니다.
그렇다면 DeepSeek와 같은 오픈 소스 모델이 그렇게 잘 작동하는데 왜 구글의 독점 모델을 사용할까요? Kavukcuoglu는 코딩, 수학, 금융과 같은 경우에는 "모델이 매우 정확하고, 매우 정밀하며, 매우 복잡한 상황을 이해할 수 있어야 한다는 높은 기대치가 있다"라고 말하며, 이러한 기대를 충족하는 모델(오픈 소스든 아니든)이 성공할 것이라고 예상합니다. DeepMind는 이러한 추론이 사용자를 대신하여 행동하고 문제를 해결하는 미래 AI 모델의 기반이 될 것이라고 믿고 있습니다.
Kavukcuoglu는 "추론은 지능을 구축하는 핵심 역량"이라며 "모델이 thinking을 시작하는 순간, 모델의 agency가 시작된다"라고 강조합니다.
🎯 핵심 요약
- 구글 DeepMind는 Gemini AI 모델에 '추론 강도 조절' 다이얼을 도입하여 개발자가 AI의 "thinking" 정도를 조절할 수 있도록 했습니다.
- 이는 AI 모델의 과thinking으로 인한 비용 및 에너지 낭비 문제를 해결하고, 성능을 최적화하기 위한 시도입니다.
- 추론 모델은 특정 작업에서 뛰어난 성능을 보이지만, 모든 문제에 적합한 것은 아니며, 오히려 비효율적인 결과를 초래할 수도 있습니다.
- 구글은 추론이 미래 AI 모델의 핵심 역량이 될 것이라고 믿고 있으며, 사용자를 대신하여 문제를 해결하는 데 중요한 역할을 할 것으로 기대하고 있습니다.
이번 업데이트를 통해 개발자들은 더욱 효율적으로 AI 모델을 활용하고, 사용자에게 더 나은 경험을 제공할 수 있을 것으로 기대됩니다. 앞으로 구글 Gemini의 '추론 강도 조절' 다이얼이 AI 기술 발전에 어떤 영향을 미칠지 계속해서 주목해 봐야겠습니다.