OpenAI, Gemini, Claude가 Agent를 활용하여 Deep Research를 구동하는 방법

원문: How OpenAI, Gemini, and Claude Use Agents to Power Deep Research

면책 조항: 이 게시물의 세부 사항은 OpenAI, Gemini, xAI, Perplexity, Microsoft, Qwen, Anthropic Engineering Teams가 온라인에서 공유한 정보로부터 도출되었습니다. 모든 기술적 세부 사항에 대한 공로는 OpenAI, Gemini, xAI, Perplexity, Microsoft, Qwen, Anthropic Engineering Teams에 있습니다. 원본 기사 및 출처에 대한 링크는 게시물 끝의 참고 자료 섹션에 있습니다. 우리는 세부 사항을 분석하고 우리의 의견을 제공하려고 시도했습니다. 부정확하거나 누락된 내용이 있으면 댓글을 남겨주시면 최선을 다해 수정하겠습니다.

Deep Research는 현대 LLM 플랫폼 전반에 걸쳐 표준 기능이 되었습니다.

ChatGPT, Gemini, Claude 모두 장시간 실행되고 공개 웹의 많은 부분에서 정보를 수집하는 작업을 지원합니다.

일반적인 deep research 요청은 수십 번의 검색, 여러 차례의 필터링, 그리고 최종적으로 잘 구조화된 보고서의 신중한 조합을 포함할 수 있습니다. 예를 들어, "2025년에 AI agent를 연구하는 100개 회사 나열"과 같은 쿼리는 단일 검색 결과에 의존하지 않습니다. 최종 답변을 제시하기 전에 15~30분 동안 광범위한 정보 환경을 탐색하는 조정된 시스템을 활성화합니다.

이 기사에서는 이러한 시스템이 어떻게 작동하는지 설명합니다.

우리는 Deep Research를 가능하게 하는 아키텍처, 다양한 LLM이 이를 구현하는 방법, agent들이 서로 어떻게 조정하는지, 그리고 최종 보고서가 사용자에게 전달되기 전에 어떻게 합성되고 검증되는지 살펴볼 것입니다.

High-Level Architecture

Deep Research 시스템은 서로 협력하는 AI agent들로 구축됩니다. 이 맥락에서 AI agent는 목표를 수락하고, 해당 목표를 달성하기 위한 워크플로우를 설계하며, 웹 검색이나 코드 실행과 같은 도구를 통해 환경과 상호작용할 수 있는 LLM 기반 서비스입니다.

AI Agent의 개념을 이해하려면 아래 다이어그램을 참조하세요:

높은 수준에서 아키텍처는 사용자 요청으로 시작됩니다. 사용자의 쿼리는 다중 agent research 시스템으로 전송됩니다. 이 시스템 내부에는 일반적으로 전체 연구 전략을 담당하는 orchestrator 또는 lead agent가 있습니다.

Orchestrator는 쿼리를 받아 사용자가 원하는 것을 해석한 다음 질문에 답변하는 방법에 대한 계획을 만듭니다. 그 계획은 더 작은 조각으로 나뉘어 여러 sub-agent에게 위임됩니다. 가장 일반적인 sub-agent는 "웹 검색" agent입니다. 이들 각각은 전체 주제의 특정 부분이나 특정 하위 작업(예: 한 지역, 한 기간 또는 질문의 한 측면)을 웹에서 검색하도록 지시받습니다.

웹 agent들이 작업을 완료하면 두 가지를 반환합니다:

추출한 콘텐츠. 일반적으로 텍스트 스니펫, 요약 또는 핵심 사실의 형태를 취합니다.
해당 콘텐츠가 어디에서 왔는지 정확히 기록하는 인용(예: URL 및 페이지 제목).

이러한 결과는 "synthesizer" 플로우라고 부를 수 있는 단계로 이동합니다. 이 단계에는 종종 두 개의 agent가 포함됩니다: synthesizer agent와 citations agent입니다. 일부 시스템에서는 orchestrator 자체가 synthesizer 역할도 하므로 별도의 agent가 필요하지 않습니다.

Synthesizer agent는 웹 agent들이 반환한 모든 콘텐츠를 가져와 최종 연구 보고서로 변환합니다. 정보를 섹션으로 구성하고, 중복을 해결하며, 일관된 내러티브를 구축합니다. 그런 다음 citations agent가 합성된 보고서를 읽고 각 진술이 올바른 출처에 의해 뒷받침되는지 확인합니다. 텍스트의 올바른 위치에 인용을 삽입하여 최종 보고서가 기본 자료에 의해 철저히 뒷받침되도록 합니다.

이 합성 및 인용 프로세스가 완료되면 synthesizer(또는 orchestrator)가 최종적으로 완전히 인용된 연구 보고서를 사용자에게 반환합니다.

Anthropic은 이러한 다중 agent research 시스템을 실제로 보여주는 "Advanced Research" 모드의 높은 수준 다이어그램을 발표했습니다. lead agent, 다양한 sub-agent, 그리고 계획, 연구 및 합성을 통해 이들 사이에 흐르는 데이터를 보여줍니다.

출처: Anthropic Engineering Blog

The Current Landscape of Research Agents

Deep Research 뒤의 광범위한 아이디어는 플랫폼 전반에 걸쳐 공유되지만, 각 주요 공급자는 자체 변형을 구현합니다.

OpenAI Deep Research

OpenAI의 deep research agent는 강화 학습을 사용하는 추론 모델을 기반으로 구축되었습니다.

모델은 다단계 연구 작업을 계획하고, 언제 검색할지, 언제 읽을지, 그리고 정보를 최종 답변으로 결합하는 방법을 결정하도록 훈련됩니다. 강화 학습의 사용은 좋은 도구 호출 순서와 연구 결정에 보상을 줌으로써 agent가 시간이 지남에 따라 개선되도록 돕습니다.

Gemini Deep Research

Google DeepMind의 Gemini Deep Research 시스템은 멀티모달인 Gemini 모델 위에 구축되었습니다. 이는 동일한 시스템이 텍스트, 이미지 및 기타 유형의 입력에 대해 추론할 수 있음을 의미합니다.

Deep research의 경우, 이를 통해 Gemini는 문서, 웹 페이지 및 기타 미디어의 정보를 결합된 응답으로 통합할 수 있습니다. Gemini의 agent는 계획 능력을 사용하여 무엇을 찾을지, 연구를 어떻게 구조화할지, 그리고 모든 것을 하나의 보고서로 통합하는 방법을 결정합니다.

Claude Advanced Research

Anthropic의 advanced research 시스템은 명확하게 정의된 다중 agent 아키텍처를 사용합니다. 병렬로 실행되는 여러 sub-agent를 조정하는 lead agent가 있습니다. 각 sub-agent는 문제 공간의 특정 부분을 탐색하도록 요청받습니다.

복잡한 주제의 경우, 이 설계를 통해 Claude는 주제를 여러 각도로 나누고 동시에 탐색한 다음 결과를 orchestrator로 다시 가져와 합성할 수 있습니다.

Perplexity Deep Research

Perplexity의 deep research agent는 반복적인 정보 검색 루프를 사용합니다.

검색 및 요약의 단일 패스 대신, 도중에 발견된 새로운 통찰력을 기반으로 검색을 반복적으로 조정합니다.

Perplexity는 또한 작업의 다른 부분에 대해 최상의 기본 모델을 자율적으로 선택할 수 있는 하이브리드 아키텍처를 사용합니다. 예를 들어, 한 모델은 요약에 더 나을 수 있고 다른 모델은 검색 해석에 더 나을 수 있으며, 시스템은 그에 따라 작업을 라우팅할 수 있습니다.

Grok DeepSearch

Grok DeepSearch는 세그먼트 수준 모듈 처리 파이프라인을 가지고 있습니다.

콘텐츠는 세그먼트로 처리되며, 각 세그먼트는 신뢰성 평가 단계를 거칩니다. 또한 Grok은 여러 텍스트 조각에 걸쳐 동시 추론을 수행할 수 있는 sparse attention 메커니즘을 사용합니다.

시스템은 또한 리소스를 동적으로 할당하여 필요에 따라 검색 및 분석 모드 사이를 전환할 수 있으며, 모두 안전한 샌드박스 환경 내에서 이루어집니다.

Microsoft Copilot Researcher and Analyst

Microsoft는 두 가지 관련 추론 agent를 도입했습니다:

Researcher는 웹 정보와 사용자의 작업 데이터를 결합하는 복잡한 다단계 연구 작업에 중점을 둡니다. 다단계 질문을 처리하기 위해 정교한 오케스트레이션 및 검색 기능을 사용합니다.
Analyst는 원시 데이터를 유용한 통찰력으로 해석하고 변환할 수 있는 고급 데이터 분석 agent입니다. chain-of-thought 추론 접근 방식을 사용하여 분석 문제를 분해하고, 적절한 작업을 적용하며, 결과를 제시합니다.

Researcher와 Analyst 모두 기업 데이터와 공개 웹에서 안전하게 작동하도록 설계되었습니다.

Qwen Deep Research

Alibaba의 Qwen Deep Research는 동적 연구 청사진 작성을 지원하는 고급 agent입니다.

초기 연구 계획을 생성한 다음 해당 계획을 대화식으로 개선할 수 있습니다. Qwen의 아키텍처는 동시 작업 오케스트레이션을 지원합니다. 즉, 정보의 검색, 검증 및 합성이 병렬로 발생할 수 있습니다. 이를 통해 시스템이 데이터를 검색하고, 검증하며, 최종 출력에 효율적으로 통합할 수 있습니다.

User Query and Initial Planning

전체 deep research 워크플로우는 단일 사용자 쿼리로 시작됩니다.

사용자는 다양한 방식으로 요청을 표현할 수 있습니다. 일부 사용자는 "AI agent에 대한 모든 것을 알려줘"와 같이 매우 모호한 프롬프트를 작성하는 반면, 다른 사용자는 매우 상세하고 집중된 지시를 제공합니다. 시스템은 이러한 가변성을 처리하고 쿼리를 정확하고 기계 실행 가능한 연구 계획으로 변환할 수 있어야 합니다.

이 초기 단계는 중요합니다. 사용자의 종종 광범위하거나 모호한 요청을 특정 단계가 있는 명확한 전략으로 변환합니다. 최종 보고서의 품질은 이 계획의 품질과 직접적으로 연결됩니다. 계획이 불완전하거나 사용자의 의도를 잘못 해석하면 결과 연구는 주요 정보를 놓치거나 잘못된 방향으로 갈 것입니다.

아래 다이어그램을 참조하세요:

다양한 시스템은 이 계획 단계를 다양한 방식으로 처리합니다.

Interactive Clarification (OpenAI)

OpenAI의 Deep Research와 같은 일부 아키텍처는 대화형 명확화 접근 방식을 사용합니다. 여기서 agent는 즉시 긴 연구 프로세스를 시작하지 않습니다. 대신 사용자에게 후속 질문을 할 수 있습니다. 이러한 질문은 연구 범위를 개선하고, 목표를 명확히 하며, 사용자가 관심 있는 정보를 정확히 확인하도록 설계되었습니다.

예를 들어, 사용자가 기술 비교를 요청하면 agent는 사용자가 최근 개발만 원하는지, 특정 지역이 포함되어야 하는지, 또는 특정 제약 조건이 적용되는지 물을 수 있습니다. 이 대화식 왕복은 agent가 사용자의 요구 사항을 명확히 이해할 때까지 계속되며, 그 시점에 전체 연구 프로세스에 착수합니다.

Autonomous Plan Proposal (Gemini)

Google의 Gemini와 같은 다른 시스템은 다른 경로를 취합니다. 기본적으로 사용자에게 후속 질문을 하는 대신, Gemini는 초기 쿼리의 해석을 기반으로 포괄적인 다단계 계획을 자율적으로 생성할 수 있습니다. 이 계획은 시스템이 탐색하려는 하위 작업 및 연구 각도를 개략적으로 설명합니다.

그런 다음 Gemini는 이 제안된 계획을 사용자에게 검토 및 승인을 위해 제시합니다. 사용자는 계획을 읽고, 편집하고, 제약 조건을 추가하거나, 원하지 않는 하위 작업을 제거할 수 있습니다. 사용자가 만족하고 계획을 승인하면 시스템은 연구 프로세스를 시작합니다.

Sub-Agent Delegation and Parallel Execution

계획이 준비되면 시스템은 전략에서 실행으로 이동합니다. 단일 agent가 모든 단계를 수행하는 대신, lead agent는 "자신을 위해 일하는" 여러 sub-agent에게 작업을 위임합니다.

Anthropic의 아래 다이어그램은 lead agent가 병렬로 실행되는 전문 agent에게 작업을 할당한 다음 결과를 중앙 합성 프로세스로 다시 수집하는 방법을 보여줍니다.

출처: Anthropic Engineering Blog

Task Delegation and Sub-Agent Specialization

Lead agent는 구조화된 API 호출을 사용하여 각 하위 작업을 위임합니다. 기술적으로 이는 orchestrator가 sub-agent가 필요로 하는 모든 것을 포함하는 페이로드와 함께 다른 서비스(sub-agent)를 호출함을 의미합니다:

"2024년 Q4의 NVIDIA 재무 성과 조사"와 같은 특정 연구 목표를 설명하는 정확한 프롬프트.
시간 범위, 데이터 소스 또는 읽을 페이지 수에 대한 제한과 같은 제약 조건.
액세스 권한 및 도구 구성으로, sub-agent가 사용할 수 있는 도구를 알 수 있습니다.

Sub-agent는 종종 완전히 일반적이기보다는 전문화되어 있습니다. 일부 시스템에는 범용 "연구 agent"가 있을 수 있지만, 특정 기능에 맞게 조정된 agent 풀을 보는 것이 더 일반적입니다. 예를 들면:

효과적인 검색 쿼리 형성, 검색 엔진과의 상호작용 및 결과 스니펫 해석에 특화된 웹 검색 agent.
코드 인터프리터에 액세스하여 통계 분석을 수행하고, CSV 파일을 처리하거나, 간단한 시각화를 생성할 수 있는 데이터 분석 agent.

전문 agent를 사용함으로써 시스템은 계획의 각 부분에 최상의 도구와 접근 방식을 적용할 수 있으며, 이는 전체 연구의 정확성과 효율성을 모두 향상시킵니다.

Parallel Execution and Tool Use

이 아키텍처의 주요 이점은 병렬 실행입니다. Sub-agent가 별도의 서비스이므로 많은 agent가 동시에 실행될 수 있습니다. 한 sub-agent는 시장 동향을 연구하고, 다른 agent는 과거 재무 데이터를 수집하며, 세 번째 agent는 경쟁자 전략을 조사할 수 있으며, 모두 병렬로 진행됩니다.

그러나 모든 작업이 동시에 실행되는 것은 아닙니다. 일부 작업은 다른 작업이 완료될 때까지 기다려야 합니다. Orchestrator는 종속성을 추적하고 입력이 준비되면 sub-agent를 트리거합니다.

외부 세계와 상호작용하기 위해 sub-agent는 도구를 사용합니다. Agent 자체는 웹이나 파일에 직접 액세스할 수 없습니다. 대신, 시스템이 대신 실행하는 도구 호출을 발행합니다.

일반적인 도구는 다음과 같습니다:

Search tool: Agent는 web_search(query="Microsoft 365 Copilot에 대한 분석가 평가")와 같은 것을 호출합니다. 시스템은 이 쿼리를 외부 검색 엔진 API(예: Google 또는 Bing)로 보내고 URL 및 스니펫 목록을 반환합니다.
Browser tool: 검색 결과를 받은 후, agent는 browse(url="...")를 호출하여 웹페이지의 전체 콘텐츠를 가져올 수 있습니다. 브라우저 도구는 페이지 텍스트를 반환하고, agent는 이를 처리합니다.
Code interpreter tool: 숫자 또는 데이터 집약적 작업의 경우, agent는 Python 코드를 작성하고 안전한 샌드박스 환경에서 실행할 수 있습니다. 코드 인터프리터는 CSV 데이터를 읽고, 평균을 계산하거나, 기본 분석을 실행할 수 있습니다. 그런 다음 agent는 출력을 읽고 결과를 보고서에 통합합니다.

Information Retrieval and Contextual Awareness

Sub-agent가 도구로부터 데이터를 받으면, 정보가 목표와 관련이 있는지 지속적으로 평가해야 합니다. 여기에는 다음이 포함됩니다:

출처가 권위 있거나 신뢰할 수 있는지 확인.
가능한 경우 여러 페이지에서 사실을 상호 참조.
초기 검색 결과가 약할 때 알아차리고 쿼리 조정.

예를 들어, 검색이 대부분 관련 없는 마케팅 페이지를 반환하면, agent는 더 구체적인 용어나 필터로 쿼리를 개선할 수 있습니다. "PDF", "분기별 보고서" 또는 특정 연도와 같은 키워드를 추가하여 결과를 좁힐 수 있습니다.

Agent가 유용한 콘텐츠를 찾으면, 관련 스니펫을 추출하고 원본 URL과 함께 저장합니다. 이 콘텐츠와 인용의 짝짓기는 나중에 합성 단계에서 사용되는 모든 정보가 출처로 추적 가능하도록 보장하기 때문에 필수적입니다.

각 sub-agent는 지금까지 본 것에 대한 자체 단기 메모리 또는 "컨텍스트"를 유지합니다. 이 메모리를 통해 하위 작업에 대한 일관된 이해를 구축하고 작업 반복을 피할 수 있습니다. Sub-agent가 할당을 완료하면 결과와 인용을 모두 포함하는 잘 구조화된 정보 패킷을 반환합니다.

전체 검색 단계의 출력은 아직 단일 문서가 아닙니다. 대신, 연구 문제의 다른 부분에 초점을 맞춘 모든 sub-agent의 이러한 자체 포함 정보 패킷 모음입니다.

아래 다이어그램을 참조하세요:

Synthesis and Report Generation

모든 sub-agent가 결과를 반환하면, 시스템은 합성 단계에 들어갑니다. 이 시점에서 시스템은 각각 연구 계획의 특정 부분에 연결된 많은 양의 단편화된 통찰력을 가지고 있습니다. 목표는 이러한 조각을 통합된 보고서로 변환하는 것입니다.

아래 다이어그램을 참조하세요:

Content Aggregation and Thematic Analysis

Orchestrator 또는 synthesizer agent는 모든 정보 패킷을 수집하는 것으로 시작합니다. 주제, 중복 및 논리적 연결을 식별하기 위해 높은 수준의 분석을 수행합니다. 예를 들어, 시장 채택에 대한 통찰력은 고객 감정에 대한 통찰력을 보완할 수 있으며, 둘 다 보고서의 더 광범위한 섹션에 들어갈 수 있습니다.

그런 다음 synthesizer는 최종 문서에 대한 내러티브 개요를 구성합니다. 시간순, 주제별 또는 문제 및 솔루션을 기반으로 자료에 가장 적합한 구조를 결정합니다. 여러 sub-agent의 중복 정보는 단일하고 깔끔한 진술로 병합됩니다.

Narrative Generation and the Citation Process

개요가 준비되면 agent가 보고서 작성을 시작합니다. 추출된 사실을 통합하고, 섹션 간 전환을 만들며, 일관된 톤을 유지합니다. 작성하면서 각 주장은 출처에 연결됩니다. 일부 시스템은 초안을 검토하고 올바른 위치에 인용을 삽입하는 전용 citation agent에게 이 단계를 할당합니다.

이 단계는 환각을 방지하고 최종 보고서의 모든 주장이 검증된 출처로 추적될 수 있도록 보장하기 때문에 중요합니다.

결과는 인용으로 뒷받침되고 필요한 경우 공식 참고 문헌이 있는 세련된 연구 문서입니다.

Conclusion

Deep Research 시스템은 계획, 병렬 탐색 및 구조화된 합성을 조정하는 다중 agent 아키텍처에 의존합니다.

전문 sub-agent는 정보를 검색하고, 평가하며, 상세한 결과를 반환합니다. 그런 다음 orchestrator 또는 synthesizer는 이 분산된 지식을 일관되고 잘 인용된 보고서로 전환합니다. LLM이 계획, 추론 및 도구 사용에서 개선됨에 따라 이러한 시스템은 계속해서 더 유능하고, 더 신뢰할 수 있으며, 더 포괄적이 될 것입니다.

참고자료: