Gemini CLI 架构概览

本文档提供了 Gemini CLI 架构的高层概述。

核心组件

Gemini CLI 主要由两个主要包组成，以及一套可在处理命令行输入过程中被系统使用的工具：

CLI 包 (packages/cli)：
- 目的： 这包含 Gemini CLI 面向用户的部分，如处理初始用户输入、呈现最终输出和管理整体用户体验。
- 包中包含的关键功能：
  - 输入处理
  - 历史管理
  - 显示渲染
  - 主题和 UI 自定义
  - CLI 配置设置
核心包 (packages/core)：
- 目的： 这充当 Gemini CLI 的后端。它接收来自 packages/cli 的请求，协调与 Gemini API 的交互，并管理可用工具的执行。
- 包中包含的关键功能：
  - 用于与 Google Gemini API 通信的 API 客户端
  - 提示构造和管理
  - 工具注册和执行逻辑
  - 对话或会话的状态管理
  - 服务器端配置
工具 (packages/core/src/tools/)：
- 目的： 这些是扩展 Gemini 模型功能的独立模块，允许它与本地环境交互（例如，文件系统、shell 命令、web 获取）。
- 交互： packages/core 根据来自 Gemini 模型的请求调用这些工具。

与 Gemini CLI 的典型交互遵循以下流程：

用户输入： 用户在终端中输入提示或命令，由 packages/cli 管理。
请求到核心： packages/cli 将用户的输入发送到 packages/core。
请求处理： 核心包：
- 为 Gemini API 构造适当的提示，可能包括对话历史和可用工具定义。
- 将提示发送到 Gemini API。
Gemini API 响应： Gemini API 处理提示并返回响应。此响应可能是直接答案或使用可用工具之一的请求。
工具执行（如果适用）：
- 当 Gemini API 请求工具时，核心包准备执行它。
- 如果请求的工具可以修改文件系统或执行 shell 命令，首先向用户提供工具及其参数的详细信息，用户必须批准执行。
- 只读操作，如读取文件，可能不需要明确的用户确认即可继续。
- 一旦确认，或如果不需要确认，核心包在相关工具内执行相关操作，结果由核心包发送回 Gemini API。
- Gemini API 处理工具结果并生成最终响应。
响应到 CLI： 核心包将最终响应发送回 CLI 包。
显示给用户： CLI 包格式化并在终端中向用户显示响应。