RepoZhipu AI (GLM)Zhipu AI (GLM)published Dec 8, 2025seen 5d

zai-org/Open-AutoGLM

Python

Open original ↗

Captured source

source ↗
published Dec 8, 2025seen 5dcaptured 10hhttp 200method plain

zai-org/Open-AutoGLM

Description: An Open Phone Agent Model & Framework. Unlocking the AI Phone for Everyone

Language: Python

License: Apache-2.0

Stars: 25486

Forks: 3972

Open issues: 252

Created: 2025-12-08T09:23:44Z

Pushed: 2026-03-06T08:38:39Z

Default branch: main

Fork: no

Archived: no

README:

Open-AutoGLM

[Readme in English](README_en.md)

👋 加入我们的 微信 社区

👋 关注智谱 AI 输入法 X 账号

🎤 进一步在我们的产品 智谱 AI 输入法 体验“用嘴发指令”

AutoGLM 实战派 开发者激励活动火热进行中,跑通、二创即可瓜分数万元现金奖池!成果提交 👉 入口

懒人版快速安装

你可以使用Claude Code,配置 GLM Coding Plan 后,输入以下提示词,快速部署本项目。

访问文档,为我安装 AutoGLM
https://raw.githubusercontent.com/zai-org/Open-AutoGLM/refs/heads/main/README.md

项目介绍

Phone Agent 是一个基于 AutoGLM 构建的手机端智能助理框架,它能够以多模态方式理解手机屏幕内容,并通过自动化操作帮助用户完成任务。系统通过 ADB(Android Debug Bridge)来控制设备,以视觉语言模型进行屏幕感知,再结合智能规划能力生成并执行操作流程。用户只需用自然语言描述需求,如“打开小红书搜索美食”,Phone Agent 即可自动解析意图、理解当前界面、规划下一步动作并完成整个流程。系统还内置敏感操作确认机制,并支持在登录或验证码场景下进行人工接管。同时,它提供远程 ADB 调试能力,可通过 WiFi 或网络连接设备,实现灵活的远程控制与开发。

> ⚠️ > 本项目仅供研究和学习使用。严禁用于非法获取信息、干扰系统或任何违法活动。请仔细审阅 [使用条款](resources/privacy_policy.txt)。

与其他自动化工具集成

Midscene.js

Midscene.js 是一款由视觉模型驱动的开源 UI 自动化 SDK,支持通过 JavaScript 或 Yaml 格式的流程语法,实现多平台的自动化。

目前 Midscene.js 已完成对 AutoGLM 模型的适配,你可以通过 Midscene.js 接入指南 快速体验 AutoGLM 在 iOS 和 Android 设备上的自动化效果。

模型下载地址

| Model | Download Links | |-------------------------------|------------------------------------------------------------------------------------------------------------------------------------------------------------------------| | AutoGLM-Phone-9B | 🤗 Hugging Face 🤖 ModelScope | | AutoGLM-Phone-9B-Multilingual | 🤗 Hugging Face 🤖 ModelScope |

其中,AutoGLM-Phone-9B 是针对中文手机应用优化的模型,而 AutoGLM-Phone-9B-Multilingual 支持英语场景,适用于包含英文等其他语言内容的应用。

Android 环境准备

1. Python 环境

建议使用 Python 3.10 及以上版本。

2. 手机调试命令行工具

根据你的设备类型选择相应的工具:

对于 Android 设备 - 使用 ADB

1. 下载官方 ADB 安装包,并解压到自定义路径 2. 配置环境变量

  • MacOS 配置方法:在 Terminal 或者任何命令行工具里
# 假设解压后的目录为 ~/Downloads/platform-tools。如果不是请自行调整命令。
export PATH=${PATH}:~/Downloads/platform-tools

对于鸿蒙设备 (HarmonyOS NEXT版本以上) - 使用 HDC

1. 下载 HDC 工具:

2. 配置环境变量

  • MacOS/Linux 配置方法:
# 假设解压后的目录为 ~/Downloads/harmonyos-sdk/toolchains。请根据实际路径调整。
export PATH=${PATH}:~/Downloads/harmonyos-sdk/toolchains
  • Windows 配置方法:将 HDC 工具所在目录添加到系统 PATH 环境变量

3. Android 7.0+ 或 HarmonyOS 设备,并启用 开发者模式USB 调试

1. 开发者模式启用:通常启用方法是,找到 设置-关于手机-版本号 然后连续快速点击 10 次左右,直到弹出弹窗显示“开发者模式已启用”。不同手机会有些许差别,如果找不到,可以上网搜索一下教程。 2. USB 调试启用:启用开发者模式之后,会出现 设置-开发者选项-USB 调试,勾选启用 3. 部分机型在设置开发者选项以后, 可能需要重启设备才能生效. 可以测试一下: 将手机用USB数据线连接到电脑后, adb devices 查看是否有设备信息, 如果没有说明连接失败.

请务必仔细检查相关权限

![权限](resources/screenshot-20251209-181423.png)

4. 安装 ADB Keyboard(仅 Android 设备需要,用于文本输入)

注意:鸿蒙设备使用原生输入方法,无需安装 ADB Keyboard。

如果你使用的是 Android 设备:

下载 安装包 并在对应的安卓设备中进行安装。 注意,安装完成后还需要到 设置-输入法 或者 设置-键盘列表 中启用 ADB Keyboard 才能生效(或使用命令adb shell ime enable com.android.adbkeyboard/.AdbIMEHow-to-use)

iPhone 环境准备

如果你使用的是 iPhone 设备,请参考专门的 iOS 配置文档:

📱 [iOS 环境配置指南](docs/ios_setup/ios_setup.md)

该文档详细介绍了如何配置 WebDriverAgent 和 iPhone 设备,以便在 iOS 上使用 AutoGLM。

部署准备工作

1. 安装依赖

pip install -r requirements.txt
pip install -e .

2. 配置 ADB 或 HDC

对于 Android 设备

确认 USB数据线具有数据传输功能, 而不是仅有充电功能

确保已安装 ADB 并使用 USB数据线 连接设备:

# 检查已连接的设备
adb devices

# 输出结果应显示你的设备,如:
# List of devices attached
# emulator-5554 device

对于鸿蒙设备

确认 USB数据线具有数据传输功能, 而不是仅有充电功能

确保已安装 HDC 并使用 USB数据线 连接设备:

# 检查已连接的设备
hdc list targets

# 输出结果应显示你的设备,如:
# 7001005458323933328a01bce01c2500

3. 启动模型服务

你可以选择自行部署模型服务,或使用第三方模型服务商。

选项 A: 使用第三方模型服务

如果你不想自行部署模型,可以使用以下已部署我们模型的第三方服务:

1. 智谱 BigModel

  • 文档: https://docs.bigmodel.cn/cn/api/introduction
  • --base-url: https://open.bigmodel.cn/api/paas/v4
  • --model: autoglm-phone
  • --apikey: 在智谱平台申请你的 API Key

2. ModelScope(魔搭社区)

  • 文档: https://modelscope.cn/models/ZhipuAI/AutoGLM-Phone-9B
  • --base-url: https://api-inference.modelscope.cn/v1
  • --model: ZhipuAI/AutoGLM-Phone-9B
  • --apikey: 在 ModelScope 平台申请你的 API Key

使用第三方服务的示例:

# 使用智谱 BigModel
python main.py --base-url https://open.bigmodel.cn/api/paas/v4 --model "autoglm-phone" --apikey "your-bigmodel-api-key" "打开美团搜索附近的火锅店"

# 使用 ModelScope
python main.py --base-url https://api-inference.modelscope.cn/v1 --model "ZhipuAI/AutoGLM-Phone-9B" --apikey "your-modelscope-api-key" "打开美团搜索附近的火锅店"

选项 B: 自行部署模型

如果你希望在本地或自己的服务器上部署模型:

1. 按照 requirements.txtFor Model Deployment 章节自行安装推理引擎框架。

对于SGLang, 除了使用pip安装,你也可以使用官方docker: > > ``shell > docker pull lmsysorg/sglang:v0.5.6.post1 > > > 进入容器,执行 > > > pip install nvidia-cudnn-cu12==9.16.0.29 >

对于 vLLM,除了使用pip 安装,你也可以使用官方docker: > > ``shell > docker pull vllm/vllm-openai:v0.12.0 > > > 进入容器,执行 > > > pip install -U transformers --pre >

注意: 上述步骤出现的关于 transformers 的依赖冲突可以忽略。

1. 在对应容器或者实体机中(非容器安装)下载模型,通过 SGlang / vLLM 启动,得到 OpenAI 格式服务。这里提供一个 vLLM部署方案,请严格遵循我们提供的启动参数:

  • vLLM:
python3 -m vllm.entrypoints.openai.api_server \
--served-model-name autoglm-phone-9b \
--allowed-local-media-path / \
--mm-encoder-tp-mode data \
--mm_processor_cache_type shm \
--mm_processor_kwargs "{\"max_pixels\":5000000}" \
--max-model-len 25480 \
--chat-template-content-format string \
--limit-mm-per-prompt "{\"image\":10}" \
--model zai-org/AutoGLM-Phone-9B \
--port 8000
  • SGLang:
python3 -m sglang.launch_server --model-path zai-org/AutoGLM-Phone-9B \
--served-model-name autoglm-phone-9b \
--context-length 25480 \
--mm-enable-dp-encoder \
--mm-process-config '{"image":{"max_pixels":5000000}}' \
--port 8000
  • 该模型结构与 GLM-4.1V-9B-Thinking 相同, 关于模型部署的详细内容,你也以查看…

Excerpt shown — open the source for the full document.

Notability

notability 8.0/10

High GitHub stars, significant open-source release