█ 本地 AI 架构

● 在线运行

QUEN3 : 0 . 6 B

本地部署 · 离线运行 · 快速响应
由 OpenClaw 自动调度处理简单任务

模型已加载

● llama-cpp-python v0.3.19

● 上下文 2048 tokens

● CPU 推理

任务调度流程

💬

用户请求

简单任务识别

→

🧠

OpenClaw

判断任务复杂度

→

⚡

Qwen3 本地

0.6B 快速推理

→

✅

返回结果

响应用户

模型规格

🧮

参数量

0.6B

600 Million

Qwen3 系列最小规格模型
轻量高效

📦

量化方式

Q8_0

8-bit 量化

文件大小 610MB
精度与大小平衡

📝

上下文

2048

tokens

实际加载 n_ctx=2048
训练上下文 40960

⚙️

推理引擎

llama.cpp

CPython Bindings

llama-cpp-python v0.3.19
CPU 高效推理

📥

模型来源

ModelScope

魔搭社区

qwen/Qwen3-0.6B-GGUF
国内高速下载

🚀

~3s

单次响应

本地 CPU 推理

无需网络延迟
节省主模型 token

实时任务演示

Task 01

中译英：今天天气真好

Today is a really nice day.

⏱ 2.88s ✓ 成功 Q8_0 量化

Task 02

JSON → Markdown 表格

| 姓名 | 年龄 |
|------|------|
| 张三 | 30 |
| 李四 | 25 |

⏱ 2.5s ✓ 成功格式转换

Task 03

给代码加注释：def add(a,b):return a+b

# 加法函数
def add(a, b):
# 返回两数之和
return a + b

⏱ 2.7s ✓ 成功代码注释

🔬 工具调用实验（Tool Calling）

大模型调用工具的原理是"格式约定"——模型输出特定 XML 格式文本，外部程序解析后执行。通过 System Prompt 教 Qwen3 学会工具调用格式，实验结果如下：

实验一：基础格式学习

System Prompt：告知基础格式
用户：计算 1+1

            <invoke name="calculator" param="1 1"/>
          

✅ 学会了格式，自创了 calculator 工具名

实验二：限定工具名

System Prompt：定义 translate 工具
用户：把 Hello 翻译成中文

            <invoke name="translate">
  <parameter name="text">Hello</parameter>
  <parameter name="source">en</parameter>
  <parameter name="target">zh</parameter>
</invoke>
          

✅ 正确输出完整工具调用

💡 核心发现

Qwen3 可以学会工具调用格式（通过 System Prompt）
能理解"当我需要时应该调用工具"
能正确填入参数
局限：需要预先告诉它有哪些工具可用

适用 vs 不适用

✓ 适合的任务

• 短文本翻译
• 格式解析（JSON/列表提取）
• 简单问答
• 文本改写/润色
• 代码注释
• 快速生成草稿
• 工具调用（已验证）

✗ 不适合的任务

• 复杂推理
• 长文本处理（超 2048 token）
• 需要最新信息的任务
• 中文复杂任务
• 多轮对话
• 创意写作

📜 实战项目：资治通鉴人名提取

后台运行中预计完成：明天上午

使用 Qwen3:0.6B + /no_think 模式，对《资治通鉴》全 294 卷进行人名实体识别提取。

3,247,687

原文字符

17,389

分段数

3,478

总批次数

已处理批

已识别人名

📋 已识别人名（实时更新）

司马光

数据来源：names_ckp.json（刷新查看最新）

📁 原始数据文件：

📄 资治通鉴全文.txt 9.0 MB 📊 提取进度.json 实时 ✅ 最终结果.json 完成后生成 🔊 音频录制状态 progress.json

⚙️ 提取脚本： extract_names_v2.py

📝 脚本配置： CHUNK_SIZE=200 | BATCH=5 | /no_think + chat | 断点续跑