本地 AI 架构

● 在线运行

QUEN3 : 0 . 6 B

本地部署 · 离线运行 · 快速响应
OpenClaw 自动调度处理简单任务

模型已加载
● llama-cpp-python v0.3.19
● 上下文 2048 tokens
● CPU 推理
任务调度流程
💬
用户请求
简单任务识别
🧠
OpenClaw
判断任务复杂度
Qwen3 本地
0.6B 快速推理
返回结果
响应用户
模型规格
🧮

参数量

0.6B
600 Million
Qwen3 系列最小规格模型
轻量高效
📦

量化方式

Q8_0
8-bit 量化
文件大小 610MB
精度与大小平衡
📝

上下文

2048
tokens
实际加载 n_ctx=2048
训练上下文 40960
⚙️

推理引擎

llama.cpp
CPython Bindings
llama-cpp-python v0.3.19
CPU 高效推理
📥

模型来源

ModelScope
魔搭社区
qwen/Qwen3-0.6B-GGUF
国内高速下载
🚀
~3s

单次响应

本地 CPU 推理
无需网络延迟
节省主模型 token
实时任务演示
Task 01
中译英:今天天气真好
Today is a really nice day.
⏱ 2.88s ✓ 成功 Q8_0 量化
Task 02
JSON → Markdown 表格
| 姓名 | 年龄 |
|------|------|
| 张三 | 30 |
| 李四 | 25 |
⏱ 2.5s ✓ 成功 格式转换
Task 03
给代码加注释:def add(a,b):return a+b
# 加法函数
def add(a, b):
# 返回两数之和
return a + b
⏱ 2.7s ✓ 成功 代码注释
🔬 工具调用实验(Tool Calling)

大模型调用工具的原理是"格式约定"——模型输出特定 XML 格式文本,外部程序解析后执行。 通过 System Prompt 教 Qwen3 学会工具调用格式,实验结果如下:

实验一:基础格式学习
System Prompt:告知基础格式
用户:计算 1+1
<invoke name="calculator" param="1 1"/>
✅ 学会了格式,自创了 calculator 工具名
实验二:限定工具名
System Prompt:定义 translate 工具
用户:把 Hello 翻译成中文
<invoke name="translate">
  <parameter name="text">Hello</parameter>
  <parameter name="source">en</parameter>
  <parameter name="target">zh</parameter>
</invoke>
✅ 正确输出完整工具调用
💡 核心发现
  • Qwen3 可以学会工具调用格式(通过 System Prompt)
  • 能理解"当我需要时应该调用工具"
  • 能正确填入参数
  • 局限:需要预先告诉它有哪些工具可用
适用 vs 不适用

✓ 适合的任务

  • • 短文本翻译
  • • 格式解析(JSON/列表提取)
  • • 简单问答
  • • 文本改写/润色
  • • 代码注释
  • • 快速生成草稿
  • 工具调用(已验证)

✗ 不适合的任务

  • • 复杂推理
  • • 长文本处理(超 2048 token)
  • • 需要最新信息的任务
  • • 中文复杂任务
  • • 多轮对话
  • • 创意写作
📜 实战项目:资治通鉴人名提取
后台运行中 预计完成:明天上午

使用 Qwen3:0.6B + /no_think 模式,对《资治通鉴》全 294 卷进行人名实体识别提取。

3,247,687
原文字符
17,389
分段数
3,478
总批次数
1
已处理批
1
已识别人名
📋 已识别人名(实时更新)
司马光
数据来源:names_ckp.json(刷新查看最新)
📁 原始数据文件:
📄 资治通鉴全文.txt 9.0 MB 📊 提取进度.json 实时 ✅ 最终结果.json 完成后生成 🔊 音频录制状态 progress.json
⚙️ 提取脚本: extract_names_v2.py
📝 脚本配置: CHUNK_SIZE=200 | BATCH=5 | /no_think + chat | 断点续跑