部署对话 AI

随着人工智能不断被炒作，自行部署聊天AI已经成为了板上钉钉的需求。

劝退

虽然自部署有很多好处，但其成本/代价往往是难以逾越的鸿沟，比如设备、维护。

即使普通人使用几千元的显卡来加速，其显存依旧有限。因为AI的智商和其参数量正相关、能加载的参数量受显存大小限制，所以低显存下加载的低参数模型，智慧层级宛如弱智。要获得高智商AI，就得加载100B，甚至更多的参数。但其显存需求显然不是正常人能接受的。

如果不用GPU加速，而是只使用CPU。那么基本上，生成速度远低于大多数人对于实时生成的容忍度。换句话说，就是慢。

Windwos

Ollama是进入Chat AI的捷径，所以本教程主要由Ollama驱动。

下载 Ollama，安装

网络加速

为了提升模型的下载速度，建议使用Clash加速。要加速命令行程序，需要临时启用隧道模式（Tun）。
如果能对DOMAIN-SUFFIX,cloudflarestorage.com负载均衡，可能跑满带宽。我的经历是，对其负载均衡后，下载模型的大部分阶段，都能达到40MB/s。

修改配置

Ollama默认保存模型在C盘。通过环境变量，可以修改保存位置。

shell

sext OLLAMA_MODELS "D:/Program/Ollama/Models"

powershell

echo $env:OLLAMA_MODELS # 验证环境变量的值

INFO

环境变量的更改对现有Shell无效，需要开启新的Shell以应用更改。

Ollama默认的网络访问策略比较严格。要通过网络访问，可以适当放宽限制。

shell

setx OLLAMA_HOST "0.0.0.0" # 在所有网络中监听
setx OLLAMA_ORIGINS "*" # 允许所有IP的访问
setx OLLAMA_ORIGINS "192.168.0.0/16, 10.0.0.0/8, 172.16.0.0/12, fc00::/7, fe80::/10" # 允许局域网访问

Linux

果然还是Docker简单。

纯CPU

Ollama (Docker Compose)

yml

name: ollama
services:
  ollama:
    volumes:
      - /app/ollama:/root/.ollama
    ports:
      - 11434:11434
    container_name: ollama
    image: ollama/ollama
    environment:
      OLLAMA_HOST: "0.0.0.0"
      OLLAMA_ORIGINS: "192.168.0.0/16, 10.0.0.0/8, 172.16.0.0/12, fc00::/7, fe80::/10"

NVIDIA GPU

请参考 Olllama 的Docker文档。因为当前~~显卡太贵~~（资金不足），所以我没有研究显卡部署的条件。

控制

进入其Shell，以操控。

shell

docker exec -it ollama bash

下载模型

在Ollama的网站上探索支持的模型。选择好后，执行其运行命令，比如ollama run deepseek-r1。Ollama会自动下载本地不存在的模型。
在终端聊天一两回合，验证是否成功部署。

优雅地使用

我推荐通过 ChatBox 聊天，而不是终端。安装好后，在设置中，修改模型提供方为Ollama，选择默认的模型。保存。
如果Ollama不在本地，则需要修改API地址。

参考

DeepSeek-R1 最强开源AI大模型！本地部署，完全免费，实力媲美 OpenAI o1 | 零度解说 - YouTube
如何将 Chatbox 连接到远程 Ollama 服务：逐步指南 - Chatbox 帮助中心：指南与常见问题

部署对话 AI ​

劝退 ​

Windwos ​

网络加速 ​

修改配置 ​

Linux ​

纯CPU ​

NVIDIA GPU ​

控制 ​

下载模型 ​

优雅地使用 ​

参考 ​

部署对话 AI

劝退

Windwos

网络加速

修改配置

Linux

纯CPU

NVIDIA GPU

控制

下载模型

优雅地使用

参考