Skip to content

部署对话 AI

随着人工智能不断被炒作,自行部署聊天AI已经成为了板上钉钉的需求。

劝退

虽然自部署有很多好处,但其成本/代价往往是难以逾越的鸿沟,比如设备、维护。

即使普通人使用几千元的显卡来加速,其显存依旧有限。因为AI的智商和其参数量正相关、能加载的参数量受显存大小限制,所以低显存下加载的低参数模型,智慧层级宛如弱智。要获得高智商AI,就得加载100B,甚至更多的参数。但其显存需求显然不是正常人能接受的。

如果不用GPU加速,而是只使用CPU。那么基本上,生成速度远低于大多数人对于实时生成的容忍度。换句话说,就是

Windwos

Ollama是进入Chat AI的捷径,所以本教程主要由Ollama驱动。

  1. 下载 Ollama,安装

网络加速

为了提升模型的下载速度,建议使用Clash加速。要加速命令行程序,需要临时启用隧道模式(Tun)。
如果能对DOMAIN-SUFFIX,cloudflarestorage.com负载均衡,可能跑满带宽。我的经历是,对其负载均衡后,下载模型的大部分阶段,都能达到40MB/s。

修改配置

Ollama默认保存模型在C盘。通过环境变量,可以修改保存位置。

shell
sext OLLAMA_MODELS "D:/Program/Ollama/Models"
powershell
echo $env:OLLAMA_MODELS # 验证环境变量的值

INFO

环境变量的更改对现有Shell无效,需要开启新的Shell以应用更改。

Ollama默认的网络访问策略比较严格。要通过网络访问,可以适当放宽限制。

shell
setx OLLAMA_HOST "0.0.0.0" # 在所有网络中监听
setx OLLAMA_ORIGINS "*" # 允许所有IP的访问
setx OLLAMA_ORIGINS "192.168.0.0/16, 10.0.0.0/8, 172.16.0.0/12, fc00::/7, fe80::/10" # 允许局域网访问

Linux

果然还是Docker简单。

纯CPU

Ollama (Docker Compose)
yml
name: ollama
services:
  ollama:
    volumes:
      - /app/ollama:/root/.ollama
    ports:
      - 11434:11434
    container_name: ollama
    image: ollama/ollama
    environment:
      OLLAMA_HOST: "0.0.0.0"
      OLLAMA_ORIGINS: "192.168.0.0/16, 10.0.0.0/8, 172.16.0.0/12, fc00::/7, fe80::/10"

NVIDIA GPU

请参考 Olllama 的Docker文档。因为当前显卡太贵(资金不足),所以我没有研究显卡部署的条件。

控制

进入其Shell,以操控。

shell
docker exec -it ollama bash

下载模型

  1. 在Ollama的网站上探索支持的模型。选择好后,执行其运行命令,比如ollama run deepseek-r1。Ollama会自动下载本地不存在的模型。
  2. 在终端聊天一两回合,验证是否成功部署。

优雅地使用

我推荐通过 ChatBox 聊天,而不是终端。安装好后,在设置中,修改模型提供方为Ollama,选择默认的模型。保存。
如果Ollama不在本地,则需要修改API地址。

参考

DeepSeek-R1 最强开源AI大模型!本地部署,完全免费,实力媲美 OpenAI o1 | 零度解说 - YouTube
如何将 Chatbox 连接到远程 Ollama 服务:逐步指南 - Chatbox 帮助中心:指南与常见问题