部署对话 AI
随着人工智能不断被炒作,自行部署聊天AI已经成为了板上钉钉的需求。
劝退
虽然自部署有很多好处,但其成本/代价往往是难以逾越的鸿沟,比如设备、维护。
即使普通人使用几千元的显卡来加速,其显存依旧有限。因为AI的智商和其参数量正相关、能加载的参数量受显存大小限制,所以低显存下加载的低参数模型,智慧层级宛如弱智。要获得高智商AI,就得加载100B,甚至更多的参数。但其显存需求显然不是正常人能接受的。
如果不用GPU加速,而是只使用CPU。那么基本上,生成速度远低于大多数人对于实时生成的容忍度。换句话说,就是慢。
Windwos
Ollama是进入Chat AI的捷径,所以本教程主要由Ollama驱动。
- 下载 Ollama,安装
网络加速
为了提升模型的下载速度,建议使用Clash加速。要加速命令行程序,需要临时启用隧道模式(Tun)。
如果能对DOMAIN-SUFFIX,cloudflarestorage.com负载均衡,可能跑满带宽。我的经历是,对其负载均衡后,下载模型的大部分阶段,都能达到40MB/s。
修改配置
Ollama默认保存模型在C盘。通过环境变量,可以修改保存位置。
sext OLLAMA_MODELS "D:/Program/Ollama/Models"echo $env:OLLAMA_MODELS # 验证环境变量的值INFO
环境变量的更改对现有Shell无效,需要开启新的Shell以应用更改。
Ollama默认的网络访问策略比较严格。要通过网络访问,可以适当放宽限制。
setx OLLAMA_HOST "0.0.0.0" # 在所有网络中监听
setx OLLAMA_ORIGINS "*" # 允许所有IP的访问
setx OLLAMA_ORIGINS "192.168.0.0/16, 10.0.0.0/8, 172.16.0.0/12, fc00::/7, fe80::/10" # 允许局域网访问Linux
果然还是Docker简单。
纯CPU
Ollama (Docker Compose)
name: ollama
services:
ollama:
volumes:
- /app/ollama:/root/.ollama
ports:
- 11434:11434
container_name: ollama
image: ollama/ollama
environment:
OLLAMA_HOST: "0.0.0.0"
OLLAMA_ORIGINS: "192.168.0.0/16, 10.0.0.0/8, 172.16.0.0/12, fc00::/7, fe80::/10"NVIDIA GPU
请参考 Olllama 的Docker文档。因为当前显卡太贵(资金不足),所以我没有研究显卡部署的条件。
控制
进入其Shell,以操控。
docker exec -it ollama bash下载模型
- 在Ollama的网站上探索支持的模型。选择好后,执行其运行命令,比如
ollama run deepseek-r1。Ollama会自动下载本地不存在的模型。 - 在终端聊天一两回合,验证是否成功部署。
优雅地使用
我推荐通过 ChatBox 聊天,而不是终端。安装好后,在设置中,修改模型提供方为Ollama,选择默认的模型。保存。
如果Ollama不在本地,则需要修改API地址。
参考
DeepSeek-R1 最强开源AI大模型!本地部署,完全免费,实力媲美 OpenAI o1 | 零度解说 - YouTube
如何将 Chatbox 连接到远程 Ollama 服务:逐步指南 - Chatbox 帮助中心:指南与常见问题