Ollama：打造本地 AI 智能助手的终极方案

Ollama 是目前部署本地大语言模型（LLM）的最便捷方式之一。借助其轻量运行框架与强大生态，你可以在本地无网络环境下，运行 Llama3、Qwen、Mistral、Gemma 等开源模型，实现聊天问答、文档总结、代码生成等功能，甚至作为 API 提供服务。

🧠 什么是 Ollama？

Ollama 是一个开源项目，允许你轻松拉取、运行和调用 LLM 模型，无需复杂配置。支持的模型包括：

Meta 的 LLaMA 系列
阿里的 Qwen 系列
Mistral 和 Mixtral
Google 的 Gemma
Microsoft 的 Phi 系列等

Ollama 还内置了 API 接口，兼容 OpenAI 风格，非常适合与 LangChain、LLamaIndex、FastGPT 等项目集成。

🚀 快速开始（本地部署）

1. 安装 Ollama

在 Linux / macOS / Windows 上都支持。

# macOS（使用 Homebrew）
brew install ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows（需 WSL2 支持）
wsl --install

安装完成后，验证一下：

ollama --version

2. 拉取并运行模型

我们以 llama3 为例：

ollama pull llama3
ollama run llama3

启动后你会看到类似交互界面：

>>> What is the capital of France?
Paris is the capital of France.

默认使用 4bit Q-form 格式模型，显著节省显存，仅需 6–8GB 显存即可运行 Llama3 8B。

🧩 编程接口（API 调用）

Ollama 内置了一个本地 REST API，默认监听在 http://localhost:11434。

我们可以用 Python 调用：

`requirements.txt`

requests

`ollama_client.py`

import requests

def ask_ollama(prompt, model='llama3'):
    url = "http://localhost:11434/api/generate"
    payload = {
        "model": model,
        "prompt": prompt,
        "stream": False
    }
    response = requests.post(url, json=payload)
    return response.json()["response"]

if __name__ == "__main__":
    print(ask_ollama("写一个 Python 快排函数"))

运行结果（示例输出）

def quicksort(arr):
    if len(arr) <= 1:
        return arr
    pivot = arr[0]
    less = [x for x in arr[1:] if x < pivot]
    greater = [x for x in arr[1:] if x >= pivot]
    return quicksort(less) + [pivot] + quicksort(greater)

🔁 流式响应（SSE）

Ollama 支持 Server-Sent Events 流式返回，用于模拟 ChatGPT 一样的“边说边生成”。代码如下：

import requests

def stream_chat(prompt, model="llama3"):
    url = "http://localhost:11434/api/generate"
    with requests.post(url, json={
        "model": model,
        "prompt": prompt,
        "stream": True
    }, stream=True) as resp:
        for line in resp.iter_lines():
            if line:
                data = line.decode('utf-8').replace("data: ", "")
                print(data, end='', flush=True)

if __name__ == "__main__":
    stream_chat("请介绍一下中国的四大发明。")

🧠 多模型运行 & 自定义模型

Ollama 支持多个模型共存，你可以通过修改 .modelfile 创建自己的模型组合。例如构建一个 Qwen+RAG 模型：

FROM qwen:7b
SYSTEM "你是中文知识专家，只回答中文。"

运行命令：

ollama create my-qwen -f MyQwen.Modelfile
ollama run my-qwen

🧪 实战：本地智能问答助手

你可以结合 LangChain + Ollama 快速构建一个问答系统：

pip install langchain langchain-community

from langchain.chat_models import ChatOllama
from langchain.schema import HumanMessage

llm = ChatOllama(model="llama3")
response = llm([HumanMessage(content="用中文总结《三体》的主线剧情")])
print(response.content)

输出结果：

《三体》主要讲述了纳米科学家叶文洁通过红岸基地向宇宙发射信号，三体文明收到后决定入侵地球……（下略）

🖥️ 系统资源占用实测

在 MacBook Pro M1 上测试 LLaMA3 8B：

内存占用：约 6.2GB
推理延迟：平均 400ms/句
无需联网，无隐私外泄风险

✅ 总结：为什么选择 Ollama？

特性	Ollama 表现
安装便捷	✅ 一条命令搞定
支持多模型	✅ LLaMA/Qwen/Mistral 等
资源占用低	✅ 支持量化模型运行
API 兼容性	✅ 支持 OpenAI 格式
私有部署与安全性	✅ 本地运行，数据不出本机

🔚 后记：从 Ollama 迈向 RAG 与智能体

Ollama 不只是聊天工具，更是构建本地 AI 系统的核心组件之一。你可以将它与：

等框架组合，构建智能问答、智能体执行器、自定义语义搜索等系统。

如果你也希望拥有一个无须联网、随时可用、响应迅速的本地 AI 助手，Ollama 无疑是当前最佳选择之一。

博主博客：ftmi.info
模型推荐：llama3 (英语强)，qwen:7b (中文优秀)