Ollama 使用指导

约 2078 字大约 7 分钟

大模型

2025-02-14

Ollama 介绍

Ollama 是一个强大的工具，旨在简化大语言模型的本地运行和使用。无论是研究人员、开发者还是企业用户，都可以通过 Ollama 轻松地在本地环境中运行各种大语言模型，享受高效、便捷的模型推理体验。主要特点包括:

支持多平台：Ollama可以在Windows、Linux和MacOS上运行。
简单易用：只需一行命令即可启动和使用模型。
多模型支持：支持多种大语言模型，如Qwen模型等。
高性能：优化的性能，确保模型运行流畅。
开源社区：拥有活跃的开源社区，提供持续的支持和更新。
灵活扩展：支持插件和扩展，满足不同用户的需求。
安全可靠：提供安全的运行环境，保护用户数据。

下载安装

Ollama 下载：https://ollama.com/download

Ollama 官方主页：https://ollama.com

Ollama 官方 GitHub 源代码仓库：https://github.com/ollama/ollama/

# docker安装ollama
docker run -p 11434:11434 ollama/ollama

环境配置

ollama模型默认存储目录如下：

macOS: ~/.ollama/models
Linux: /usr/share/ollama/.ollama/models
Windows: C:\Users<username>.ollama\models

建议修改到系统盘以外的目录存储，可以通过配置环境变量OLLAMA_MODELS来指定模型安装目录。几个重要的环境变量：

OLLAMA_HOST 定义Ollama 监听的网络接口。例如，设置 OLLAMA_HOST=0.0.0.0 可以让 Ollama 监听所有可用的网络接口
OLLAMA_MODELS 指定模型镜像的存储路径。例如，设置 OLLAMA_MODELS=/mnt/rayse/files/ollama/models 可以将模型镜像存储在指定路径
OLLAMA_KEEP_ALIVE 控制模型在内存中的存活时间。例如，设置 OLLAMA_KEEP_ALIVE=1h 可以让模型在内存中保持1小时
OLLAMA_PORT 更改Ollama 的默认端口。例如，设置 OLLAMA_PORT=8080 可以将服务端口从默认的11434更改为8080
OLLAMA_NUM_PARALLEL 决定Ollama 可以同时处理的用户请求数量。例如，设置 OLLAMA_NUM_PARALLEL=4 可以让 Ollama 同时处理四个并发请求
OLLAMA_MAX_LOADED_MODELS 限制Ollama可以同时加载的模型数量。例如，设置 OLLAMA_MAX_LOADED_MODELS=4 可以确保系统资源得到合理分配

通过这些环境变量的设置，可以根据实际需求调整 Ollama 的行为，优化其性能，确保它在数据分析和模型训练的过程中始终保持最佳状态

Window配置

添加系统环境变量，步骤如下：

1. 打开控制面板，选择“系统和安全”。
2. 点击“系统”，然后选择“高级系统设置”。
3. 在“系统属性”窗口中，点击“环境变量”按钮。
4. 在“环境变量”窗口中，点击“新建”按钮，添加一个新的系统变量。
5. 在“变量名”字段中输入 `OLLAMA_MODELS`，在“变量值”字段中输入你希望存储模型的目录路径，例如 `D:\Ollama\Models`。
6. 点击“确定”保存设置，然后关闭所有窗口。
7. 重新启动计算机以使更改生效。

Linux配置

# 创建模型存储目录
mkdir -p /opt/ollama/models 
# 设置环境变量
echo 'export OLLAMA_MODELS=/opt/ollama/models' >> ~/.bashrc
# 刷新环境变量
source ~/.bashrc

操作命令

ollama serve         #启动ollama
ollama create        #从模型文件创建模型
ollama show          #显示模型信息
ollama run           #运行模型
ollama pull          #从注册表中拉取模型
ollama push          #将模型推送到注册表
ollama list          #列出模型
ollama cp            #复制模型
ollama rm            #删除模型
ollama help          #获取有关任何命令的帮助信息

详细参考：https://www.runoob.com/ollama/ollama-commands.html

拉取模型

ollama 官网以提供常用的大模型，可直接拉取，同时也支持三方模型社区拉取如huggingface。huggingface提供了非常多的模型，在图像处理、语音处理、自然语言处理等场景下，都有很多优秀开源模型。

# 拉取ollama官方提供的模型
ollama run deepseek-r1:1.5b

# 拉取huggingface模型
ollama run hf.co/{username}/{repository}

模型使用

Ollama Open WebUI

Open WebUI 提供多种安装方式，包括通过 Python pip 安装、Docker 安装、Docker Compose、Kustomize 和 Helm 等。

开源地址：https://github.com/open-webui/open-webui

官方文档：https://docs.openwebui.com/

详细参考：https://www.runoob.com/ollama/ollama-open-webui.html

Ollama Page Assist

Page Assist 是一款开源的浏览器扩展程序，主要为本地 AI 模型提供直观的交互界面，让用户可以在任何网页上与本地 AI 模型进行对话和交互。

Github地址：https://github.com/ollama-ai/page-assist

详细参考：https://www.runoob.com/ollama/ollama-page-assist.html

Cherry Studio

CherryStudio 是一款集多模型对话、知识库管理、AI 绘画、翻译等功能于一体的全能 AI 助手平台。 CherryStudio的高度自定义的设计、强大的扩展能力和友好的用户体验，使其成为专业用户和 AI 爱好者的理想选择。无论是零基础用户还是开发者，都能在 CherryStudio 中找到适合自己的AI功能，提升工作效率和创造力。

官网：https://cherry-ai.com

指导手册：https://docs.cherry-ai.com

Chatbox AI

Chatbox AI 是一款 AI 客户端应用和智能助手，支持众多先进的 AI 模型和 API，可在 Windows、MacOS、Android、iOS、Linux 和网页版上使用。

官网：https://chatboxai.app/zh

SDK集成

Ollama 提供了基于 HTTP 的 API，允许开发者通过编程方式与模型进行交互。

本文将详细介绍 Ollama API 的详细使用方法，包括请求格式、响应格式以及示例代码。

详细参考：https://www.runoob.com/ollama/ollama-api.html

Ollama Python 使用

Ollama 提供了 Python SDK，可以让我们能够在 Python 环境中与本地运行的模型进行交互。

通过 Ollama 的 Python SDK 能够轻松地将自然语言处理任务集成到 Python 项目中，执行各种操作，如文本生成、对话生成、模型管理等，且不需要手动调用命令行。

# 安装
pip install ollama

api示例：

from ollama_python import OllamaClient

client = OllamaClient("http://localhost:11434")

# 创建模型
client.create_model("my_model", "path/to/modelfile")

# 运行模型
response = client.run_model("my_model", "Hello, world!")
print(response)

Ollama-js库

Ollama-js库是为JavaScript开发者提供的，用于在前端或Node.js环境中与Ollama服务交互的工具。这个库使得JavaScript开发者能够直接在他们的应用中使用Ollama的功能。

# 安装
npm install ollama-js

api示例：

const Ollama = require('ollama-js');

const client = new Ollama.Client('http://localhost:11434');

// 运行模型
client.runModel('my_model', 'Hello, world!')
    .then(response => console.log(response))
    .catch(error => console.error(error));

详细参考：https://www.runoob.com/ollama/ollama-python-sdk.html

AI模型整合商

硅基流动

硅基流动（Sigmoid Flow）是一个由AI模型组成的技术方案，它利用AI模型来生成和优化数据，以实现数据优化、数据增强、数据 deduplication等功能。集合顶尖大模型的一站式云服务平台，SiliconCloud 致力于为开发者提供更快、更全面、体验更丝滑的模型 API，助力开发者和企业聚焦产品创新，无须担心产品大规模推广所带来的高昂算力成本。

已上架包括 Qwen2.5-72B、DeepSeek-V2.5、Qwen2、InternLM2.5-20B-Chat、BCE、BGE、SenseVoice-Small、Llama-3.1、FLUX.1、DeepSeek-Coder-V2、SD3 Medium、GLM-4-9B-Chat、InstantID 在内的多种开源大语言模型、图片生成模型、代码生成模型、向量与重排序模型以及多模态大模型，覆盖语言、语音、图片、视频等多场景。
其中，Qwen2.5（7B）、Llama3.1（8B）等多个大模型 API 免费使用，让开发者与产品经理无需担心研发阶段和大规模推广所带来的算力成本，实现“Token 自由”。
25 年 1 月，SiliconCloud 平台上线基于华为云昇腾云服务的 DeepSeek-V3、DeepSeek-R1 推理服务。通过双方联合创新，在硅基流动自研推理加速引擎加持下，平台上的 DeepSeek 模型可获得持平全球高端 GPU 部署模型的效果。提供高效能大模型推理加速服务，提升 GenAI 应用的用户体验。提供模型微调与部署的托管服务，用户可直接托管经过微调的大语言模型，在支撑业务迭代的同时，无需关注底层资源、服务质量，有效降低维护成本。

官网：https://siliconflow.cn/zh-cn/

感谢一下资料作者的贡献！
https://www.runoob.com/ollama/ollama-tutorial.html
https://blog.csdn.net/2301_81940605/article/details/145512685
https://blog.csdn.net/qq_40999403/article/details/139320266
https://blog.csdn.net/engchina/article/details/138743634