问答社区
开始使用 Llama 3.1、Mistral、Gemma 2 部署和其他大型语言模型。
开始使用大型语言模型。
curl -fsSL https://ollama.com/install.sh | sh
Linux安装
要安装 Ollama,请运行以下命令:
curl -fsSL https://ollama.com/install.sh | sh
curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz
sudo tar -C /usr -xzf ollama-linux-amd64.tgz
ollama serve
ollama -v
如果您有 AMD GPU,还请下载并提取附加的 ROCm 包:
curl -L https://ollama.com/download/ollama-linux-amd64-rocm.tgz -o ollama-linux-amd64-rocm.tgz
sudo tar -C /usr -xzf ollama-linux-amd64-rocm.tgz
下载并解压 ARM64 专用软件包:
curl -L https://ollama.com/download/ollama-linux-arm64.tgz -o ollama-linux-arm64.tgz
sudo tar -C /usr -xzf ollama-linux-arm64.tgz
为 Ollama 创建用户和组:
sudo useradd -r -s /bin/false -U -m -d /usr/share/ollama ollama
sudo usermod -a -G ollama $(whoami)
/etc/systemd/system/ollama.service
:[Unit]
Description=Ollama Service
After=network-online.target
[Service]
ExecStart=/usr/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="PATH=$PATH"
[Install]
WantedBy=default.target
sudo systemctl daemon-reload
sudo systemctl enable ollama
下载并安装CUDA。
通过运行以下命令来验证驱动程序是否已安装,该命令将打印有关 GPU 的详细信息:
nvidia-smi
安装 AMD ROCm 驱动程序(可选)
下载并安装ROCm v6。
启动 Ollama
启动 Ollama 并验证它是否正在运行:
sudo systemctl start ollama
sudo systemctl status ollama
笔记
虽然 AMD 已将amdgpu
驱动程序贡献给官方 Linux 内核源代码,但版本较旧,可能不支持所有 ROCm 功能。我们建议您从 https://www.amd.com/en/support/linux-drivers安装最新的驱动程序,以便为您的 Radeon GPU 提供最佳支持。
更新通过再次运行安装脚本来更新 Ollama:
curl -fsSL https://ollama.com/install.sh | sh
curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz
sudo tar -C /usr -xzf ollama-linux-amd64.tgz
使用安装脚本中的环境变量来安装特定版本的 Ollama,包括预发布版本。您可以在发布页面OLLAMA_VERSION
中找到版本号。
例如:
curl -fsSL https://ollama.com/install.sh | OLLAMA_VERSION=0.3.9 sh
查看日志
要查看作为启动服务运行的 Ollama 的日志,请运行:
journalctl -e -u ollama
删除 ollama 服务:
sudo systemctl stop ollama
sudo systemctl disable ollama
sudo rm /etc/systemd/system/ollama.service
/usr/local/bin
、/usr/bin
或/bin
):sudo rm $(which ollama)
删除下载的模型和 Ollama 服务用户和组:
sudo rm -r /usr/share/ollama
sudo userdel ollama
sudo groupdel ollama
Ollama 支持ollama.com/library上提供的一系列模型
以下是一些可供下载的示例模型:
模型 | 参数 | 尺寸 | 下载 |
---|---|---|---|
骆驼 3.1 | 8B | 4.7GB | ollama run llama3.1 |
骆驼 3.1 | 70B | 40GB | ollama run llama3.1:70b |
骆驼 3.1 | 405B | 231GB | ollama run llama3.1:405b |
Phi 3 迷你 | 3.8亿 | 2.3GB | ollama run phi3 |
Phi 3 中等 | 14B | 7.9GB | ollama run phi3:medium |
杰玛 2 | 2B | 1.6GB | ollama run gemma2:2b |
杰玛 2 | 9B | 5.5GB | ollama run gemma2 |
杰玛 2 | 27B | 16 GB | ollama run gemma2:27b |
米斯特拉尔 | 7B | 4.1GB | ollama run mistral |
月梦2 | 1.4亿 | 829MB | ollama run moondream |
神经聊天 | 7B | 4.1GB | ollama run neural-chat |
椋鸟 | 7B | 4.1GB | ollama run starling-lm |
代号骆驼 | 7B | 3.8GB | ollama run codellama |
骆驼 2 未经审查 | 7B | 3.8GB | ollama run llama2-uncensored |
左旋肉碱 | 7B | 4.5GB | ollama run llava |
太阳的 | 10.7B | 6.1GB | ollama run solar |
笔记
您应该至少有 8 GB 的 RAM 来运行 7B 型号,16 GB 的 RAM 来运行 13B 型号,32 GB 的 RAM 来运行 33B 型号。
Ollama 支持在 Modelfile 中导入 GGUF 模型:
-
创建一个名为 的文件
Modelfile
,其中FROM
包含要导入的模型的本地文件路径的指令。FROM ./vicuna-33b.Q4_0.gguf
-
在 Ollama 中创建模型
ollama create example -f Modelfile
-
运行模型
ollama run example
请参阅导入模型的指南以了解更多信息。
可以使用提示自定义 Ollama 库中的模型。例如,要自定义llama3.1
模型:
ollama pull llama3.1
创建一个Modelfile
:
FROM llama3.1
# set the temperature to 1 [higher is more creative, lower is more coherent]
PARAMETER temperature 1
# set the system message
SYSTEM """
You are Mario from Super Mario Bros. Answer as Mario, the assistant, only.
"""
接下来创建并运行模型:
ollama create mario -f ./Modelfile
ollama run mario
>>> hi
Hello! It's your friend Mario.
有关更多示例,请参阅示例目录。有关使用 Modelfile 的更多信息,请参阅Modelfile文档。
ollama create
用于从 Modelfile 创建模型。
ollama create mymodel -f ./Modelfile
ollama pull llama3.1
此命令还可用于更新本地模型。仅会提取差异。
ollama rm llama3.1
ollama cp llama3.1 my-model
对于多行输入,你可以使用以下方式换行"""
:
>>> """Hello,
... world!
... """
I'm a basic program that prints the famous "Hello, world!" message to the console.
ollama run llava "What's in this image? /Users/jmorgan/Desktop/smile.png"
The image features a yellow smiley face, which is likely the central focus of the picture.
$ ollama run llama3.1 "Summarize this file: $(cat README.md)"
Ollama is a lightweight, extensible framework for building and running language models on the local machine. It provides a simple API for creating, running, and managing models, as well as a library of pre-built models that can be easily used in a variety of applications.
ollama show llama3.1
ollama list
ollama ps
ollama stop llama3.1
ollama serve
当您想启动 ollama 而不运行桌面应用程序时使用。
查看开发者指南
接下来启动服务器:
./ollama serve
最后,在一个单独的 shell 中运行一个模型:
./ollama run llama3.1
Ollama 有一个用于运行和管理模型的 REST API。
curl http://localhost:11434/api/generate -d '{
"model": "llama3.1",
"prompt":"Why is the sky blue?"
}'
curl http://localhost:11434/api/chat -d '{
"model": "llama3.1",
"messages": [
{ "role": "user", "content": "why is the sky blue?" }
]
}'