图龙网络科技

问答社区

原创作者: 图龙网络科技 发布时间: 2023-09-23 229.8K 人阅读

开始使用 Llama 3.1、Mistral、Gemma 2 部署和其他大型语言模型。

图龙网络科技 发布于 1个月前 分类:语言模型

开始使用大型语言模型。

macOS

下载

Windows 预览版

下载

Linux

curl -fsSL https://ollama.com/install.sh | sh

Linux安装

要安装 Ollama,请运行以下命令:

curl -fsSL https://ollama.com/install.sh | sh

手动安装下载并解压软件包:

curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz

sudo tar -C /usr -xzf ollama-linux-amd64.tgz
启动 Ollama:

ollama serve

在另一个终端中,验证 Ollama 是否正在运行:

ollama -v

AMD GPU 安装

如果您有 AMD GPU,还请下载并提取附加的 ROCm 包:

curl -L https://ollama.com/download/ollama-linux-amd64-rocm.tgz -o ollama-linux-amd64-rocm.tgz

sudo tar -C /usr -xzf ollama-linux-amd64-rocm.tgz
ARM64 安装

下载并解压 ARM64 专用软件包:

curl -L https://ollama.com/download/ollama-linux-arm64.tgz -o ollama-linux-arm64.tgz

sudo tar -C /usr -xzf ollama-linux-arm64.tgz
添加 Ollama 作为启动服务(推荐)

为 Ollama 创建用户和组:

sudo useradd -r -s /bin/false -U -m -d /usr/share/ollama ollama

sudo usermod -a -G ollama $(whoami)
在以下位置创建服务文件/etc/systemd/system/ollama.service

[Unit]

Description=Ollama Service
After=network-online.target

[Service]
ExecStart=/usr/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="PATH=$PATH"

[Install]
WantedBy=default.target
然后启动服务:

sudo systemctl daemon-reload

sudo systemctl enable ollama
安装 CUDA 驱动程序(可选)

通过运行以下命令来验证驱动程序是否已安装,该命令将打印有关 GPU 的详细信息:

nvidia-smi

安装 AMD ROCm 驱动程序(可选)

下载并安装ROCm v6。

启动 Ollama

启动 Ollama 并验证它是否正在运行:

sudo systemctl start ollama

sudo systemctl status ollama
笔记

虽然 AMD 已将amdgpu驱动程序贡献给官方 Linux 内核源代码,但版本较旧,可能不支持所有 ROCm 功能。我们建议您从 https://www.amd.com/en/support/linux-drivers安装最新的驱动程序,以便为您的 Radeon GPU 提供最佳支持。

更新通过再次运行安装脚本来更新 Ollama:

curl -fsSL https://ollama.com/install.sh | sh

或者重新下载 Ollama:

curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz

sudo tar -C /usr -xzf ollama-linux-amd64.tgz
安装特定版本

使用安装脚本中的环境变量来安装特定版本的 Ollama,包括预发布版本。您可以在发布页面OLLAMA_VERSION中找到版本号。

例如:

curl -fsSL https://ollama.com/install.sh | OLLAMA_VERSION=0.3.9 sh

查看日志

要查看作为启动服务运行的 Ollama 的日志,请运行:

journalctl -e -u ollama

卸载

删除 ollama 服务:

sudo systemctl stop ollama

sudo systemctl disable ollama
sudo rm /etc/systemd/system/ollama.service
从 bin 目录中删除 ollama 二进制文件(/usr/local/bin/usr/bin/bin):

sudo rm $(which ollama)

删除下载的模型和 Ollama 服务用户和组:

sudo rm -r /usr/share/ollama

sudo userdel ollama
sudo groupdel ollama

Ollama 支持ollama.com/library上提供的一系列模型

以下是一些可供下载的示例模型:

模型 参数 尺寸 下载
骆驼 3.1 8B 4.7GB ollama run llama3.1
骆驼 3.1 70B 40GB ollama run llama3.1:70b
骆驼 3.1 405B 231GB ollama run llama3.1:405b
Phi 3 迷你 3.8亿 2.3GB ollama run phi3
Phi 3 中等 14B 7.9GB ollama run phi3:medium
杰玛 2 2B 1.6GB ollama run gemma2:2b
杰玛 2 9B 5.5GB ollama run gemma2
杰玛 2 27B 16 GB ollama run gemma2:27b
米斯特拉尔 7B 4.1GB ollama run mistral
月梦2 1.4亿 829MB ollama run moondream
神经聊天 7B 4.1GB ollama run neural-chat
椋鸟 7B 4.1GB ollama run starling-lm
代号骆驼 7B 3.8GB ollama run codellama
骆驼 2 未经审查 7B 3.8GB ollama run llama2-uncensored
左旋肉碱 7B 4.5GB ollama run llava
太阳的 10.7B 6.1GB ollama run solar

笔记

您应该至少有 8 GB 的 RAM 来运行 7B 型号,16 GB 的 RAM 来运行 13B 型号,32 GB 的 RAM 来运行 33B 型号。

自定义模型

从 GGUF 导入

Ollama 支持在 Modelfile 中导入 GGUF 模型:

  1. 创建一个名为 的文件Modelfile,其中FROM包含要导入的模型的本地文件路径的指令。

    FROM ./vicuna-33b.Q4_0.gguf
    
  2. 在 Ollama 中创建模型

    ollama create example -f Modelfile
    
  3. 运行模型

    ollama run example
    

从 PyTorch 或 Safetensors 导入

请参阅导入模型的指南以了解更多信息。

自定义提示

可以使用提示自定义 Ollama 库中的模型。例如,要自定义llama3.1模型:

ollama pull llama3.1

创建一个Modelfile

FROM llama3.1

# set the temperature to 1 [higher is more creative, lower is more coherent]
PARAMETER temperature 1

# set the system message
SYSTEM """
You are Mario from Super Mario Bros. Answer as Mario, the assistant, only.
"""

接下来创建并运行模型:

ollama create mario -f ./Modelfile
ollama run mario
>>> hi
Hello! It's your friend Mario.

有关更多示例,请参阅示例目录。有关使用 Modelfile 的更多信息,请参阅Modelfile文档。

CLI 参考

创建模型

ollama create用于从 Modelfile 创建模型。

ollama create mymodel -f ./Modelfile

拉取模型

ollama pull llama3.1
此命令还可用于更新本地模型。仅会提取差异。

删除模型

ollama rm llama3.1

复制模型

ollama cp llama3.1 my-model

多行输入

对于多行输入,你可以使用以下方式换行"""

>>> """Hello,
... world!
... """
I'm a basic program that prints the famous "Hello, world!" message to the console.

多模态模型

ollama run llava "What's in this image? /Users/jmorgan/Desktop/smile.png"
The image features a yellow smiley face, which is likely the central focus of the picture.

将提示作为参数传递

$ ollama run llama3.1 "Summarize this file: $(cat README.md)"
 Ollama is a lightweight, extensible framework for building and running language models on the local machine. It provides a simple API for creating, running, and managing models, as well as a library of pre-built models that can be easily used in a variety of applications.
显示模型信息
ollama show llama3.1
列出计算机上的模型
ollama list
列出当前加载的模型
ollama ps

停止当前正在运行的模型

ollama stop llama3.1

启动 Ollama

ollama serve当您想启动 ollama 而不运行桌面应用程序时使用。

建筑

查看开发者指南

运行本地构建

接下来启动服务器:

./ollama serve

最后,在一个单独的 shell 中运行一个模型:

./ollama run llama3.1
REST API

Ollama 有一个用于运行和管理模型的 REST API。

生成响应

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.1",
  "prompt":"Why is the sky blue?"
}'

与模特聊天

curl http://localhost:11434/api/chat -d '{
  "model": "llama3.1",
  "messages": [
    { "role": "user", "content": "why is the sky blue?" }
  ]
}'

0个回复

  • 龙族们都在等待回复

提供中小企业建站高端正版精品系统

正品模板 购买协议