Ollama部署本地模型

简介: Ollama 是一个用于本地部署大型语言模型的平台。首先关闭 ollama 服务,在环境变量中设置 `OLLAMA_MODELS` 为目标模型路径,`OLLAMA_ORIGINS` 为 `"*"`,重启服务和 VSCode。启动服务 `ollama serve`,运行 `ollama run codegeex4`。配置插件接口地址为 `http://localhost:11434/v1/chat/completions`,并在模型名称处填入 `codegeex4` 启用高级模式。可能需优化下载速度并解决其他问题。


Ollama使用
什么是Ollama
下载
配置模型下载地址
首先,把启动着的ollama关闭,然后在用户环境变量中点击新建环境变量

OLLAMA_MODELS的值为你希望模型所在的地址。

OLLAMA_ORIGINS = "*"

设置后需要重启ollama服务和vscode

启动ollama服务ollama serve

再打开一个新的终端,在终端输入ollama run codegeex4

在本地模式中配置接口地址

在插件的配置页配置模型地址http://localhost:11434/v1/chat/completions

打开模型高级模式,在模型名称栏中填写:codegeex4

提高ollama下载模型速度
可能存在的问题

Reference
‍‍‬‍⁠‬‬⁠‬⁠‬‌‌‬‍‬‍‌‬⁠‍‍‌‬‍CodeGeeX 本地模式使用指南 - 飞书云文档 (feishu.cn)

THUDM/GLM-4: GLM-4 series: Open Multilingual Multimodal Chat LMs | 开源多语言多模态对话模型 (github.com)

glm4 (ollama.com)

常见问题解答 - Ollama中文网

CodeGeeX4/README_zh.md at main · THUDM/CodeGeeX4 (github.com)

codegeex4 (ollama.com)

CodeGeeX4/guides/Local_mode_guideline_zh.md at main · THUDM/CodeGeeX4 (github.com)

Ollama教程——入门:开启本地大型语言模型开发之旅_ollama中文说明书-CSDN博客

目录
相关文章
|
7月前
|
缓存 Kubernetes 异构计算
使用TensorRT-LLM进行生产环境的部署指南
TensorRT-LLM是一个由Nvidia设计的开源框架,用于在生产环境中提高大型语言模型的性能。该框架是基于 TensorRT 深度学习编译框架来构建、编译并执行计算图,并借鉴了许多 FastTransformer 中高效的 Kernels 实现,并且可以利用 NCCL 完成设备之间的通讯。
391 12
|
2月前
|
人工智能 并行计算 搜索推荐
ollama本地部署llama3(window系统)
这篇文章详细介绍了如何在Windows系统上本地部署Ollama框架来运行Llama 3大模型,并提供了具体的安装步骤和注意事项,以便实现离线使用高级AI模型进行对话。
334 0
ollama本地部署llama3(window系统)
|
24天前
|
Linux iOS开发 异构计算
Ollama完成本地模型的运行
# Ollama完成本地模型的运行
180 5
Ollama完成本地模型的运行
|
16天前
|
人工智能 并行计算 监控
深入剖析 Qwen2.5 - 32B 模型在 VLLM 上的单机三卡部署与运行
本文深入探讨了Qwen2.5 - 32B模型在VLLM框架上的部署过程,从模型下载、启动命令、资源占用分析到GPU资源分配及CUDA图应用,详述了大模型运行的挑战与优化策略,强调了硬件资源规划与技术调优的重要性。
213 2
|
23天前
|
存储 安全 API
使用Ollama和Open WebUI管理本地开源大模型
Open WebUI 是一个功能丰富且用户友好的自托管 Web 用户界面(WebUI),它被设计用于与大型语言模型(LLMs)进行交互,特别是那些由 Ollama 或与 OpenAI API 兼容的服务所支持的模型。Open WebUI 提供了完全离线运行的能力,这意味着用户可以在没有互联网连接的情况下与模型进行对话,这对于数据隐私和安全敏感的应用场景尤为重要。
|
2月前
|
Linux Shell API
ollama 大模型部署 工具 | AIGC
Ollama是一个集成了多种大型语言模型的工具,它支持模型的部署、运行以及API的整合和调用。Ollama为不同操作系统的用户提供了便捷的安装方式,并具备丰富的命令行界面(CLI)和API接口,使得用户可以轻松地管理和运行大型模型。【10月更文挑战第1天】
240 0
|
4月前
|
API C#
SemanticKernel/C#:使用Ollama中的对话模型与嵌入模型用于本地离线场景
SemanticKernel/C#:使用Ollama中的对话模型与嵌入模型用于本地离线场景
107 0
|
7月前
|
机器人 Linux API
基于Ollama+AnythingLLM轻松打造本地大模型知识库
Ollama是开源工具,简化了在本地运行大型语言模型(ile优化模型运行,支持GPU使用和热加载。它轻量、易用,可在Mac和Linux上通过Docker快速部署。AnythingLLM是Mintplex Labs的文档聊天机器人,支持多用户、多种文档格式,提供对话和查询模式,内置向量数据库,可高效管理大模型和文档。它也是开源的,能与Ollama结合使用,提供安全、低成本的LLM体验。这两款工具旨在促进本地高效利用和管理LLMs。
147765 32
|
5月前
|
人工智能 Linux Windows
MoneyPrinterPlus全面支持本地Ollama大模型
现在,MoneyPrinterPlus除了支持大模型厂商的服务之外,还可以接入本地的Ollama大模型了。
|
7月前
|
Linux 开发者 iOS开发