Skip to content

无限token不求人:本地跑大语言模型

大厂作妖的环境下,我掉入了消费陷阱:上班不限量token产垃圾,下班搞业余 项目也是屁大的事都让ai代劳,中旬不到就把codex整个月的份额用完了,手搓 能力早已丢失,项目直接卡壳。于是研究了本地跑模型,意外地简单。

安装:

  • ollama: 官网的脚本直接装。选择下载,不要选择云服务,无需注册。
  • 模型:我选了最新的千问qwen。https://www.ollama.com/library 里找模型 和安装命令。
  • opencode,也是直接复制官网给的命令,多平台支持。codex也可以直接用, 但是要用ollama触发。ollama launch codex --model qwen-large这样的。
  • 笔记本电脑散热垫,用来冷却滚烫的思考。

基本使用

ollama run qwen3.6

开始聊天,并欣赏qwen内心戏

配置

监测GPU

nvidia-smi --id=0 --query-gpu=utilization.gpu --format=csv,noheader,nounits

可以欣慰的看到,即使没有玩游戏,独显也没有浪费,分分钟冲100%。

写代码

出厂配置无法写代码,症状是,它处理提词到一半就不动了,没有输出,再问也 不回答。于是得先导出当前配置文件,修改后存成新版本重新加载:

ollama show --modelfile qwen3.6 > Modelfile

修改内容

FROM qwen3.6:latest
PARAMETER num_predict 4096
PARAMETER temperature 1
PARAMETER num_ctx 65536
PARAMETER top_k 20

chomod 777改权限,存成新版本:

ollama create qwen-large -f Modelfile

重新启动

ollama launch opencode --model qwen-large

就是完全体了。