无限token不求人：本地跑大语言模型

大厂作妖的环境下，我掉入了消费陷阱：上班不限量token产垃圾，下班搞业余项目也是屁大的事都让ai代劳，中旬不到就把codex整个月的份额用完了，手搓能力早已丢失，项目直接卡壳。于是研究了本地跑模型，意外地简单。

安装：

ollama: 官网的脚本直接装。选择下载，不要选择云服务，无需注册。
模型：我选了最新的千问qwen。https://www.ollama.com/library 里找模型和安装命令。
opencode，也是直接复制官网给的命令，多平台支持。codex也可以直接用，但是要用ollama触发。ollama launch codex --model qwen-large这样的。
笔记本电脑散热垫，用来冷却滚烫的思考。

ollama run qwen3.6

开始聊天，并欣赏qwen内心戏

nvidia-smi --id=0 --query-gpu=utilization.gpu --format=csv,noheader,nounits

可以欣慰的看到，即使没有玩游戏，独显也没有浪费，分分钟冲100%。

出厂配置无法写代码，症状是，它处理提词到一半就不动了，没有输出，再问也不回答。于是得先导出当前配置文件，修改后存成新版本重新加载：

ollama show --modelfile qwen3.6 > Modelfile

修改内容

FROM qwen3.6:latest
PARAMETER num_predict 4096
PARAMETER temperature 1
PARAMETER num_ctx 65536
PARAMETER top_k 20

chomod 777改权限，存成新版本：

ollama create qwen-large -f Modelfile

重新启动

ollama launch opencode --model qwen-large

就是完全体了。