无限token不求人:本地跑大语言模型
大厂作妖的环境下,我掉入了消费陷阱:上班不限量token产垃圾,下班搞业余 项目也是屁大的事都让ai代劳,中旬不到就把codex整个月的份额用完了,手搓 能力早已丢失,项目直接卡壳。于是研究了本地跑模型,意外地简单。
安装:
- ollama: 官网的脚本直接装。选择下载,不要选择云服务,无需注册。
- 模型:我选了最新的千问qwen。https://www.ollama.com/library 里找模型 和安装命令。
- opencode,也是直接复制官网给的命令,多平台支持。codex也可以直接用,
但是要用ollama触发。
ollama launch codex --model qwen-large这样的。 - 笔记本电脑散热垫,用来冷却滚烫的思考。
基本使用
ollama run qwen3.6
开始聊天,并欣赏qwen内心戏
配置
监测GPU
nvidia-smi --id=0 --query-gpu=utilization.gpu --format=csv,noheader,nounits
可以欣慰的看到,即使没有玩游戏,独显也没有浪费,分分钟冲100%。
写代码
出厂配置无法写代码,症状是,它处理提词到一半就不动了,没有输出,再问也 不回答。于是得先导出当前配置文件,修改后存成新版本重新加载:
ollama show --modelfile qwen3.6 > Modelfile
修改内容
FROM qwen3.6:latest
PARAMETER num_predict 4096
PARAMETER temperature 1
PARAMETER num_ctx 65536
PARAMETER top_k 20
chomod 777改权限,存成新版本:
ollama create qwen-large -f Modelfile
重新启动
ollama launch opencode --model qwen-large
就是完全体了。