排序
GitHub Actions 缓存失效的隐藏战场:restore-keys 与跨 runner 路径陷阱
场景 每次 Push 都重新安装依赖,CI 运行时间从 40 秒飙到 4 分钟。`actions/cache` 配了、`restore-keys` 也有,但缓存依然每次都重新下载。 这不是幻觉。`actions/cache` 有两个陷阱,即使读...
LLM 上下文窗口溢出维修实录:3个真实踩坑案例与工程解法
问题:上下文窗口不是无限的 上线客服机器人三个月后,用户开始反馈'答非所问'。查日志发现单会话 token 数已经突破 18 万——上下文窗口爆了,最关键的用户订单信息被截断在最前面,模型根本'...
RAG 上下文压缩后缓存失效的根因与三个解法
# RAG 上下文压缩后缓存失效的根因与三个解法 用 RAG 跑生产环境时,上下文压缩(Context Compression)是个好东西——能显著减少 token 用量、降低 LLM 调用成本。但有一个副作用很多人会遇到...
LLM 上下文窗口快满了?我在生产踩过的3种应对方案与坑
上下文越来越长,模型却开始答非所问 用 LLM 做应用开发,最怕的不是模型不够聪明,而是上下文窗口越来越不够用。 我接手过一个客服机器人项目,上线第一个月效果很好。第三个月开始,用户频繁...
让 AI 真正懂你:打造个人化的本地编程助手
用 AI 写代码快一年了,从最初的新鲜感,到现在越来越觉得:工具本身差不多,关键在于你怎么用它。 prompt 写得好不好,决定了 AI 给你的答案质量。我见过很多人抱怨 AI 不听话,给了上下文还是...
Docker 多阶段构建实战:把镜像从 1.2GB 压到 200MB
很多团队第一次用 Docker 部署应用,打出来的镜像少说 800MB,大的直奔 2GB。push 慢、pull 慢、服务器硬盘被吃光。 本文解决:如何用 Docker 多阶段构建,把镜像体积压缩到原来的 1/5。有具体...
LLM 上下文窗口优化:实战场景下的三种截断策略对比
用 LLM 处理长文本时,上下文窗口不是你想塞多少就塞多少的。超过上限直接报错,截断策略选错了关键信息被切,模型 hallucinate。本文对比三种真实在用的截断策略,给出具体代码和实测结论。 问...
GitHub Actions 缓存失效的 4 种真实原因(附解决方案)
结论:GitHub Actions 缓存失效的4种真实原因,附可复现的配置方案 GitHub Actions 跑 CI 时,依赖缓存总是莫名其妙 miss。明明没改 requirements.txt,缓存却废了;或者改了注释,缓存全失效。...
本地 LLM 部署:三个省 token 的实战技巧
本地跑大模型,context window 不够用是个老问题了。我自己的 8B 模型实际能用的 context 大概只有 8192 tokens,多了就开始胡言乱语,试过不少方法才摸清楚哪些真正有效。 这篇文章三个技巧都...
GitHub Actions cron + 矩阵策略:定时触发多版本测试完整方案
解决什么问题 每天凌晨自动跑「Python 3.10 / 3.11 / 3.12 × Ubuntu / Windows / macOS」共 9 个组合的测试,或者每周一检查依赖有没有安全更新。GitHub Actions schedule 触发器配合矩阵策略...
GitHub Actions 缓存失效的 4 种真实场景和对应解法
每次提交代码,GitHub Actions 都要重新安装一遍依赖?同一个项目,别人的 CI 跑 1 分钟,你的跑 8 分钟?问题大概率出在缓存策略上。本文总结 4 种最常见的缓存失效场景,配合可运行的配置文件...
HyDE实战:RAG召回率从0.42到0.78的完整记录
解决什么问题 RAG 问答系统里,模型够强但检索层召回率太低——向量检索拿不到正确答案的上下文,模型 hallucinate。客服场景下'工单'vs'订单'语义相似度仅 0.05,直接检索返回错误段落。HyDE(...











