分类 运维知识 下的文章(共 160 篇)

2026年6月9日

线上服务突然 fork 不出新进程?聊聊我排查僵尸进程的那些事

前阵子半夜被告警叫醒,一台线上机器的 worker 进程起不来了。打开监控一看,CPU 不高、内存也还行,但服务就是 fork 失败。第一反应是 ulimit 的 nproc 打满了?跑了一下 ps aux | wc -l,进程数确实很高,再仔细一看——一堆 <defunct> 的...

作者:悠悠
2026年6月2日

Docker 代码沙箱防逃逸实战:从 Namespace 到 gVisor,我是怎么一层层锁死容器的

前阵子有个做在线编程平台的朋友找到我,说他们平台要支持用户在线提交代码并执行,问我用 Docker 跑用户代码安不安全。我当时就笑了——这事儿我太熟了,之前在做一个类似 LeetCode 的 OJ 系统的时候,就踩过不少坑。说白了,Docker 容器不是什么铜墙铁壁,它本质上就是跑在宿主机内核...

作者:悠悠
2026年6月1日

一文讲透 GPUDirect RDMA:它到底解决了什么问题?AWS 上哪些 GPU 实例能用?

这两年搞大模型训练、分布式推理、HPC 计算,绕不开几个词:GPU、NVLink、NCCL、EFA、RDMA、GPUDirect RDMA。我之前刚接触这块的时候,说实话也挺懵。一个模型训练慢,大家开会的时候嘴里都是“通信瓶颈”“AllReduce 太慢”“跨节点带宽不够”“EFA 没跑起来”...

作者:悠悠
2026年5月31日

mTLS到底是个啥?服务间双向认证从原理到实战,一篇搞定

从TLS说起在讲mTLS之前,我们得先把TLS搞明白。日常我们访问https网站,浏览器地址栏那个小锁,背后就是TLS在工作。TLS的核心逻辑其实很简单——单向认证。什么意思呢?就是客户端去验证服务端的身份,但服务端不验证客户端。流程大概是这样:客户端发起连接请求,告诉服务端我支持哪些TLS版...

作者:悠悠
2026年5月27日

在K8s上跑AI Agent?Kubernetes社区搞了个Agent Sandbox,这事终于有正经解法了

前两天升级集群的时候顺手刷了一下Kubernetes官方博客,突然看到一篇标题让我愣了一下——Running Agents on Kubernetes with Agent Sandbox。点进去一看,好家伙,K8s社区居然正儿八经地搞了一个SIG级别的项目,专门解决"怎么在集群里跑AI Ag...

作者:悠悠