上周刷技术新闻,看到一条消息差点以为是恶搞:微软在 Build 2026 上正式发布了 Coreutils for Windows,把 75+ 个 Linux/Unix 命令原生搬到了 Windows 的 CMD 和 PowerShell 里。ls、grep、cat、cp、mv、rm、find...
前阵子半夜被告警叫醒,一台线上机器的 worker 进程起不来了。打开监控一看,CPU 不高、内存也还行,但服务就是 fork 失败。第一反应是 ulimit 的 nproc 打满了?跑了一下 ps aux | wc -l,进程数确实很高,再仔细一看——一堆 <defunct> 的...
前阵子有个做在线编程平台的朋友找到我,说他们平台要支持用户在线提交代码并执行,问我用 Docker 跑用户代码安不安全。我当时就笑了——这事儿我太熟了,之前在做一个类似 LeetCode 的 OJ 系统的时候,就踩过不少坑。说白了,Docker 容器不是什么铜墙铁壁,它本质上就是跑在宿主机内核...
这两年搞大模型训练、分布式推理、HPC 计算,绕不开几个词:GPU、NVLink、NCCL、EFA、RDMA、GPUDirect RDMA。我之前刚接触这块的时候,说实话也挺懵。一个模型训练慢,大家开会的时候嘴里都是“通信瓶颈”“AllReduce 太慢”“跨节点带宽不够”“EFA 没跑起来”...
热爱技术的云计算运维工程师,Python全栈工程师,分享开发经验与生活感悟。
欢迎关注我的微信公众号@运维躬行录,领取海量学习资料