躬行笔记 » 深度解析Linux启动全过程：从按下电源键到登录界面的神秘之旅

最近有朋友问我，为什么有时候Linux服务器启动特别慢，有时候又很快？还有就是开机过程中那些滚动的文字到底在干什么。说实话，这个问题我之前也没有系统性地整理过，正好趁这个机会和大家一起深入了解一下Linux的启动过程。

其实Linux的启动过程比我们想象的要复杂得多，涉及到硬件、固件、内核、用户空间等多个层面。今天我就从实际工作经验出发，给大家详细讲解一下这个过程。

Linux 启动流程图：

flowchart TD
    A[开机上电] --> B[BIOS/UEFI 初始化]
    B --> C[引导加载程序 GRUB/LILO]
    C --> D[加载 Linux 内核]
    D --> E[执行 initrd/initramfs]
    E --> F[挂载根文件系统]
    F --> G[启动 init/systemd 进程]
    G --> H[初始化系统服务]
    H --> I[启动网络服务]
    I --> J[启动其他服务]
    J --> K[显示登录界面]

BIOS/UEFI阶段：硬件自检的第一步

当我们按下电源键的那一刻，计算机并不是直接启动Linux系统的。首先启动的是BIOS（Basic Input/Output System）或者UEFI（Unified Extensible Firmware Interface）。

我记得刚开始做运维的时候，经常遇到服务器开机卡在BIOS自检阶段的情况。那时候还不太懂，只知道屏幕上会显示一些硬件信息，比如内存大小、硬盘信息等等。后来才明白，这个阶段其实是在做POST（Power-On Self-Test）自检。

BIOS会检查CPU、内存、硬盘、网卡等硬件设备是否正常工作。如果某个关键硬件出现问题，系统就会在这个阶段停止启动，并发出蜂鸣声或者显示错误信息。

现在的服务器大多使用UEFI固件，相比传统BIOS有很多优势。UEFI支持更大的硬盘分区（超过2TB），启动速度更快，还支持图形界面和网络功能。不过基本的工作原理是类似的。

在这个阶段，固件还会初始化一些基本的硬件设备，比如键盘、显示器等，为后续的启动过程做准备。

引导加载器：系统启动的指挥官

硬件自检完成后，BIOS/UEFI会根据启动顺序查找可启动的设备。通常我们会把硬盘设置为第一启动设备。

找到启动设备后，固件会读取硬盘的第一个扇区，也就是MBR（Master Boot Record）或者GPT（GUID Partition Table）中的引导代码。这些代码会加载真正的引导加载器。

在Linux系统中，最常用的引导加载器是GRUB（GRand Unified Bootloader）。我们平时看到的那个可以选择不同内核版本或者操作系统的菜单，就是GRUB提供的。

GRUB的工作分为几个阶段。第一阶段的代码非常小，只有446字节，主要作用是加载第二阶段的代码。第二阶段的代码功能就丰富多了，可以识别各种文件系统，加载配置文件，显示启动菜单等等。

我之前遇到过一次比较有意思的故障。有台服务器突然无法启动，卡在GRUB阶段。后来发现是因为有人误删了/boot目录下的一些文件，导致GRUB找不到内核镜像。最后通过救援模式（有空我们讲讲救援模式，这个是红帽必考的！！！）重新安装了GRUB才解决问题。

GRUB的配置文件通常位于/boot/grub/grub.cfg，不过我们一般不直接编辑这个文件，而是修改/etc/default/grub和/etc/grub.d/目录下的文件，然后运行grub-mkconfig命令重新生成配置，更多的是通过这个来修改网卡命名规则。

内核加载：系统的核心启动

当我们在GRUB菜单中选择了要启动的系统后，GRUB会根据配置文件加载Linux内核镜像和初始RAM磁盘（initrd或initramfs）到内存中。

Linux内核镜像通常位于/boot目录下，文件名类似vmlinuz-4.18.0-348.el8.x86_64这样的格式。这个文件是经过压缩的，GRUB加载到内存后，内核会自动解压并开始执行。

内核启动的第一件事就是初始化硬件设备。这包括CPU、内存管理单元、中断控制器、时钟等等。然后内核会检测系统中的各种硬件设备，加载相应的驱动程序。

这个过程中我们会看到很多类似这样的信息：

[    0.000000] Linux version 4.18.0-348.el8.x86_64
[    0.000000] Command line: BOOT_IMAGE=/vmlinuz-4.18.0-348.el8.x86_64
[    0.001000] x86/fpu: Supporting XSAVE feature 0x001: 'x87 floating point registers'
[    0.001000] x86/fpu: Supporting XSAVE feature 0x002: 'SSE registers'

前面的数字表示启动后经过的时间，单位是秒。通过这些信息我们可以了解内核的启动进度，也可以用来排查启动慢的问题。

内核还会挂载根文件系统。不过在挂载真正的根文件系统之前，内核会先挂载一个临时的根文件系统，这就是initrd或initramfs的作用。

initrd/initramfs：临时文件系统的作用

initrd（initial ramdisk）或initramfs（initial ram filesystem）是一个临时的根文件系统，包含了启动过程中必需的驱动程序和工具。

为什么需要这个临时文件系统呢？主要原因是现代Linux系统为了减小内核体积，把很多驱动程序编译成了模块，而不是直接编译到内核中。但是要加载这些模块，就需要先能够访问存储设备，这就形成了一个鸡生蛋蛋生鸡的问题。

initramfs就是为了解决这个问题而存在的。它包含了启动过程中必需的驱动模块，比如存储控制器驱动、文件系统驱动等等。有了这些驱动，内核就能够访问真正的根文件系统了。

我们可以用lsinitrd命令查看initramfs的内容：

lsinitrd /boot/initramfs-4.18.0-348.el8.x86_64.img

initramfs中还包含一个init脚本，这个脚本会执行一些初始化操作，比如加载必要的内核模块、检测硬件设备、挂载真正的根文件系统等等。

完成这些操作后，init脚本会使用switch_root命令切换到真正的根文件系统，并启动真正的init进程。

init进程：用户空间的开始

当内核完成初始化并挂载了根文件系统后，会启动第一个用户空间进程，也就是init进程。这个进程的PID永远是1，是所有其他进程的祖先。

在不同的Linux发行版中，init系统可能不同。传统的init系统使用SysV init，现在大多数发行版都使用systemd。还有一些发行版使用Upstart或OpenRC。

SysV init比较简单，通过运行级别（runlevel）来管理系统服务。运行级别0表示关机，1表示单用户模式，2-5表示多用户模式，6表示重启。每个运行级别对应/etc/rc.d/rcN.d目录下的一组脚本。

systemd相对复杂一些，但功能也更强大。它使用target来替代运行级别的概念，可以并行启动服务，支持依赖关系管理等等。

我个人觉得systemd虽然功能强大，但学习成本也比较高。刚开始接触的时候确实有点不习惯，特别是从传统的service命令切换到systemctl命令。

不管使用哪种init系统，这个阶段的主要任务都是启动各种系统服务和用户服务。比如网络服务、SSH服务、Web服务器等等。

systemd启动过程详解

既然现在大多数Linux发行版都使用systemd，我就详细说说systemd的启动过程。

systemd启动后，首先会读取/etc/systemd/system/default.target文件，确定默认的启动目标。通常这是一个指向multi-user.target或graphical.target的符号链接。

然后systemd会分析各个服务单元（unit）之间的依赖关系，制定启动计划。systemd的一个重要特性就是可以并行启动没有依赖关系的服务，这大大提高了启动速度。

我们可以用systemd-analyze命令查看启动时间统计：

systemd-analyze
systemd-analyze blame
systemd-analyze critical-chain

第一个命令显示总的启动时间，第二个命令显示每个服务的启动时间，第三个命令显示关键路径上的服务依赖关系。

在启动过程中，systemd会依次启动各种服务。比如：

systemd-journald：日志服务
systemd-udevd：设备管理服务
NetworkManager：网络管理服务
sshd：SSH服务
httpd：Web服务器（如果安装了的话）

每个服务的配置文件通常位于/usr/lib/systemd/system/或/etc/systemd/system/目录下。我们可以用systemctl命令管理这些服务：

systemctl status sshd
systemctl start sshd
systemctl stop sshd
systemctl enable sshd
systemctl disable sshd

网络和存储初始化

在启动过程中，网络和存储的初始化是非常重要的环节。

对于网络，现代Linux系统通常使用NetworkManager来管理网络连接。NetworkManager会读取/etc/sysconfig/network-scripts/目录下的配置文件（在RHEL/CentOS系统中），或者/etc/netplan/目录下的配置文件（在Ubuntu系统中）。

我记得有一次配置服务器网络的时候，明明配置文件都写对了，但是重启后网络就是不通。后来发现是NetworkManager和传统的network服务冲突了，两个服务同时在管理网络接口。最后禁用了其中一个服务才解决问题。

对于存储，系统会挂载/etc/fstab文件中定义的所有文件系统。这个文件定义了哪些分区或设备应该挂载到哪些目录，使用什么文件系统类型，以及挂载选项等等。

如果/etc/fstab文件配置错误，可能会导致系统无法正常启动。我就遇到过因为在fstab中写错了设备名称，导致系统启动时卡住的情况（这种情况只能上救援模式了）。如果你看到下面这种情况，多半是fstab配置错误。

现在很多系统还会启动LVM（Logical Volume Manager）服务，用于管理逻辑卷。如果系统使用了LVM，那么在挂载文件系统之前，还需要先激活卷组和逻辑卷。

用户登录和桌面环境

如果系统配置为图形界面模式（graphical.target），那么在基本服务启动完成后，还会启动显示管理器，比如GDM、LightDM或SDDM等等。

显示管理器负责显示登录界面，处理用户认证，启动桌面环境等等。当用户输入正确的用户名和密码后，显示管理器会启动相应的桌面环境，比如GNOME、KDE、XFCE等等。

对于服务器系统，通常配置为多用户模式（multi-user.target），不启动图形界面。用户可以通过SSH远程登录，或者在本地控制台登录。

登录过程中，系统会执行一系列的初始化脚本，比如/etc/profile、~/.bashrc等等，设置环境变量，加载用户配置等等。

启动过程中的常见问题

在实际工作中，我遇到过各种各样的启动问题。这里分享几个比较典型的：

内核panic：这通常是由于硬件故障、驱动程序问题或内核bug导致的。解决方法包括更换硬件、更新驱动程序、降级内核版本等等。

文件系统损坏：如果根文件系统损坏，系统可能无法正常启动。这时候需要使用救援模式，运行fsck命令修复文件系统。

服务启动失败：某些关键服务启动失败可能会影响系统正常运行。可以通过systemctl status命令查看服务状态，通过journalctl命令查看详细日志。

网络配置问题：网络配置错误可能导致系统无法联网。需要检查网络配置文件，确保配置正确。

我还遇到过一次比较奇怪的问题，系统启动特别慢，每次都要等好几分钟。后来发现是因为某个服务的超时时间设置得太长，而这个服务又启动失败了。修改了超时时间后问题就解决了。

启动优化技巧

如果觉得系统启动太慢，可以尝试以下优化方法：

禁用不必要的服务：使用systemctl list-unit-files命令查看所有服务，禁用不需要的服务可以减少启动时间。

调整服务启动顺序：通过修改服务配置文件中的依赖关系，可以优化启动顺序。比如某些服务可以延迟启动，不影响系统基本功能。

使用SSD硬盘：相比传统机械硬盘，SSD可以显著提高启动速度。我之前把一台老服务器的机械硬盘换成SSD后，启动时间从2分钟缩短到30秒。

增加内存：更多的内存可以减少磁盘I/O，提高启动速度。特别是对于运行大量服务的服务器来说，充足的内存很重要。

优化内核参数：通过调整内核参数，可以针对特定硬件进行优化。比如调整I/O调度器、内存管理参数等等。

我还发现一个有趣的现象，有些服务器第一次启动会比较慢，但是重启后就会快很多。这是因为第一次启动时需要初始化很多配置，而重启时这些配置已经缓存了。

日志分析和故障排查

了解启动过程最重要的目的之一就是能够排查启动故障。Linux系统提供了丰富的日志信息，可以帮助我们定位问题。

dmesg命令：显示内核启动信息，包括硬件检测、驱动加载等等。

dmesg | grep -i error
dmesg | grep -i fail

journalctl命令：systemd的日志查看工具，可以查看系统和服务的详细日志。

journalctl -b  # 查看本次启动的日志
journalctl -u sshd  # 查看特定服务的日志
journalctl --since "2023-01-01" --until "2023-01-02"  # 查看特定时间段的日志

/var/log/目录：传统的日志文件存储位置，包括messages、secure、boot.log等等。

我记得有一次排查一个启动问题，系统启动后网络不通。通过查看journalctl的日志，发现NetworkManager服务启动失败。进一步查看NetworkManager的详细日志，发现是配置文件语法错误导致的。

还有一次遇到系统启动后某个应用无法访问，通过dmesg发现是SELinux阻止了应用的某些操作。最后通过调整SELinux策略解决了问题。

不同发行版的差异

虽然Linux内核的启动过程基本相同，但不同发行版在用户空间的启动过程可能有所差异。

Red Hat系列（RHEL、CentOS、Fedora）：使用systemd作为init系统，网络配置文件位于/etc/sysconfig/network-scripts/目录。

Debian系列（Debian、Ubuntu）：也使用systemd，但网络配置可能使用netplan（Ubuntu 18.04+）或传统的/etc/network/interfaces文件。

SUSE系列：使用systemd，有自己的YaST配置工具。

Arch Linux：使用systemd，配置相对简洁，很多东西需要手动配置。

我在不同环境中工作过，发现每个发行版都有自己的特色。比如Ubuntu的启动画面比较友好，会显示进度条；而CentOS的启动信息比较详细，便于排查问题。

容器化环境的启动

现在容器技术越来越普及，容器的启动过程和传统虚拟机有很大不同。

Docker容器启动时不需要完整的Linux启动过程，而是直接运行指定的应用程序。容器共享宿主机的内核，所以启动速度非常快，通常只需要几秒钟。

不过容器的init进程（PID 1）需要特别注意。如果应用程序不能正确处理信号，可能会导致容器无法正常停止。这时候可以使用tini或dumb-init这样的init工具。

Kubernetes环境中，Pod的启动还涉及到网络插件、存储插件等等，相对更复杂一些。

配置服务开机自启动

说到启动过程，就不得不提服务的开机自启动配置。这在日常运维中用得特别多。

在systemd系统中，管理服务自启动非常简单：

# 设置服务开机自启动
systemctl enable nginx
systemctl enable mysql

# 取消开机自启动
systemctl disable nginx

# 查看服务是否设置了自启动
systemctl is-enabled nginx

# 查看所有服务的自启动状态
systemctl list-unit-files --type=service

我经常遇到的情况是，安装了某个服务后忘记设置自启动，结果服务器重启后服务没有启动，导致业务中断。所以现在我养成了习惯，安装服务后第一件事就是检查自启动配置。

对于传统的SysV init系统（现在比较少见了），使用chkconfig命令：

# 设置服务自启动
chkconfig nginx on

# 取消自启动
chkconfig nginx off

# 查看服务状态
chkconfig --list nginx

除了系统服务，还有其他几种自启动方式：

rc.local方式：这是最简单粗暴的方法，直接在/etc/rc.local文件中添加要执行的命令。不过现在很多系统默认不启用rc.local服务，需要手动启用：

systemctl enable rc-local
chmod +x /etc/rc.d/rc.local

crontab定时任务：使用@reboot参数可以在系统启动时执行任务：

crontab -e
# 添加这一行
@reboot /path/to/your/script.sh

用户级自启动：对于桌面环境，可以在用户的~/.config/autostart/目录下放置.desktop文件，实现用户登录后自动启动程序。

init.d脚本：虽然现在用得少了，但有些老系统还在用。需要在/etc/init.d/目录下创建启动脚本，然后用update-rc.d或chkconfig命令管理。

我个人比较推荐用systemd的方式，因为它支持依赖管理、日志记录、失败重启等功能，比较可靠。rc.local虽然简单，但出问题时不好排查。

有时候我们还需要设置服务的启动顺序。比如数据库服务要在Web服务之前启动，这时候可以通过修改systemd服务文件中的After和Before参数来控制依赖关系。

还有个小技巧，如果某个服务总是启动失败，可以先禁用自启动，等系统启动完成后手动启动，这样不会影响整个系统的启动过程。

云环境的特殊考虑

在云环境中，虚拟机的启动过程还有一些特殊的地方。

cloud-init：大多数云平台都使用cloud-init来初始化虚拟机。cloud-init会在启动过程中执行一些特定的任务，比如设置主机名、配置网络、安装软件包、运行用户脚本等等。

元数据服务：云平台通常提供元数据服务，虚拟机可以通过HTTP请求获取自己的配置信息，比如IP地址、SSH密钥等等。

快照和镜像：云环境中经常使用快照和镜像来快速部署虚拟机，这可以大大减少启动时间。

我在AWS上部署过很多虚拟机，发现使用优化过的AMI镜像，启动速度会快很多。而且AWS还提供了一些特殊的实例类型，比如Nitro系统，启动速度更快。

写在最后

Linux的启动过程确实是一个复杂而精妙的系统工程。从硬件自检到用户登录，每个环节都有其特定的作用和可能出现的问题。

作为运维人员，我们不需要了解每个细节，但是掌握整体流程和关键环节是很有必要的。这不仅能帮助我们更好地排查问题，还能让我们对Linux系统有更深入的理解。

我建议大家在学习的时候多动手实践，观察启动过程中的日志信息，使用各种分析工具，尝试一些配置修改。只有真正理解了启动过程，才能在遇到问题时快速定位和解决。

现在的IT环境变化很快，容器、云计算、边缘计算等新技术层出不穷。但是Linux作为基础平台，其启动原理是相对稳定的。掌握了这些基础知识，我们就能更好地适应技术发展的变化。

希望这篇文章能够帮助大家更好地理解Linux启动过程。运维工作虽然有时候比较枯燥，但是当我们真正理解了系统的工作原理，解决了复杂的技术问题时，那种成就感是无法替代的。

如果这篇文章对你有帮助，别忘了点赞转发支持一下！想了解更多运维实战经验和技术干货，记得关注微信公众号@运维躬行录，领取学习大礼包！！！我会持续分享更多接地气的运维知识和踩坑经验。让我们一起在运维这条路上互相学习，共同进步！

公众号：运维躬行录

个人博客：躬行笔记

深度解析Linux启动全过程：从按下电源键到登录界面的神秘之旅