
1 pagxir 2017 年 1 月 3 日 父进程状态异常了吧,估计被暂停了。 |
3 k9982874 2017 年 1 月 3 日 via iPhone 猜是谁写了个 sshd 自动执行脚步互锁了? |
7 lslqtz 2017 年 1 月 4 日 via iPhone kill 后又复活? 试试看多执行几次 killall |
8 lslqtz 2017 年 1 月 4 日 via iPhone 对于 CentOS 来说: service sshd stop killall sshd 然后进一步排查问题(?) 或许很怪查不出 |
9 ryd994 2017 年 1 月 4 日 是用了 docker 里的 sshd 么? 如果是的话,不要直接启动 sshd ,用 sh 之类的间接启动 |
13 MartinWu 2017 年 1 月 4 日 同病相怜。。。 |
14 anjingme 2017 年 1 月 4 日 重启下 sshd 看看,当然重启失败了,自己也会被踢出来,搞个 nc 开个口子先再重启。 |
15 MartinWu 2017 年 1 月 4 日 千万别去重启 sshd 啊。。。。 |
16 MartinWu 2017 年 1 月 4 日 我的情况是,表面跟楼主描述的大致相同。最后放弃治疗,打算把上面的业务迁移到其他机器,就重启了。但是把业务都迁移走了后,突然发现,所有的僵尸都没了。然而我并没有追踪到是哪个进程关闭后,就把僵尸都埋了。 而我现在只追查到,发现 ssh 僵尸都是 sshd 这个用户的,而这个僵尸应该就是 sshd fork 出来负责验证权限的子进程。 |
18 ikw OP |
21 w2exzz 2017 年 1 月 4 日 chkconfig --level35 sshd off reboot /usr/sbin/sshd -d |
26 jyf007 2017 年 1 月 4 日 via Android dropbear |
27 ikw OP @MartinWu 现在发现了一个问题就是 systemd hung 住了,感觉有可能问题出在这个地方。 今天还找到一个说是 210 以前的 systemd 有 bug ,有可能会让 systemd hung 住,但是我的机器上的好像是 213 的,按说不应该。具体版本号我忘了,后来忙别的去了,可以肯定的是比 210 新。 在这看到的: https://bbs.archlinux.org/viewtopic.php?id=178168 现在 /var/log 基本上没有新写入东西了, rsyslog 也在一次失败的实验中变僵尸了。。。 现在新发现是 journalctl 里有不少 log ,这个没来得及看,明天看看有没有空看一下。 别在线等啊,我还有个活背着呢,你要有什么想法也可以告诉我,我来试试,再给你反馈结果 |
28 ikw OP @MartinWu kernel 的日志你说的是哪个位置?/proc/ 没找到比较特别的地方呢,就是僵尸的 proc stat 都是 Z , ppid 都是 1 |
29 ikw OP @jyf007 这是一个 ssh 工具?恕在下愚钝,没想到用法啊。。。 不过 Matt Johnston ,这个名字有点印象,好像这两天有搜到他报类似的 bug |
33 ikw OP |
36 okudayukiko0 2017 年 2 月 16 日 via iPhone 不用 SSH ,改用串口 /VirtIO Console 或远程卡试试,不排除病毒 |
37 ikw OP @okudayukiko0 机器在机房,而且也已经重启了,病毒的话,也没有查到一些相关的说法…… |
38 MartinWu 2017 年 6 月 6 日 我发现了一个点,可使用内存太少,导致 init 无法 fork 出线程来回收僵尸进程。 |