DPDK高性能交换机深度故障分析:一次Mbuf Cache失衡引发的转发性能雪崩 一、故障背景某省级运营商城域网部署了一套基于DPDK的软件交换机。承担业务:二层汇聚三层路由VXLAN网关ACL访问控制MPLS VPN接入设备配置:项目参数CPUIntel Xeon Gold 6338Socket2Core64 Physical CoreNICIntel X710 Dual PortDPDK22.11PMD线程32RX Queue32TX Queue32系统上线半年运行稳定。某次扩容后:业务流量:42 Mpps ↓ 55 Mpps ↓ 67 Mpps开始出现异常。业务侧现象:VXLAN时延波动TCP重传增加OSPF邻居偶发超时ARP响应变慢监控显示:指标数值CPU100%内存36%链路利用率52%网卡Error0所有PMD线程均正常运行。二、第一轮排查查看网卡统计。rte_eth_stats_get();结果:imissed 0 ierrors 0 rx_nombuf 0说明:网卡没有丢包RX Ring正常Mbuf没有耗尽继续检查:dpdk-proc-info --xstats发现:rx_q0_packets rx_q1_packets ... rx_q31_packets流量分布均衡。RSS正常。继续检查:show forwarding statistics发现:Input PPS 67M Output PPS 43M出现明显差异。但是:没有任何硬件丢包。问题变得非常奇怪。三、深入DPDK转发路径回顾交换机转发架构。