中文人妻中文字幕AV在线,国产高清无码专区一区

Java 問題排查技術(shù)分享

常見問題發(fā)布者：ou3377 2021-12-16 17:08 訪問量：336

線上問題處理流程

直接放PPT截圖吧，現(xiàn)在看來依然不過時(shí)

問題排查

可從三個(gè)方面入手

知識(shí)：有些問題，思考一下就有答案，就像傳說中多隆那樣，回憶下就知道第83行代碼有問題~
工具：當(dāng)然不是每個(gè)人都能做到過目不忘，也有可能這代碼完全不是你寫的，這時(shí)就需要靠工具來定位問題
數(shù)據(jù)：程序運(yùn)行時(shí)產(chǎn)生的數(shù)據(jù)，也能提供很多線索

知識(shí)

知識(shí)有很多方面，這里簡單列舉一下：

語言（本文特指 Java）：如 JVM 知識(shí)、多線程知識(shí)等
框架：如 Dubbo、Spring 等
組件：如 Mysql、RocketMq 等
其他：如網(wǎng)絡(luò)、操作系統(tǒng)等

舉個(gè)例子，我們需要理解 Java 對(duì)象從申請(qǐng)到被回收整個(gè)過程，這個(gè)圖非常清晰，建議爛熟于心：

然后也要了解常見的垃圾收集器：

吞吐量=單位時(shí)間內(nèi)處理的請(qǐng)求數(shù)量=運(yùn)行代碼時(shí)間 / (運(yùn)行代碼時(shí)間 + 垃圾回收時(shí)間)

以 ParNew + CMS 為例，嘗試回答如下幾個(gè)問題：

為什么要分代收集？— 關(guān)鍵字：效率
對(duì)象什么時(shí)候進(jìn)入老年代？— 關(guān)鍵字：年齡、大小
Young GC 與 Full GC 什么時(shí)候發(fā)生？— 關(guān)鍵字：Eden 不足、Old 不足、Meta 不足、map/System.gc

如果我們了解上述的這些知識(shí)后，舉個(gè)實(shí)際例子，當(dāng)我們發(fā)現(xiàn) Young GC 頻繁觸發(fā)，耗時(shí)高，該如何優(yōu)化？

首先思考，Young GC 什么時(shí)候觸發(fā)？答案是 Eden 區(qū)不足。

接著，Young GC 耗時(shí)主要是哪里耗時(shí)？答案是掃描 + 復(fù)制，掃描通常很快，復(fù)制比較慢。

那我們對(duì)癥下藥，增加新生代大小試試，結(jié)果真的解決問題了，為什么？我們也分析一下

新生代大小為 M 時(shí)，假設(shè)對(duì)象存活 750ms，young GC間隔 500ms，掃描時(shí)間為 T1，復(fù)制時(shí)間為 T2

新生代大小為 M 時(shí)：頻率 2次/s，每次耗時(shí) T1 + T2
新生代擴(kuò)大為 2M 時(shí)：頻率 1次/s，每次耗時(shí) 2T1

由于T2遠(yuǎn)遠(yuǎn)大于T1，所以2T1 < T1 + T2

這就是知識(shí)的力量~

工具

Java 棧中的工具，也分為這幾類：

JDK 自帶：如 jstat、jstack、jmap、jconsole、jvisualvm
第三方：MAT（eclipse插件）、GCHisto、GCeasy（在線GC日志分析工具，https://gceasy.io/）
開源：大名鼎鼎的Arthas、bistoury（去哪網(wǎng)開源）、Async-profiler

這些工具的原理，我們也需要稍微了解下，比如 Cpu profiler大概有兩類：

基于采樣：優(yōu)點(diǎn)是性能開銷低，缺點(diǎn)是采樣有頻率限制，存在SafePoint Bias問題
插樁：所有方法添加 AOP 邏輯，優(yōu)點(diǎn)是精準(zhǔn)采集，缺點(diǎn)是性能開銷高

比如 uber 開源的 uber-common/jvm-profiler，它就是基于采樣的 Cpu profiler，缺點(diǎn)就是存在 SafePoint Bias 問題，比如有一次排查一個(gè) Cpu 占用問題，就采集到了這樣的火焰圖，可以看到幾乎沒啥用

SafePoint（安全點(diǎn)）可以簡單理解為 JVM 可以停頓下來的特定位置的點(diǎn)，如果采樣的位置是特定的點(diǎn)，那么采樣就不具有代表性，因?yàn)榭赡茉诜?SafePoint 時(shí)可能消耗了更多的 Cpu，這種現(xiàn)象就被稱為 SafePoint Bias 問題。

但我用另一個(gè) jvm-profiling-tools/async-profiler 來采集，就能看到性能瓶頸：

雖然 Async-profiler 也是基于采樣做，但它能避免 SafePoint Bias 問題，原因是它采用了 AsyncGetCallTrace 的黑科技。于是依據(jù) Async-profiler 給出的火焰圖進(jìn)行優(yōu)化，Qps 從 58k 漲到 81k，Cpu 反而從72%下降到了41%