confusionmatrix(confusion matrix中文翻譯,confusion matrix是什么意思,confusion matrix發(fā)音、用法及例句)
- 內容導航:
- 1、confusion matrix
- 2、機器學(xué)習模型的衡量指標有哪些?
1、confusion matrix
confusion matrix發(fā)音
英: 美:
confusion matrix中文意思翻譯
含混矩陣
[計]混淆矩陣
confusion matrix雙語(yǔ)使用場(chǎng)景
1、And precision evaluation was carried out for the classified image by confusion matrix which confirmed the feasibility of this method.───并且通過(guò)混淆矩陣的方法對分類(lèi)結果進(jìn)行精度評價(jià),驗證該方法的可行性。
2、new block cipher is designed where the diffusion of matrix multiplication is combined with the confusion of specially designed matrix operation to encrypt information.───新的分組密碼算法,該算法利用矩陣乘法的擴散作用與專(zhuān)門(mén)設計的一種矩陣運算的混亂作用實(shí)現對信息的加密。
3、Finally, in the "Confusion Matrix, " it shows you the number of false positives and false negatives.───最后,在“ConfusionMatrix”中,顯示了假正和假負的數量。
4、The output from such a test in Mahout is a data structure called a confusion matrix.───這種測試在 Mahout 中輸出的數據結構是混合矩陣。
5、Manchu Character Recognition Post-Processing Based on Bayes Rules and Substitution Set Confusion Matrix───基于貝斯準則和待定詞集模糊矩陣的滿(mǎn)文識別后處理
6、A confusion matrix describes how many results were correctly classified and how many were incorrectly classified for each of the categories.───混合矩陣可以描述各類(lèi)別有多少正確分類(lèi)的結果和錯誤分類(lèi)的結果。
7、Then a measurement of this relationship has been proposed by utilizing the confusion matrix.───進(jìn)而提出了基于混淆矩陣度量模式間混淆關(guān)系的方法。
confusion matrix相似詞語(yǔ)短語(yǔ)
1、confusion───n.混淆,混亂;困惑
2、consolatrix───安慰
3、Boston matrix───波士頓矩陣
4、Boston matrixes───波士頓矩陣
5、Hermitian matrix───埃爾米特矩陣;厄密矩陣
6、confessionary───n.懺悔室;告解所;adj.告罪的
7、confusional───adj.精神混亂的
2、機器學(xué)習模型的衡量指標有哪些?
我們傾向于使用精度,是因為熟悉它的定義,而不是因為它是評估模型的最佳工具!準確率和召回率等指標對衡量機器學(xué)習的模型性能是非?;镜?,周志華教授的「西瓜書(shū)」就特別詳細地介紹了這些概念。
GitHub 地址:https://github.com/WillKoehrsen/Data-Analysis/blob/master/recall_precision/recall_precision_example.ipynb
為分類(lèi)任務(wù)選擇正確的衡量指標
倘若某人聲稱(chēng)創(chuàng )建了一個(gè)能夠識別登上飛機的恐怖分子的模型,并且精度(accuracy)高達 99%。你相信嗎?好了,有這么一個(gè)模型:將從美國機場(chǎng)起飛的所有乘客簡(jiǎn)單地標注為非恐怖分子。已知美國全年平均有 8 億人次的乘客,并且在 2000-2017 年間共發(fā)現了 19 名恐怖分子,這個(gè)模型達到了接近完美的精度——99.9999999%。這聽(tīng)起來(lái)確實(shí)令人印象深刻,但是我懷疑美國國土安全局不會(huì )在近期購買(mǎi)這個(gè)模型。盡管這個(gè)模型擁有接近完美的精度,但是在這個(gè)問(wèn)題中精度顯然不是一個(gè)合適的度量指標。
恐怖分子檢測是一個(gè)不平衡的分類(lèi)問(wèn)題:我們需要鑒別的類(lèi)別有兩個(gè)——恐怖分子和非恐怖分子,其中一個(gè)類(lèi)別代表了極大多數的數據點(diǎn)。另一個(gè)不平衡分類(lèi)問(wèn)題出現在當疾病在公眾中的發(fā)病率很低時(shí)的疾病監測。在這兩種情況下,正例類(lèi)別——疾病或恐怖分子,遠遠少于負例類(lèi)別的數量。這種問(wèn)題是數據科學(xué)中比較常見(jiàn)的例子,其中精度并不是評估模型性能的很好的衡量標準。
直觀(guān)地說(shuō),我們知道在恐怖分子檢測的問(wèn)題中宣布所有的數據點(diǎn)為負例(非恐怖分子)是毫無(wú)裨益的,相反,我們應該聚焦于正例(恐怖分子)的識別。直覺(jué)告訴我們,我們應該最大化的是統計學(xué)上稱(chēng)為召回率或查全率(recall)的衡量指標,或者是最大化模型找到數據集中所有相關(guān)案例的能力。召回率的準確定義是:真正例除以(真正例+假反例)的和,如下圖所示。真正例(true positives)是被真確分類(lèi)的正例數據點(diǎn),假反例(false negatives)是被錯誤分類(lèi)的負例數據點(diǎn)。在恐怖分子檢測的例子中,TP 是被正確識別的恐怖分子,FN 是模型誤分類(lèi)為非恐怖分子的恐怖分子的數據點(diǎn)。召回率可以被理解為模型找到數據集中所有感興趣的數據點(diǎn)的能力。
你可能注意到了這個(gè)等式中的一些細節:如果我們將所有的個(gè)體都預測為恐怖分子,那么模型的召回率就是 1.0!這樣我們就得到了一個(gè)完美的模型嗎?當然,不是!與數據科學(xué)中的絕大多數概念一樣,在我們想要最大化的指標之間存在一個(gè)權衡。在召回率的例子中,當召回率增大的時(shí)候,準確率就會(huì )減小。同樣,直覺(jué)告訴我們,一個(gè)將 100% 的乘客標記為恐怖分子的模型可能是不可用的,因為我們必須禁止每一個(gè)乘客的飛行。統計學(xué)為我們提供了表達直覺(jué)的詞匯:這個(gè)新的模型是低準確率(precision)的,或者說(shuō)較低的僅識別相關(guān)數據點(diǎn)的能力。
準確率被定義為真正例除以(真正例+假正例)的和,如下圖所示。假正例(FP)指的是模型將實(shí)際上是反例的樣本誤判為正例的情況,或者說(shuō),在我們的例子中指的是那些被模型判斷為恐怖分子,而實(shí)際上不是恐怖分子的個(gè)體。召回率(查全率)表達的是模型找到數據集中相關(guān)實(shí)例的能力,而準確率(查準率)表達模型找到的數據點(diǎn)中實(shí)際相關(guān)的比例。
現在我們可以看到,第一個(gè)模型給所有的個(gè)體標上了非恐怖分子的標簽,這個(gè)模型是不能使用的。盡管它有著(zhù)近乎完美的精度,但是它的準確率和召回率都是零,因為沒(méi)有 TP(真正例)!假設我們輕微地修改一下模型,然后將一個(gè)個(gè)體正確地識別為恐怖分子?,F在,準確率是 1(沒(méi)有假正例,FP),但是召回率很低,因為實(shí)際上會(huì )有很多假反例(FN)。假設我們走到了另一個(gè)極端,將所有的乘客標記為恐怖分子,召回率就會(huì )是 1——我們將抓住每一個(gè)恐怖分子,但是準確率會(huì )特別低,我們最終會(huì )拘留很多無(wú)辜的人。換言之,隨著(zhù)準確率的增加,召回率會(huì )降低,反之亦然。
準確率—召回率權衡
結合準確率和召回率
在某些情況中,我們也許需要以犧牲另一個(gè)指標為代價(jià)來(lái)最大化準確率或者召回率。例如,在之前的例子中,在對患者進(jìn)行隨訪(fǎng)檢查的初步疾病篩查中,我們可能希望得到接近于 1 的召回率—我們想找到所有實(shí)際患病的患者。如果隨訪(fǎng)檢查的代價(jià)不是很高,我們可以接受較低的準確率。然而,如果我們想要找到準確率和召回率的最佳組合,我們可以使用 F1 score 來(lái)對兩者進(jìn)行結合。
F1 score 是對準確率和召回率的調和平均:
我們使用調和平均而不是簡(jiǎn)單的算術(shù)平均的原因是:調和平均可以懲罰極端情況。一個(gè)具有 1.0 的準確率,而召回率為 0 的分類(lèi)器,這兩個(gè)指標的算術(shù)平均是 0.5,但是 F1 score 會(huì )是 0。F1 score 給了準確率和召回率相同的權重,它是通用 Fβ指標的一個(gè)特殊情況,在 Fβ中,β 可以用來(lái)給召回率和準確率更多或者更少的權重。(還有其他方式可以結合準確率和召回率,例如二者的幾何平均,但是 F1 score 是最常用的。) 如果我們想創(chuàng )建一個(gè)具有最佳的準確率—召回率平衡的模型,那么就要嘗試將 F1 score 最大化。
可視化準確率和召回率
我已經(jīng)向你拋出了幾個(gè)新術(shù)語(yǔ),接下來(lái)我將通過(guò)一個(gè)例子向你展示它們在實(shí)際中是如何使用的。在使用之前,我們要簡(jiǎn)單地談一談準確率和召回率的概念。
首先要介紹一下混淆矩陣(confusion matrix),給定一個(gè)模型的預測標簽時(shí),它可以被用來(lái)快速計算準確率和召回率。二分類(lèi)的混淆矩陣總共包含四個(gè)不同的結果:真正例(TP)、假正例(FP)、真反例(TN),以及假反例(FN)。列表示真實(shí)值,行表示預測值。行和列的交叉點(diǎn)指的就是這四種結果。例如,如果我們將一個(gè)數據點(diǎn)預測為正例,但是它實(shí)際上是反例,那么這就是一個(gè)假正例。
用混淆矩陣計算準確率和召回率需要找到矩陣中對應的值,并應用以下的等式進(jìn)行計算。
其他的用來(lái)展示分類(lèi)模型性能的可視化技術(shù)是受試者特征曲線(xiàn)(ROC 曲線(xiàn),Receiver Operating Characteristic curve)。別被這個(gè)復雜的名詞嚇到!這個(gè)思想是相當簡(jiǎn)單的:ROC 曲線(xiàn)展示了當改變在模型中識別為正例的閾值時(shí),召回率和準確率的關(guān)系會(huì )如何變化。如果我們有一個(gè)用來(lái)識別疾病的模型,我們的模型可能會(huì )為每一種疾病輸出介于 0 到 1 之間的一個(gè)分數,為了將某個(gè)病人標記為患有某種疾?。ㄒ粋€(gè)正例標簽),我們?yōu)槊糠N疾病在這個(gè)范圍內設置一個(gè)閾值,通過(guò)改變這個(gè)閾值,我們可以嘗試實(shí)現合適的準確率和召回率之間的平衡。
ROC 曲線(xiàn)在 Y 軸上畫(huà)出了真正例率(TPR),在 X 軸上畫(huà)出了假正例率 (FPR)。TPR 是召回率,FPR 是反例被報告為正例的概率。這兩者都可以通過(guò)混淆矩陣計算得到。
下圖是一個(gè)典型的 ROC 曲線(xiàn):
ROC 曲線(xiàn)
黑色對角線(xiàn)表示隨機分類(lèi)器,紅色和藍色曲線(xiàn)表示兩種不同的分類(lèi)模型。對于給定的模型,只能對應一條曲線(xiàn)。但是我們可以通過(guò)調整對正例進(jìn)行分類(lèi)的閾值來(lái)沿著(zhù)曲線(xiàn)移動(dòng)。通常,當降低閾值時(shí),會(huì )沿著(zhù)曲線(xiàn)向右和向上移動(dòng)。在閾值為 1.0 的情況下,我們將位于圖的左下方,因為沒(méi)有將任何數據點(diǎn)識別為正例,這導致沒(méi)有真正例,也沒(méi)有假正例(TPR = FPR = 0)。當降低閾值時(shí),我們將更多的數據點(diǎn)識別為正例,導致更多的真正例,但也有更多的假正例 ( TPR 和 FPR 增加)。最終,在閾值 0.0 處,我們將所有數據點(diǎn)識別為正,并發(fā)現位于 ROC 曲線(xiàn)的右上角 ( TPR = FPR = 1.0 )。
最后,我們可以通過(guò)計算曲線(xiàn)下面積 ( AUC ) 來(lái)量化模型的 ROC 曲線(xiàn),這是一個(gè)介于 0 和 1 之間的度量,數值越大,表示分類(lèi)性能越好。在上圖中,藍色曲線(xiàn)的 AUC 將大于紅色曲線(xiàn)的 AUC,這意味著(zhù)藍色模型在實(shí)現準確度和召回率的權衡方面更好。隨機分類(lèi)器 (黑線(xiàn)) 實(shí)現 0.5 的 AUC。
回顧
我們已經(jīng)介紹了幾個(gè)判斷模型性能的屬性,每個(gè)屬性的定義都不是很復雜,但是結合在一起就有點(diǎn)復雜了。讓我們通過(guò)一個(gè)例子做一個(gè)快速的回顧來(lái)鞏固一下這些思想。
對于二分類(lèi)問(wèn)題
真正例(TP):實(shí)際上是正例的數據點(diǎn)被標記為正例
假正例(FP):實(shí)際上是反例的數據點(diǎn)被標記為正例
真反例(TN):實(shí)際上是反例的數據點(diǎn)被標記為反例
假反例(FN):實(shí)際上是正例的數據點(diǎn)被標記為反例
召回率和準確率衡量指標
召回率(R):分類(lèi)模型識別所有相關(guān)實(shí)例的能力
準確率(P):分類(lèi)模型僅僅返回相關(guān)實(shí)例的能力
F1 score:使用調和平均結合召回率和準確率的指標
召回率和準確率的可視化
混淆矩陣:展示分類(lèi)模型的真實(shí)和預測標簽的對應結果。
受試者特征曲線(xiàn)(ROC 曲線(xiàn)):畫(huà)出真正例率(TPR)和假正例率(FPR),并將此作為模型歸類(lèi)正例閾值的函數。
曲線(xiàn)下面積(AUC):基于 ROC 曲線(xiàn)下方的面積,計算分類(lèi)模型總體性能的指標。
實(shí)例應用
我們的任務(wù)是為 100 名病人診斷一種在普通人群中患病率是 50% 的疾病。我們將假設一個(gè)黑盒模型,我們輸入關(guān)于患者的信息,并得到 0 到 1 之間的分數。我們可以改變將患者標記為正例 (有疾病) 的閾值,以最大化分類(lèi)器性能。我們將以 0.1 為增量從 0.0 到 1.0 評估閾值,在每個(gè)步驟中計算 ROC 曲線(xiàn)上的準確率、召回率、F1 score 以及在 ROC 曲線(xiàn)上的位置。以下是每個(gè)閾值的分類(lèi)結果:
模型在每個(gè)閾值下的結果
我們將以閾值為 0.5 為例計算對應的召回率、準確率、真正例率、假正例率。首先我們得到混淆矩陣:
閾值為 0.5 時(shí)的混淆矩陣
我們可以利用混淆矩陣中的數值來(lái)計算召回率、準確率和 F1 score:
然后計算真正例率和假正例率來(lái)確定閾值為 0.5 時(shí),模型在 ROC 曲線(xiàn)上對應的點(diǎn)。
為了得到整個(gè) ROC 曲線(xiàn),我們在每個(gè)閾值下都進(jìn)行這個(gè)過(guò)程。你可能會(huì )想,這是相當乏味的,所以,我們用 python 語(yǔ)言來(lái)代替手工計算。用來(lái)做這些計算的 Juoyter Notebook 放在了 github 上,每個(gè)人都可以看到。最終的 ROC 曲線(xiàn)如下所示,點(diǎn)上面的數字是閾值。
在這里我們可以看到,所有的概念都匯集到一起了!在閾值等于 1.0 的點(diǎn),我們沒(méi)有將任何病人歸類(lèi)為患病,因此模型的召回率和準確率都是 0。隨著(zhù)閾值的減小,召回率增加了,因為我們發(fā)現更多的患者患有該疾病。然而,隨著(zhù)召回率的增加,準確率會(huì )降低,因為除了增加真正例之外,還會(huì )增加假正例。在閾值為 0.0 的時(shí)候,我們的召回率是完美的——我們發(fā)現所有的患者都患有這種疾病——但是準確率很低,因為有很多假正例。通過(guò)更改閾值并選擇最大化 F1 score 的閾值,我們可以沿著(zhù)給定模型的曲線(xiàn)移動(dòng)。要改變整個(gè)曲線(xiàn),我們需要建立一個(gè)不同的模型。
在每個(gè)閾值下最終模型的統計量如下表:
基于 F1 score,整體最佳的模型出現在閾值為 0.5 的地方。如果我們想要在更大程度上強調準確率或者召回率,我們可以選擇這些指標上最佳時(shí)對應的模型。
結論
我們傾向于使用精度,因為每個(gè)人都知道它意味著(zhù)什么,而不是因為它是完成任務(wù)的最佳工具!雖然更適合的度量指標 (如召回率和準確率) 看起來(lái)可能很陌生,但我們已經(jīng)直觀(guān)地了解了為什么它們在某些問(wèn)題 (如不平衡的分類(lèi)任務(wù)) 中有著(zhù)更好的表現。統計學(xué)為我們提供了計算這些指標的形式化定義和方程。數據科學(xué)是關(guān)于尋找解決問(wèn)題的正確工具的學(xué)科,而且在開(kāi)發(fā)分類(lèi)模型時(shí),我們常常需要超越精度(accuracy)的單一指標。了解召回率、準確率、F1 score 和 ROC 曲線(xiàn)使我們能夠評估分類(lèi)模型,并應使我們懷疑是否有人僅僅在吹捧模型的精度,尤其是對于不平衡的問(wèn)題。正如我們所看到的,精度(accuracy)并不能對幾個(gè)關(guān)鍵問(wèn)題提供有用的評估,但現在我們知道如何使用更聰明的衡量指標!
版權聲明: 本站僅提供信息存儲空間服務(wù),旨在傳遞更多信息,不擁有所有權,不承擔相關(guān)法律責任,不代表本網(wǎng)贊同其觀(guān)點(diǎn)和對其真實(shí)性負責。如因作品內容、版權和其它問(wèn)題需要同本網(wǎng)聯(lián)系的,請發(fā)送郵件至 舉報,一經(jīng)查實(shí),本站將立刻刪除。