近日,測繪遙感信息工程國家重點實驗室教授吳華意及遙感信息工程學院桂志鵬課題組在國際綜合類學術期刊《自然·通訊》發表題為“Clustering by measuring local direction centrality for data with heterogeneous density and weak connectivity (《一種面向密度異質與弱連接的局部方向中心性聚類算法》)”的論文。
該論文基于邊界搜尋思想,提出一種局部方向中心性聚類算法(簡稱CDC)。該算法能夠有效克服現實數據分布中普遍存在的密度異質和弱連接性問題,從而提升聚類的精度與穩定性,論文通過多類數據集上與基準算法的對比實驗驗證了算法的有效性。
論文第一作者為測繪遙感信息工程國家重點實驗室博士生彭德華,通訊作者為桂志鵬。論文中細胞識別相關實驗分析得益于生命科學學院教授周宇和博士生王得和的指導與幫助,并得到武漢大學超算中心的計算資源支持。測繪遙感信息工程國家重點實驗室博士生馬云騁、遙感信息工程學院2022級碩士生黃子晨均為該論文作出貢獻。
CDC算法的多個應用場景和scRNA-seq數據的處理流程及聚類結果
聚類是一種強大的非監督分類機器學習方法,其根據數據在特征空間中的鄰近性挖掘數據背后隱藏的群體分布模式,因此被廣泛應用于信息科學、生物學、地球學和經濟學等領域。盡管已有不計其數的聚類方法被提出,但現實數據分布中普遍存在的密度異質和弱連接特性仍然給聚類分析帶來巨大挑戰,導致不同密度的類簇很難通過統一的聚類參數設置被完整識別,而存在弱連接的不同聚類簇被誤合并,嚴重制約了聚類分析的精度與魯棒性。
該論文提出的局部方向中心性聚類算法CDC,通過度量每個點的K最近鄰(KNN)分布均勻性來區分內部點和邊界點。由于邊界點能夠形成封閉的籠子約束內部點的連接,從而防止跨簇連接,實現弱連接簇的有效分離,也避免了密度異質對類簇識別的影響。該研究在48個不同類型數據集上(單細胞RNA序列、質譜流式細胞、合成數據集、UCI數據集,人聲語料庫,人臉圖像)將CDC與38種專業或通用基準算法進行了性能對比,結果表明CDC較主流聚類方法有更高的精度和參數魯棒性,并表現出較好的伸縮性與數據適應性,因此具有廣泛的潛在應用價值。
該研究工作得到國家自然科學基金、國家科技部重點研發計劃及武漢大學知卓時空智能研究基金等項目資助。
論文鏈接:https://www.nature.com/articles/s41467-022-33136-9