統(tǒng)計與數(shù)據(jù)科學(xué)學(xué)院 報道
近日,南京審計大學(xué)統(tǒng)計與數(shù)據(jù)科學(xué)學(xué)院講師周燦、李南,聯(lián)合黑龍江科技大學(xué)講師王帥、東北師范大學(xué)教授王曉飛及北京工商大學(xué)教授郭建華,共同完成的學(xué)術(shù)論文“Learning Semi-parametric Tree Models from Mixed Data” 已在線發(fā)表于人工智能領(lǐng)域頂級期刊Artificial Intelligence (AIJ)。

該研究聚焦于混合數(shù)據(jù)情形下的半?yún)?shù)樹模型學(xué)習(xí)問題。在實際應(yīng)用中,數(shù)據(jù)通常同時包含連續(xù)變量與有序變量,例如醫(yī)療診斷中的體征指標與疾病分級、金融風(fēng)控中的連續(xù)評分與等級標簽等。然而,現(xiàn)有多數(shù)結(jié)構(gòu)學(xué)習(xí)方法主要針對純連續(xù)或純離散數(shù)據(jù)設(shè)計,難以有效刻畫混合數(shù)據(jù)中的層次結(jié)構(gòu)并識別隱變量。針對上述挑戰(zhàn),研究團隊提出了一種新穎的半?yún)?shù)樹模型框架。該模型基于高斯copula 與閾值化機制,實現(xiàn)了對連續(xù)變量與有序變量的統(tǒng)一建模。在結(jié)構(gòu)學(xué)習(xí)方面,團隊進一步設(shè)計了一種基于可加信息距離的自底向上算法,用于遞歸恢復(fù)樹結(jié)構(gòu)。理論分析表明,在真實信息距離已知的理想情形下,所提出算法可精確恢復(fù)真實樹結(jié)構(gòu),且計算復(fù)雜度為

此外,論文還建立了算法的概率近似正確性,并給出了實現(xiàn)精確結(jié)構(gòu)恢復(fù)所需的有限樣本界。
論文信息:
Can Zhou, Nan Li, Shuai Wang, Xiaofei Wang & Jianhua Guo (2026). Learning semi-parametric tree models from mixed data. Artificial Intelligence, 353, 1-25. https://doi.org/10.1016/j.artint.2026.104499.











