首頁 > 期刊 > 自然科學與工程技術 > 基礎科學 > 地球物理學 > 地球信息科學學報 > 基于BiLSTM-CRF的中文層級地址分詞 【正文】
摘要:中文地址分詞是中文地址標準化的基礎工作和地理編碼的重要手段,同時也是中文分詞和地理研究領域中關注的熱點問題之一。針對當前中文地址分詞方法缺乏地址層級切分和過多依賴詞典和特征的問題,本研究結合四詞位標注集和中文層級地址特點,構建針對中文層級地址分詞的地址標注體系,并提出融合雙向長短時記憶網絡和條件隨機場(BiLSTM-CRF)的中文層級地址分詞模型。該模型既考慮了BiLSTM模型能夠記憶上下文地址的特性,也保留了CRF算法可以通過轉移概率矩陣控制地址標注輸出的能力。針對該地址標注體系標注的訓練地址樣本,分別使用CRF、LSTM、BiLSTM與BiLSTM-CRF模型進行訓練對比。結果表明:①基于中文地址標注體系的模型分詞效果更佳,地址標注更為精細,符合實際地址分布情況;②BiLSTM-CRF模型精確度達到93.4%,高于CRF(90.4%)、LSTM(89.3%)和BiLSTM(91.2%),其整體地址分詞性能和各層級地址分詞效果相對于其他模型更突出;③各模型分詞性能與地址層級保持一致,即地址層級越高,分詞效果越好。本研究提出的中文地址標注體系和分詞模型為開展中文地址標準化工作提供了方法參考,同時也為進一步提升地理編碼技術的精準度提供了可能。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社