<cite id="yyiou"><tbody id="yyiou"></tbody></cite>
<cite id="yyiou"><samp id="yyiou"></samp></cite>
  • <s id="yyiou"></s><bdo id="yyiou"><optgroup id="yyiou"></optgroup></bdo>
  • <cite id="yyiou"><tbody id="yyiou"></tbody></cite>

    首頁 > 期刊 > 自然科學與工程技術(shù) > 信息科技 > 圖書情報與數(shù)字圖書館 > 數(shù)字圖書館論壇 > 基于改進TF-IDF-CHI算法的農(nóng)業(yè)科技文獻文本特征抽取 【正文】

    基于改進TF-IDF-CHI算法的農(nóng)業(yè)科技文獻文本特征抽取

    杜若鵬; 鮮國建; 寇遠濤 中國農(nóng)業(yè)科學院農(nóng)業(yè)信息研究所/農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)大數(shù)據(jù)重點實驗室; 北京100081
    • 特征抽取
    • 卡方統(tǒng)計
    • 文本分類
    • 農(nóng)業(yè)科技文獻

    摘要:針對相近農(nóng)業(yè)科研領(lǐng)域文獻的文本特征信息高度重合的特點,以及傳統(tǒng)的文本特征抽取方法存在的不足,對TF-IDF算法進行優(yōu)化并加以應用驗證。通過引入卡方檢驗值與特征詞頻修正因子等方式,對特征詞加權(quán)函數(shù)進行重構(gòu),形成改進的ImpTF-IDF-CHI方法。將該方法與文檔頻率法、信息增益法及TF-IDF3種傳統(tǒng)的文本特征抽取結(jié)果應用于樸素貝葉斯分類實驗,根據(jù)實驗結(jié)果判定方法的優(yōu)劣性。通過4種方法的58組特征抽取與文本分類實驗,發(fā)現(xiàn)與前述的3種特征抽取方法相比,ImpTF-IDF-CHI方法抽取的特征詞,應用于文本分類的正確率最高,平均準確率達94%,F1值為0.844,證明該方法在對相近農(nóng)業(yè)科研領(lǐng)域文本進行特征抽取方面,具有準確率高、穩(wěn)定性好、主題詞代表性強等優(yōu)點,可以有效地應用于此類文獻文本分類、特征表達、主題抽取等場景。

    注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社

    投稿咨詢 免費咨詢 雜志訂閱

    我們提供的服務

    服務流程: 確定期刊 支付定金 完成服務 支付尾款 在線咨詢
    主站蜘蛛池模板: 开鲁县| 高陵县| 垣曲县| 库尔勒市| 嘉峪关市| 石城县| 阿图什市| 临海市| 刚察县| 乌审旗| 洪江市| 田东县| 濉溪县| 宣恩县| 双江| 金阳县| 西峡县| 公主岭市| 隆子县| 巴楚县| 上饶县| 廉江市| 高台县| 江城| 扎鲁特旗| 凭祥市| 石棉县| 米脂县| 普兰县| 嘉荫县| 阿拉善盟| 黔西县| 洛浦县| 德江县| 英吉沙县| 甘孜县| 宝清县| 依安县| 洛扎县| 广饶县| 永和县|