自然語言處理工具python調用hanlp中文實體識別
小編:管理員 428閱讀 2022.08.12
Hanlp作為一款重要的中文分詞工具,在GitHub的用戶量已經非常之高,應該可以看得出來大家對于hanlp這款分詞工具還是很認可的。本篇繼續分享一篇關于hanlp的使用實例即Python調用hanlp進行中文實體識別。
想要在python中調用hanlp進行中文實體識別,Ubuntu 16.04的系統環境
1.安裝jpype1,在cmd窗口輸入
pip install jpype1
2.下載hanlp的安裝包
在https://github.com/hankcs/HanLP/releases
(1)下載新的 hanlp-1.7.1-release.zip文件,里面包含hanlp-1.7.1.jar , hanlp-1.7.1-sources.jar , hanlp.properties
(2)點擊data-for-1.7.1.zip下載。(底下第8條)
注:如果你在http://hanlp.linrunsoft.com/services.html點擊下載hanlp.jar,下載下來的是hanlp-1.2.8.jar。之后在使用過程中可能會出現“字符類型對應表加載失敗”的錯誤,查看相應路徑下也沒有CharType.dat.yes文件。原因可能是hanlp-1.2.8版本過低,使用新版本應該不會出現這個問題。
3.新建一個文件夾Hanlp,放文件hanlp-1.7.1.jar和hanlp.properties文件
新建一個文件夾hanlp,放data-for-1.7.1.zip解壓后的文件
配置hanlp.properties中的第一行的root為hanlp文件夾的位置,也就是data-for-1.7.1.zip解壓后的文件放的位置。
4.寫py文件調用hanlp進行中文分析。
用法可參考這個博客 ?blog.csdn.net/u011961856/article/details/77167546。
另,查看HanLP關于實體識別的文檔http://hanlp.linrunsoft.com/doc.html
里面介紹說中文人名標注為“nr”,地名標注為“ns”,機構名標注為“nt”,所以使用用法參考鏈接里的NLPTokenizer.segment就可以標注出中文句子中的人名,地名和機構名。
比較使用jieba進行詞性標注時,也可以標注出中文句子中的人名,地名和機構名。jieba分詞的詞性說明:
相關推薦
- 教你用Python進行自然語言處理 自然語言處理是數據科學中的一大難題。在這篇文章中,我們會介紹一個工業級的python庫。自然語言處理(NLP)是數據科學中最有趣的子領域之一,越來越多的數據科學家希望能夠開發出涉及非結構化文本數據的解決方案。盡管如此,許多應用數據科學家(均具有STEM和…
- 3DMAX提示和技巧 本主題標識使用 Civil View 的一些重要提示和技巧。常規使用屏幕分辨率至少為 1280x1024 的 Civil View。低于此分辨率時,一些面板將占用過多屏幕空間。 將視口設置為線框顯示以達到最佳性能。 要盡可能簡化用戶界面,請在單個視口中工作并關閉 3ds Max 命令面…