導航:首頁 > 凈水問答 > nltk過濾中文

nltk過濾中文

發布時間:2021-02-04 01:43:16

㈠ python 或c++ 中文命名實體識別開源工具有哪些

一、來NLTK進行分詞

用到的函源數:

nltk.sent_tokenize(text) #對文本按照句子進行分割

nltk.word_tokenize(sent) #對句子進行分詞

二、NLTK進行詞性標注

用到的函數:

nltk.pos_tag(tokens)#tokens是句子分詞後的結果,同樣是句子級的標注

三、NLTK進行命名實體識別(NER)

用到的函數:

nltk.ne_chunk(tags)#tags是句子詞性標注後的結果,同樣是句子級

上例中,有兩個命名實體,一個是Xi,這個應該是PER,被錯誤識別為GPE了; 另一個事China,被正確識別為GPE。

四、句法分析

nltk沒有好的parser,推薦使用stanfordparser

但是nltk有很好的樹類,該類用list實現

可以利用stanfordparser的輸出構建一棵python的句法樹

㈡ 如何用 Python 中的 NLTK 對中文進行分析和處理

我感覺用nltk 處理中文是完全可用的。其重點在於中文分詞和文本表達的形內式。
中文和英文主要容的不同之處是中文需要分詞。因為nltk 的處理粒度一般是詞,所以必須要先對文本進行分詞然後再用nltk 來處理(不需要用nltk 來做分詞,直接用分詞包就可以了。嚴重推薦結巴分詞,非常好用)。
中文分詞之後,文本就是一個由每個片語成的長數組:[word1, word2, word3…… wordn]。之後就可以使用nltk 裡面的各種方法來處理這個文本了。比如用FreqDist 統計文本詞頻,用bigrams 把文本變成雙片語的形式:[(word1, word2), (word2, word3), (word3, word4)……(wordn-1, wordn)]。

㈢ 如何用 Python 中的 NLTK 對中文進行分析和處理

用到的函數:
nltk.ne_chunk(tags)#tags是句子詞性標注後的結果,同樣是句子級有兩個命名實體,一個是專Xi,這個應屬該是PER,被錯誤識別為GPE了; 另一個事China,被正確識別為GPE。

㈣ 如何用 Python 中的 NLTK 對中文進行分析和處理

最近正在用nltk 對中文網路商品評論進行褒貶情感分類,計算評論的信息熵(entropy)、互信息(point mutual information)和困惑值(perplexity)等(不過這些概念我其實也還理解不深...只是nltk 提供了相應方法)。
我感覺用nltk 處理中文是完全可用的。其重點在於中文分詞和文本表達的形式。
中文和英文主要的不同之處是中文需要分詞。因為nltk 的處理粒度一般是詞,所以必須要先對文本進行分詞然後再用nltk 來處理(不需要用nltk 來做分詞,直接用分詞包就可以了。嚴重推薦結巴分詞,非常好用)。
中文分詞之後,文本就是一個由每個片語成的長數組:[word1, word2, word3…… wordn]。之後就可以使用nltk 裡面的各種方法來處理這個文本了。比如用FreqDist 統計文本詞頻,用bigrams 把文本變成雙片語的形式:[(word1, word2), (word2, word3), (word3, word4)……(wordn-1, wordn)]。
再之後就可以用這些來計算文本詞語的信息熵、互信息等。
再之後可以用這些來選擇機器學習的特徵,構建分類器,對文本進行分類(商品評論是由多個獨立評論組成的多維數組,網上有很多情感分類的實現例子用的就是nltk 中的商品評論語料庫,不過是英文的。但整個思想是可以一致的)。
另外還有一個困擾很多人的Python 中文編碼問題。多次失敗後我總結出一些經驗。
Python 解決中文編碼問題基本可以用以下邏輯:
utf8(輸入) ——> unicode(處理) ——> (輸出)utf8
Python 裡面處理的字元都是都是unicode 編碼,因此解決編碼問題的方法是把輸入的文本(無論是什麼編碼)解碼為(decode)unicode編碼,然後輸出時再編碼(encode)成所需編碼。
由於處理的一般為txt 文檔,所以最簡單的方法,是把txt 文檔另存為utf-8 編碼,然後使用Python 處理的時候解碼為unicode(sometexts.decode('utf8')),輸出結果回txt 的時候再編碼成utf8(直接用str() 函數就可以了)。

㈤ 如何用 Python 中的 NLTK 對中文進行分析和處理

一、NLTK進行分詞

用到的函數:

nltk.sent_tokenize(text) #對文本按照句子進行分割

nltk.word_tokenize(sent) #對句子進行分詞

二、NLTK進行詞性標注

用到的內函數容:

nltk.pos_tag(tokens)#tokens是句子分詞後的結果,同樣是句子級的標注

三、NLTK進行命名實體識別(NER)

用到的函數:

nltk.ne_chunk(tags)#tags是句子詞性標注後的結果,同樣是句子級

上例中,有兩個命名實體,一個是Xi,這個應該是PER,被錯誤識別為GPE了; 另一個事China,被正確識別為GPE。

四、句法分析

nltk沒有好的parser,推薦使用stanfordparser

但是nltk有很好的樹類,該類用list實現

可以利用stanfordparser的輸出構建一棵python的句法樹

㈥ nltk如何處理中文同義詞、近義詞

1、從感情色彩上進行辨析,也就是從詞的褒貶義去辨析。如「頑強」與「頑固」內,前者容表示贊許,後者則表示憎恨。
2、從語意輕重上進行辨析。如「破壞」與「摧毀」,前者程度淺,後者程度深。
3、從范圍大小上進行辨析。如「戰爭」與「戰斗」,前者范圍大,後者范圍小。
4、從具體與概括的不同進行辨析。如「衣服」與「襯衫」,「衣服」是概括性的,指所有衣服,而「襯衫」是具體的,可以指長袖襯衫或短袖襯衫,男式襯衫或女式襯衫等。

㈦ python nltk 怎麼樣使用中文

NLTK裡面提供的函數應該不可能用於中文吧。
分詞就沒法分,剩下的就都做不了了
即使設置一下編碼什麼的,也沒什麼意義啊

如果我說錯了就錯了吧,留個名,看看其他人怎麼回答。哈哈

㈧ 如何用 Python 中的 NLTK 對中文進行分析和處理

有很多好用的中文處理包:
Jieba:可以用來做分詞,詞性標注,TextRank
HanLP:分詞,命名實體識別,依存句法分析,還有FudanNLP,NLPIR
個人覺得都比NLTK好用~

㈨ 如何用 Python 中的 NLTK 對中文進行分析和處理

用到的函數:

nltk.sent_tokenize(text) #對文本按照句子進行分割

nltk.word_tokenize(sent) #對句子進行分詞

㈩ 如何使用nltk進行中文分詞

中文裡沒有分詞的說法,只有英文、法語、德語等有分詞的說法。
分詞是動詞的三種非限定形式之一,分為兩種:現在分詞和過去分詞。現在分詞一般有四種形式,基本形式為「動詞原形+-ing」,完成式為having加過去分詞,一般被動式為being加過去分詞,完成被動式為having
been加過去分詞,而過去分詞只有一種形式,規則動詞的過去分詞由動詞原形加-ed構成,不規則動詞需要單獨記憶。
現在分詞一般式的構成如下:
動詞的現在分詞,一般在詞尾加-ing,但以-e結尾的字則去-e加-ing:laugh—laughing、live--living。但是,-e前為母音,-e要保留。Hoe—hoeing、agree—agreeing,toe—toeing、dye—dyeing、shoe—shoeing、singe—singeing。
以重讀閉音節結尾的動詞,末尾只有一個輔音字母(x除外),雙寫末尾的輔音字母加-ing:plan—planning、occur—occurring。非重讀閉音節結尾的動詞,則不要雙寫,如:travel—traveling。
以輔音字母c結尾的動詞,c後加k再加-ing:traffic—trafficking、picnic—picnicking。
不規則動詞的現在分詞要逐個記憶:lie—lying、die—dying、tie—tying、vie—vying。
規則動詞的過去分詞,一般在詞尾加-ed,但以-e結尾的字則只加-d:laugh—laughed、live—lived、age—aged、curse—cursed、learn—learned、crook—crooked、bless—blessed。
以輔音字母加y結尾的動詞,變y為I加-ed。如:hurry—hurried、try—tried。
以重讀閉音節結尾的動詞,末尾只有一個輔音字母(x除外),雙寫末尾的輔音字母加-ed:plan—planned、occur—occurred、dog—dogged 。但:humbug—humbugged、zigzag—zigzagged。非重讀閉音節結尾的動詞,則不要雙寫,如:travel—traveled。
以輔音字母c結尾的動詞,c後加k再加-ed:traffic—trafficked、picnic—picnicked。
不規則動詞的過去分詞須單獨記憶:get—got—gotten、sink—sank—sunk、strike—struck—struck、bear—bore—borne、rot—rotted—rotten、hang—hung—hung。

閱讀全文

與nltk過濾中文相關的資料

熱點內容
什麼牌的純凈水蒸臉好 瀏覽:7
機油濾芯歐菲怎麼樣 瀏覽:394
廢水廢氣處理程序 瀏覽:381
超濾膜纖維斷了 瀏覽:225
飲水機送電跳閘什麼原因 瀏覽:2
有除垢地暖管嗎 瀏覽:577
樹脂材料怎麼維修 瀏覽:444
怎麼才能把污水變清水視頻 瀏覽:676
污水管需要提升泵嗎 瀏覽:918
蒸餾水與健身 瀏覽:956
ro膜脫除氧氣 瀏覽:657
水垢和壺有關系嗎 瀏覽:306
污水中怎麼能產生氨氣 瀏覽:34
凈化器異響是怎麼回事 瀏覽:63
污水提升泵屬於清單里什麼泵 瀏覽:86
陽新城東污水處理廠 瀏覽:608
浙江污水管道清淤怎麼操作 瀏覽:845
純水泥漿有什麼作用 瀏覽:244
溫度對納濾的影響 瀏覽:651
制葯超純水儀多少錢 瀏覽:873