Python自然語言處理（入門）

更新時間:2023-03-07 來源:黑馬程序員瀏覽量:

IT培訓班

　　Python是一種強大而受歡迎的編程語言，易于學習和使用，加上它具有直觀的語法和大量的開源文檔和社區(qū)支持，特別適合用于自然語言處理任務。

　　以下是幾個Python自然語言處理的實例：

　　1.文本清理和預處理

　　對于大多數(shù)自然語言處理應用程序，首先需要對原始文本進行清理和預處理。Python中有許多用于文本清理和預處理的庫和技術，例如nltk(自然語言工具包)和正則表達式。下面是一個簡單的文本清理示例，該示例將刪除HTML標記和停用詞：

import re
from nltk.corpus import stopwords

stop_words = set(stopwords.words('english'))

def clean_text(text):
    text = re.sub('<[^>]*>', '', text)
    text = re.sub(r'[^\w\s]','',text)
    text = text.lower()
    text = [word for word in text.split() if word not in stop_words]
    return " ".join(text)

　　2.分詞

　　分詞是將句子分成單詞或標記的過程。Python中有幾個分詞庫可供選擇，如nltk、spaCy和Stanford NLP等。以下是一個使用nltk的分詞示例：

from nltk.tokenize import word_tokenize

text = "This is a sentence."
tokens = word_tokenize(text)
print(tokens)

　　3.詞性標注

　　詞性標注是將單詞分配到其詞性的過程。Python中的nltk庫具有內置的詞性標注器，可以使用它來標注句子中的單詞。以下是一個使用nltk的詞性標注示例：

from nltk.tokenize import word_tokenize
from nltk import pos_tag

text = "This is a sentence."
tokens = word_tokenize(text)
tags = pos_tag(tokens)
print(tags)

　　4.命名實體識別

　　命名實體識別是在文本中識別實體(如人名、組織、地名等)的過程。Python中的nltk和spaCy庫都有內置的命名實體識別器。以下是一個使用spaCy的命名實體識別示例：

import spacy

nlp = spacy.load('en_core_web_sm')
text = "Steve Jobs was the CEO of Apple."
doc = nlp(text)
for ent in doc.ents:
    print(ent.text, ent.label_)

　　5.文本分類

　　文本分類是將文本分成預定義類別的過程。Python中的scikit-learn和nltk等庫都可以用于文本分類。以下是一個使用scikit-learn的文本分類示例：

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB

train_data = ["This is a good movie.",
              "This is a bad movie.",
              "The plot was good, but the acting was terrible.",
              "The acting was good, but the plot was terrible."]
train_labels = ["positive", "negative", "negative", "positive"]

vectorizer = CountVectorizer()
train_vectors = vectorizer.fit_transform(train_data)

classifier = MultinomialNB()
classifier.fit(train_vectors, train_labels)

test_data = ["This movie was very good."]
test_vectors = vectorizer.transform(test_data)
print(classifier.predict(test_vectors))

　　6.情感分析

　　情感分析是在文本中確定情感(如正面、負面或中性)的過程。Python中的nltk、TextBlob和VADER等庫可以用于情感分析。以下是一個使用TextBlob進行情感分析的示例：

from textblob import TextBlob

text = "I love this product. It works great!"
blob = TextBlob(text)
sentiment = blob.sentiment.polarity
if sentiment > 0:
    print("positive")
elif sentiment < 0:
    print("negative")
else:
    print("neutral")

　　7.主題建模

　　主題建模是從文本集合中識別主題的過程。Python中的gensim和lda等庫可以用于主題建模。以下是一個使用gensim進行主題建模的示例：

import gensim
from gensim import corpora

documents = ["This is a good movie.",
             "This is a bad movie.",
             "The plot was good, but the acting was terrible.",
             "The acting was good, but the plot was terrible."]

# create dictionary and corpus
texts = [[word for word in document.lower().split()] for document in documents]
dictionary = corpora.Dictionary(texts)
corpus = [dictionary.doc2bow(text) for text in texts]

# build LDA model
lda_model = gensim.models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=2, passes=10)

# print topics
topics = lda_model.print_topics(num_words=4)
for topic in topics:
    print(topic)

　　以上是一些Python自然語言處理的示例。當然，還有許多其他的應用程序和技術可供使用，這些示例只是為了幫助您了解Python中自然語言處理的一些基礎。

上一篇：Python進程池是什么意思? 下一篇：什么叫反范式?反范式優(yōu)缺點有哪些?數(shù)據(jù)庫反范式技術包括什么?