點(diǎn)擊下載
本文文檔

當(dāng)前位置：首頁(yè) - 科技 - 知識(shí)百科 - 正文

利用Python、SciKit和文本分類(lèi)來(lái)實(shí)現(xiàn)行為分析

來(lái)源：懂視網(wǎng) 責(zé)編：小采時(shí)間：2020-11-27 14:17:22

利用Python、SciKit和文本分類(lèi)來(lái)實(shí)現(xiàn)行為分析

利用Python、SciKit和文本分類(lèi)來(lái)實(shí)現(xiàn)行為分析:簡(jiǎn)介幾乎所有人都會(huì)購(gòu)物。從基本的必需品（比如食品）到娛樂(lè)產(chǎn)品（比如音樂(lè)專(zhuān)輯），我們會(huì)購(gòu)買(mǎi)各種各樣的物品。當(dāng)購(gòu)物時(shí)，我們不僅會(huì)尋找在生活中用到的東西，也會(huì)在表達(dá)我們對(duì)某些社會(huì)群體的興趣。我們的在線行為和決策塑造了我們自己的行為特征。當(dāng)購(gòu)買(mǎi)產(chǎn)品

推薦度：

點(diǎn)擊下載本文 文檔為doc格式

導(dǎo)讀利用Python、SciKit和文本分類(lèi)來(lái)實(shí)現(xiàn)行為分析:簡(jiǎn)介幾乎所有人都會(huì)購(gòu)物。從基本的必需品（比如食品）到娛樂(lè)產(chǎn)品（比如音樂(lè)專(zhuān)輯），我們會(huì)購(gòu)買(mǎi)各種各樣的物品。當(dāng)購(gòu)物時(shí)，我們不僅會(huì)尋找在生活中用到的東西，也會(huì)在表達(dá)我們對(duì)某些社會(huì)群體的興趣。我們的在線行為和決策塑造了我們自己的行為特征。當(dāng)購(gòu)買(mǎi)產(chǎn)品

簡(jiǎn)介

幾乎所有人都會(huì)購(gòu)物。從基本的必需品（比如食品）到娛樂(lè)產(chǎn)品（比如音樂(lè)專(zhuān)輯），我們會(huì)購(gòu)買(mǎi)各種各樣的物品。當(dāng)購(gòu)物時(shí)，我們不僅會(huì)尋找在生活中用到的東西，也會(huì)在表達(dá)我們對(duì)某些社會(huì)群體的興趣。我們的在線行為和決策塑造了我們自己的行為特征。

當(dāng)購(gòu)買(mǎi)產(chǎn)品時(shí)，該產(chǎn)品具有多個(gè)屬性，這使得它類(lèi)似或不同于其他產(chǎn)品。例如，一個(gè)產(chǎn)品的價(jià)格、大小或類(lèi)型都是它的不同特征。除了這些數(shù)值或枚舉類(lèi)的結(jié)構(gòu)化屬性之外，還有非結(jié)構(gòu)化的文本屬性。例如，產(chǎn)品描述或客戶評(píng)論的文本也構(gòu)成了其明顯的特征。

對(duì)于從這些非結(jié)構(gòu)化文本屬性中提取有意義的東西而言，文本分析和其他自然語(yǔ)言處理（NLP）技術(shù)非常有幫助，而這對(duì)行為分析等任務(wù)又很有價(jià)值。

本文將介紹如何使用文本分類(lèi)來(lái)構(gòu)建行為描述模型。文中將展示如何使用 SciKit 這個(gè)強(qiáng)大的基于 Python 的機(jī)器學(xué)習(xí)包來(lái)實(shí)現(xiàn)模型構(gòu)造和評(píng)估，還會(huì)對(duì)模擬的客戶及其產(chǎn)品購(gòu)買(mǎi)歷史記錄應(yīng)用該模型。在這種特定的場(chǎng)景中，將會(huì)構(gòu)造一個(gè)模型，向客戶分配一些音樂(lè)聽(tīng)眾感興趣的特色內(nèi)容，比如狂歡、哥特或金屬音樂(lè)。該分配是以每個(gè)客戶的購(gòu)買(mǎi)的具體產(chǎn)品和相應(yīng)的文本產(chǎn)品說(shuō)明為基礎(chǔ)的。

音樂(lè)行為描述場(chǎng)景

請(qǐng)看下面的場(chǎng)景。您有一個(gè)包含許多客戶個(gè)人資料的數(shù)據(jù)集。每個(gè)客戶個(gè)人資料都包括客戶已經(jīng)購(gòu)買(mǎi)的所有產(chǎn)品的一個(gè)簡(jiǎn)潔的、基于自然語(yǔ)言的描述列表。下面是一款靴子的示例產(chǎn)品描述。

描述：這一款男裝搭扣靴子是一雙哥特式靴子，具有暗波紋亞文化氣息，靴子的鉚釘頭帶來(lái)了業(yè)內(nèi)的最新時(shí)尚。這款靴子采用了合成的人造皮革鞋面，鞋帶正面使用的是交叉扣，這種交叉一直延續(xù)到了鞋統(tǒng)，鞋底是橡膠大底，底部采用了花紋底，而前幫則采用了戰(zhàn)斗風(fēng)格，內(nèi)側(cè)配有拉鏈，方便穿鞋和脫鞋。鞋統(tǒng) 13.5 英寸，腿部開(kāi)口周長(zhǎng)約 16 英寸。（鞋碼為 9.5。）風(fēng)格：男裝搭扣靴子。

我們的目標(biāo)是根據(jù)這些產(chǎn)品描述，將每位當(dāng)前用戶和未來(lái)用戶分類(lèi)到某個(gè)行為配置文件中。

如下所示，負(fù)責(zé)人使用產(chǎn)品示例來(lái)建立行為特征、行為模型、客戶特征，以及最終的客戶行為特征。

圖 1. 構(gòu)建客戶行為特征的高層次方法

第一步是假設(shè)負(fù)責(zé)人的作用，并向系統(tǒng)提供對(duì)每個(gè)行為特征的理解。實(shí)現(xiàn)此操作的一種方法是手動(dòng)將每個(gè)產(chǎn)品的示例放入系統(tǒng)。示例有助于定義行為特征。本次討論將用戶劃分到以下音樂(lè)行為描述之一：

朋克

哥特

嘻哈

金屬

狂歡

向定義為朋克的產(chǎn)品提供示例，比如朋克專(zhuān)輯和樂(lè)隊(duì)的描述，例如，Sex Pistols 的 "Never Mind the Bollocks"。其他項(xiàng)目可能包括與發(fā)型或鞋類(lèi)相關(guān)的產(chǎn)品，比如雞冠頭和 Doc Marten 皮靴。

庫(kù)、軟件和數(shù)據(jù)的建立

這篇文章中所使用的全部數(shù)據(jù)和源代碼都可以從 bpro project on JazzHub 下載。在下載并解壓 tar 文件后，需要確保您擁有 Python，SciKit Learn（機(jī)器學(xué)習(xí)和文本分析包），以及所有的依賴(lài)關(guān)系（比如 numpy、scipy，等等）。如果使用的是 Mac，那么 SciPy Superpack 可能是您最好的選擇。

在解壓 tar 文件后，您會(huì)注意到兩個(gè)包含簡(jiǎn)介數(shù)據(jù)的 YAML 文件。產(chǎn)品描述是通過(guò)讀取種子語(yǔ)料（或文檔的正文）來(lái)人工生成的。在生成產(chǎn)品描述的過(guò)程中，會(huì)考慮到詞語(yǔ)在產(chǎn)品描述中出現(xiàn)的頻率。清單 1 是一個(gè)人工的產(chǎn)品描述。

備注：下面的描述并不是一個(gè)真正的自然語(yǔ)言描述，但在實(shí)際情況中可能會(huì)出現(xiàn)這種描述。

清單 1. 人工的產(chǎn)品描述

customer single clothes for his size them 1978 course group 
rhymes have master record-breaking group few starts heard 
blue ending company that the band the music packaged 
master kilmister not trousers got cult albums heart 
commentary cut 20.85 tour...

這個(gè)分析包括兩個(gè)數(shù)據(jù)文件：

customers.yaml：包括一個(gè)客戶列表。對(duì)于每個(gè)客戶，包括一個(gè)產(chǎn)品描述列表，以及目標(biāo)標(biāo)簽，或正確的行為描述。正確的行為描述是指您知道的那個(gè)行為描述是正確的。例如，在實(shí)際的場(chǎng)景中，將會(huì)檢查哥特用戶的特征數(shù)據(jù)，以便驗(yàn)證這些購(gòu)買(mǎi)行為表明該用戶是一個(gè)哥特用戶。

behavioral_profiles.yaml：包含描述文件（朋克、哥特等）的列表，以及定義該描述文件的產(chǎn)品描述的樣本集。

您可以通過(guò)運(yùn)行命令 python bpro.py -g 生成自己的模擬文件。

備注：必須先在種子目錄中填充一些內(nèi)容，定義感興趣的流派。進(jìn)入種子目錄，打開(kāi)任何文件，并了解相關(guān)說(shuō)明。您可以操縱 bpro.py 文件中的參數(shù)，以改變產(chǎn)品描述長(zhǎng)度、噪聲量、訓(xùn)練示例的數(shù)量或其他參數(shù)。

構(gòu)建行為描述模型

首先，使用 SciKit 的 CountVectorizer 構(gòu)建一個(gè)基于術(shù)語(yǔ)計(jì)數(shù)的簡(jiǎn)單語(yǔ)料庫(kù)描述。語(yǔ)料庫(kù)對(duì)象是包含產(chǎn)品描述的一個(gè)簡(jiǎn)單字符串列表。

清單 2. 構(gòu)建一個(gè)簡(jiǎn)單的術(shù)語(yǔ)計(jì)數(shù)

 vectorizer = CountVectorizer(gmin_df=1)
 corpus=[]
 for bp in behavioral_profiles:
 for pd in bp.product_descriptions:
 corpus.append(pd.description)

SciKit 還有其他更先進(jìn)的矢量器（vectorizers），比如 TFIDFVectorizer，它使用術(shù)語(yǔ)頻率/逆文檔頻率 (TF/IDF) 加權(quán)來(lái)存儲(chǔ)文檔術(shù)語(yǔ)。TF/IDF 表示有助于讓獨(dú)特的術(shù)語(yǔ)（比如 Ozzy、 raver和 Bauhaus）的權(quán)重比反復(fù)出現(xiàn)的術(shù)語(yǔ)（比如 and、 the 和 for）的權(quán)重還要高。

接下來(lái)，將產(chǎn)品描述劃分為單個(gè)單詞，并建立一個(gè)術(shù)語(yǔ)字典。分析器在匹配過(guò)程中找到的每個(gè)術(shù)語(yǔ)被賦予一個(gè)與在結(jié)果矩陣中的列相對(duì)應(yīng)的惟一整數(shù)索引：
fit_corpus = vectorizer.fit_transform(corpus)

備注：這個(gè)分詞器配置（tokenizer configuration）也丟棄了單字符單詞。

您可以使用 print vectorizer.get_feature_names()[200:210] 打印出一些特性，看看哪些單詞被分詞。此命令的輸出如下所示。

清單 3. print 命令的輸出

[u'better', u'between', u'beyond', u'biafra', u'big', 
u'bigger', u'bill', u'billboard', u'bites', u'biting']

請(qǐng)注意，當(dāng)前矢量器沒(méi)有詞干化的單詞。詞干化是為詞尾變化或派生的單詞得到一個(gè)共同的基礎(chǔ)或詞根形式的過(guò)程。例如，big 是在前面列表中的 bigger 的一個(gè)常見(jiàn)詞干。SciKit 不處理更復(fù)雜的分詞（比如詞干化、詞簇化和復(fù)合斷詞），但您可以使用自定義分詞器，比如那些來(lái)自 Natural Language Toolkit (NLTK) 庫(kù)的那些分詞器。關(guān)于自定義分詞器的示例，請(qǐng)參見(jiàn) scikit-learn.org。

分詞過(guò)程（比如，詞干化）有助于減少所需的訓(xùn)練實(shí)例的數(shù)量，因?yàn)槿绻硞€(gè)單詞有多種形式，而且不要求對(duì)每種形式都提供統(tǒng)計(jì)表示。您可以使用其他技巧來(lái)減少培訓(xùn)需求，比如使用類(lèi)型字典。例如，如果您有所有哥特樂(lè)隊(duì)的樂(lè)隊(duì)名稱(chēng)列表，那么可以創(chuàng)建一個(gè)共同的文字標(biāo)記，比如goth_band，并在生成特性之前將它添加到您的描述中。通過(guò)使用這種方法，如果在描述中第一次遇到某個(gè)樂(lè)隊(duì)，該模型處理此樂(lè)隊(duì)的方式會(huì)與處理模型可以理解其模式的其他樂(lè)隊(duì)的方式相同。對(duì)于本文中的模擬數(shù)據(jù)，我們要關(guān)心的不是減少培訓(xùn)需求，所以我們應(yīng)該繼續(xù)執(zhí)行下一個(gè)步驟。

在機(jī)器學(xué)習(xí)中，出現(xiàn)這樣的監(jiān)督分類(lèi)問(wèn)題是因?yàn)槭紫纫獮橐唤M觀察定義一組特性和相應(yīng)的目標(biāo)，或者正確的標(biāo)簽。然后，所選擇的算法會(huì)嘗試相應(yīng)的模型，該模型會(huì)找到最適合的數(shù)據(jù)，并且參照已知的數(shù)據(jù)集來(lái)最大限度地減少錯(cuò)誤。因此，我們的下一步操作是構(gòu)建特性和目標(biāo)標(biāo)簽矢量（參見(jiàn)清單 4）。隨機(jī)化觀察總是一個(gè)好辦法，因?yàn)樗梢苑乐跪?yàn)證技術(shù)沒(méi)有這樣做。

清單 4. 構(gòu)建特性和目標(biāo)標(biāo)簽矢量

 data_target_tuples=[ ]
 for bp in behavioral_profiles:
 for pd in bp.product_descriptions:
 data_target_tuples.append((bp.type, pd.description))
 shuffle(data_target_tuples)

接下來(lái)，組裝矢量，如清單 5 所示。

清單 5. 組裝矢量

 X_data=[ ]
 y_target=[ ]
 for t in data_target_tuples:
 v = vectorizer.transform([t[1]]).toarray()[0]
 X_data.append(v)
 y_target.append(t[0])
 X_data=np.asarray(X_data)
 y_target=np.asarray(y_target)

現(xiàn)在，您可以選擇一個(gè)分類(lèi)器并修整您的行為描述模型。在此之前，最好先評(píng)估模型，這樣做只是為了確保該模型可用，然后再讓客戶試用。

評(píng)估行為描述模型

首先使用 Linear Support Vector Machine (SVM)，對(duì)于此類(lèi)稀疏矢量問(wèn)題，這是一個(gè)匹配度很高的不錯(cuò)的模型。使用代碼linear_svm_classifier = SVC(kernel="linear", C=0.025)。

備注：您可以通過(guò)修改這個(gè)模式初始化代碼來(lái)切換到其他模型類(lèi)型。如果需要試用不同的模型類(lèi)型，那么可以使用這個(gè)分類(lèi)器映射，它為一些常見(jiàn)的選項(xiàng)設(shè)置了初始化。

清單 6. 使用分類(lèi)器的映射

classifier_map = dict()
classifier_map["Nearest Neighbors"]=KNeighborsClassifier(3)
classifier_map["Linear SVM"]=SVC(kernel="linear", C=0.025)
classifier_map["RBF SVM"]= SVC(gamma=2, C=1)
classifier_map["Decision Tree"]=DecisionTreeClassifier(max
 _depth=5)
classifier_map["Random Forest"]=RandomForestClassifier
 (max_depth=5, n_estimators=10, max_features=1)
classifier_map["AdaBoost"]=AdaBoostClassifier()
classifier_map["Naive Bayes"]=GaussianNB()
classifier_map["LDA"]=LDA()
classifier_map["QDA"]=QDA()

因?yàn)檫@是一個(gè)多級(jí)分類(lèi)問(wèn)題（也就是說(shuō)，在該問(wèn)題中，您需要選擇的可能類(lèi)別多于兩個(gè)），您還需要指定相應(yīng)的策略。一種常見(jiàn)的方法是執(zhí)行一對(duì)全的分類(lèi)。例如，來(lái)自 goth 類(lèi)的產(chǎn)品描述被用于定義一個(gè)類(lèi)，而另一個(gè)類(lèi)包括來(lái)自其他所有類(lèi)（ metal、rave，等等）的示例描述。最后，作為驗(yàn)證的一部分，您需要確保修整該模型的數(shù)據(jù)不是測(cè)試數(shù)據(jù)。一個(gè)常見(jiàn)的技術(shù)是使用交叉折疊驗(yàn)證法。您可以使用此技術(shù)五次，這意味著穿過(guò)數(shù)據(jù)的五個(gè)部分的分區(qū)五次。在每次穿過(guò)時(shí)，五分之四的數(shù)據(jù)被用于修整，其余五分之一用于測(cè)試。

清單 7. 交叉折疊驗(yàn)證

scores = cross_validation.cross_val_score(OneVsRestClassifier
 (linear_svm_classifier), X_data, y_target, cv=2)
print("Accuracy using %s:%0.2f (+/- %0.2f) and %d folds" 
 % ("Linear SVM", scores.mean(), scores.std() * 2, 5))

盡管如此，您仍會(huì)得到完全精確的結(jié)果，這標(biāo)志著模擬數(shù)據(jù)有點(diǎn)過(guò)于完美。當(dāng)然，在現(xiàn)實(shí)生活中，始終會(huì)有干擾因素，因?yàn)槿后w之間的完美界限并不總是存在。例如，有 goth punk 的問(wèn)題流派，所以像 Crimson Scarlet 這樣的樂(lè)隊(duì)可能會(huì)同時(shí)進(jìn)入 goth 和 punk 的訓(xùn)練示例。您可以試一下 bpro 下載軟件包中的種子數(shù)據(jù)，以便更好地了解這種類(lèi)型的干擾因素。

在了解一個(gè)行為描述模型之后，您可以再繞回來(lái)，用您的所有數(shù)據(jù)修整它。

清單 8. 修整行為描述模型

 behavioral_profiler = SVC(kernel="linear", C=0.025)
 behavioral_profiler.fit(X_data, y_target)

試用行為模型

現(xiàn)在，您可以玩一下模型，鍵入一些虛構(gòu)的產(chǎn)品描述，看看模型如何工作。

清單 9. 試用模型

print behavioral_profiler.predict(vectorizer.transform(['Some black 
Bauhaus shoes to go with your Joy Division hand bag']).toarray()[0])

請(qǐng)注意，它的確會(huì)返回 ['goth']。如果刪除單詞 Bauhaus 并重新運(yùn)行，您可能會(huì)注意到，它現(xiàn)在會(huì)返回 ['punk']。

對(duì)您的客戶應(yīng)用行為模型

繼續(xù)將修整過(guò)的模型應(yīng)用于客戶及其購(gòu)買(mǎi)的產(chǎn)品描述。

清單 10. 將修整過(guò)的模型應(yīng)用于我們的客戶及其產(chǎn)品描述

predicted_profiles=[ ]
ground_truth=[ ]
for c in customers:
 customer_prod_descs = ' '.join(p.description for p in 
c.product_descriptions)
 predicted = behavioral_profiler.predict(vectorizer
.transform([customer_product_descriptions]).toarray()[0])
 predicted_profiles.append(predicted[0])
 ground_truth.append(c.type)
 print "Customer %d, known to be %s, was predicted to 
be %s" % (c.id,c.type,predicted[0])

最后，計(jì)算準(zhǔn)確性，看看您可以多頻繁地分析購(gòu)物者。

清單 11. 計(jì)算準(zhǔn)確性

 a=[x1==y1 for x1, y1 in zip(predicted_profiles,ground_truth)]
 accuracy=float(sum(a))/len(a)
 print "Percent Profiled Correctly %.2f" % accuracy

如果使用所提供的默認(rèn)描述數(shù)據(jù)，結(jié)果應(yīng)該是 95％。如果這是真實(shí)的數(shù)據(jù)，那么這是一個(gè)相當(dāng)不錯(cuò)的準(zhǔn)確率。

擴(kuò)展模型

現(xiàn)在，我們已經(jīng)構(gòu)建和測(cè)試了模型，可以把它應(yīng)用于數(shù)以百萬(wàn)計(jì)的客戶個(gè)人資料。您可以使用 MapReduce 框架，并將修整后的行為分析器發(fā)送到工作節(jié)點(diǎn)。然后，每個(gè)工作節(jié)點(diǎn)都會(huì)得到一批客戶個(gè)人資料及其購(gòu)買(mǎi)歷史，并應(yīng)用模型。保存結(jié)果。此時(shí)，模型已被應(yīng)用，您的客戶被分配為一個(gè)行為描述。您可以在很多方面使用該行為描述分配任務(wù)。例如，您可能決定用定制的促銷(xiāo)活動(dòng)來(lái)定位目標(biāo)客戶，或者使用行為描述作為產(chǎn)品推薦系統(tǒng)的輸入。

聲明：本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com