不卡AV在线|网页在线观看无码高清|亚洲国产亚洲国产|国产伦精品一区二区三区免费视频

學(xué)習(xí)啦 > 論文大全 > 學(xué)術(shù)論文 > 信息檢索學(xué)術(shù)論文(2)

信息檢索學(xué)術(shù)論文(2)

時(shí)間: 家文952 分享

信息檢索學(xué)術(shù)論文

  信息檢索學(xué)術(shù)論文篇二

  優(yōu)惠信息檢索與分析

  摘 要 處在一個(gè)信息時(shí)代,越來(lái)越多復(fù)雜且紊亂的信息充斥著我們的生活。如何從繁多散亂的信息中找到顧客需要的、感興趣的優(yōu)惠信息成為一個(gè)難點(diǎn)。我們的課題致力于尋找局部地區(qū)的優(yōu)惠信息并將其匯總在一個(gè)平臺(tái)上,通過(guò)顧客的點(diǎn)擊率等方式挖掘數(shù)據(jù)分析顧客偏好。

  關(guān)鍵詞 優(yōu)惠信息;搜索;關(guān)聯(lián)規(guī)則;平臺(tái)

  中圖分類(lèi)號(hào) TP39 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 1674-6708(2016)161-0099-02

  在如今的信息時(shí)代,隨著internet網(wǎng)絡(luò)的迅速發(fā)展以及信息化水平不斷的提高,網(wǎng)絡(luò)上產(chǎn)生了許多關(guān)于打折優(yōu)惠的信息。越來(lái)越多的復(fù)雜且紊亂的優(yōu)惠信息充斥著我們的生活。大部分人需要并且對(duì)優(yōu)惠信息感興趣,然而目前優(yōu)惠信息是零散分布在各個(gè)地方,沒(méi)有集中在一個(gè)地方發(fā)表。這既沒(méi)有最大化商家的利益,也沒(méi)有造福于顧客。如今如何更好地利用和挖掘出有價(jià)值的優(yōu)惠信息從而更好地服務(wù)于顧客,是它要急需解決的問(wèn)題。

  1 優(yōu)惠信息需求分析

  優(yōu)惠信息依靠不同的介質(zhì)大面積存在,而顧客針對(duì)優(yōu)惠信息有不同的需求和偏好,我們通過(guò)生活的一些現(xiàn)象,發(fā)現(xiàn)需要將受顧客歡迎的優(yōu)惠信息收集起來(lái),便于顧客查看和選擇。網(wǎng)上和現(xiàn)實(shí)同時(shí)進(jìn)行了一次簡(jiǎn)單的問(wèn)卷調(diào)查,問(wèn)卷調(diào)查范圍主要是青年人,采用不同的統(tǒng)計(jì)表達(dá)形式,分析數(shù)據(jù)后得到以下信息。65%的人會(huì)主動(dòng)尋求優(yōu)惠信息,而且大部分人會(huì)知曉?xún)?yōu)惠信息后主要去嘗試,由此可以看出青年人尤其是大學(xué)生財(cái)力不夠,沒(méi)有自己的收入或者工資不高。他們出于這些原因會(huì)希望獲得優(yōu)惠信息,不僅是節(jié)省而且可以以有限的財(cái)力來(lái)體驗(yàn)更多的生活。其中美食類(lèi)的優(yōu)惠信息更得大眾歡迎,休閑娛樂(lè)類(lèi)第二,購(gòu)物類(lèi)第三。大家更多關(guān)注的還是豐富自己的精神生活,提升生活檔次,享受生活。當(dāng)然這也與年輕人自身的偏好有關(guān)。他們生長(zhǎng)于物質(zhì)和精神都更為豐富的社會(huì),比之年長(zhǎng)者更容易接受新事物。

  就目前優(yōu)惠信息分布情況來(lái)看,基本沒(méi)有人或極少數(shù)人認(rèn)為其分布是集中的。大家感受到生活中的優(yōu)惠信息是零散的。而大眾獲取優(yōu)惠信息的渠道多種多樣,最廣泛使用的是通過(guò)微信等App發(fā)現(xiàn),其次為朋友告知。調(diào)查發(fā)現(xiàn)微信對(duì)大家的影響越來(lái)越深,在生活中的應(yīng)用愈加廣泛。

  2 平臺(tái)建立

  通過(guò)日常觀察和問(wèn)卷調(diào)查,很多用戶(hù)常用微信最為日常工具,因此,建立一個(gè)微信平臺(tái)來(lái)發(fā)布我們的優(yōu)惠信息在一定程度上是可行的。

  將收集的優(yōu)惠信息分類(lèi),歸為美食、休閑娛樂(lè)、購(gòu)物等多種類(lèi)別,類(lèi)別名稱(chēng)由編碼代替并定時(shí)發(fā)布在微信平臺(tái)上。有目的性查找優(yōu)惠信息的顧客可以通過(guò)選擇不同編碼,進(jìn)入到不同類(lèi)別的優(yōu)惠信息頁(yè)面中去,再可以點(diǎn)擊相關(guān)的推送來(lái)查看具體的優(yōu)惠信息內(nèi)容。平臺(tái)上每天會(huì)發(fā)送新的優(yōu)惠信息,可以方便關(guān)注我們平臺(tái)的顧客隨意點(diǎn)擊。在發(fā)布信息的同時(shí),定時(shí)刪除過(guò)時(shí)的優(yōu)惠信息,不浪費(fèi)顧客時(shí)間。

  在顧客使用我們平臺(tái)的時(shí)候,我們將采用數(shù)據(jù)挖掘等方式來(lái)發(fā)現(xiàn)顧客的偏好,之后,我們將在顧客偏好的優(yōu)惠信息上加大收集力度。

  3 信息收集

  3.1 優(yōu)惠信息要求

  通過(guò)查找感興趣的優(yōu)惠信息這一途徑,顧客能利用相同的價(jià)值去體驗(yàn)更多的生活感受。為了確保這些優(yōu)惠信息的實(shí)用性,收集到的信息必須具備以下要求。

  3.1.1 時(shí)效性

  很多優(yōu)惠信息都是伴隨著某種活動(dòng)產(chǎn)生的,例如節(jié)日、店慶等較為隆重的日期,可想而知,這類(lèi)優(yōu)惠信息必定存在一定的期限,或長(zhǎng)或短,時(shí)間不定。而分享給顧客的時(shí)候必須保證優(yōu)惠信息不過(guò)時(shí),在提早發(fā)送消息的同時(shí)還要定期處理過(guò)期的優(yōu)惠信息。

  3.1.2 真實(shí)性

  有些商家為了得到更多顧客的關(guān)注,會(huì)編造一些虛假優(yōu)惠信息,需要運(yùn)氣才能獲得,但前提是顧客關(guān)注或者轉(zhuǎn)發(fā),事實(shí)卻是完全沒(méi)有這個(gè)活動(dòng)。有些優(yōu)惠信息又存在于宣傳的有差距的詐騙。這些現(xiàn)象明顯屬于欺騙消費(fèi)者行為。所以信息的真實(shí)性是必備因素。

  3.2 優(yōu)惠信息收集途經(jīng)

  3.2.1 走訪商家

  作為一種存在時(shí)間最長(zhǎng)的收集方式,也是最基礎(chǔ)和保險(xiǎn)的收集方式,與商家面對(duì)面的洽談存在其優(yōu)點(diǎn)和缺點(diǎn)。走訪地區(qū)內(nèi)各戶(hù)商家,與商家進(jìn)行協(xié)議,體現(xiàn)誠(chéng)意,便于建立長(zhǎng)期合作。但是過(guò)程費(fèi)時(shí)費(fèi)勁,因此我們并不主要依靠這個(gè)方法來(lái)收集信息。

  3.2.2 網(wǎng)絡(luò)收集

  處在一個(gè)互聯(lián)網(wǎng)高速發(fā)展的時(shí)代,互聯(lián)網(wǎng)提供給用戶(hù)極大的便利。網(wǎng)絡(luò)信息便是其中占據(jù)大比例的存在。通過(guò)網(wǎng)絡(luò)收集各類(lèi)優(yōu)惠信息是一個(gè)更為方便簡(jiǎn)單的方法。其中主要由搜索引擎查找、微信等平臺(tái)查找構(gòu)成。

  1)搜索引擎。觀察互聯(lián)網(wǎng)用戶(hù)使用較多的搜索引擎,百度、Google、雅虎等,嘗試在不同的搜索引擎中打入相同的關(guān)鍵詞,例如:“優(yōu)惠信息 松江大學(xué)城”,可以看到,不同的引擎產(chǎn)生的網(wǎng)頁(yè)是完全不同的。在百度的搜索引擎中出現(xiàn)在首頁(yè)的是多為松江大學(xué)城團(tuán)購(gòu),且存在少量獨(dú)立商家的優(yōu)惠信息。而通過(guò)谷歌,可以看到大部分為松江大學(xué)城租房或買(mǎi)房的優(yōu)惠。兩個(gè)搜索引擎,相同的關(guān)鍵詞產(chǎn)生了差異較大的結(jié)果,這取決于網(wǎng)頁(yè)排序的規(guī)則。

  網(wǎng)頁(yè)多采用鏈接分析的算法,鏈接分析排序原理啟發(fā)與文獻(xiàn)引文索引機(jī)制,分析網(wǎng)頁(yè)之間的鏈接結(jié)構(gòu),若一個(gè)網(wǎng)頁(yè)被引用的次數(shù)越多,表示該網(wǎng)頁(yè)越受大眾的歡迎;被越權(quán)威的網(wǎng)頁(yè)引用,表示該網(wǎng)頁(yè)質(zhì)量越高。這么看來(lái),從這兩方面來(lái)說(shuō),這個(gè)網(wǎng)頁(yè)的價(jià)值越高。常見(jiàn)的算法有PageRank算法、HillTop算法、HITS算法等。根據(jù)不同的算法,會(huì)導(dǎo)致網(wǎng)頁(yè)結(jié)果的排序不同[ 1 ]。

  例如,Google搜索引擎的最主要網(wǎng)頁(yè)排序算法就是PR算法,計(jì)算網(wǎng)頁(yè)的PR值,判斷網(wǎng)頁(yè)的重要性。若A網(wǎng)頁(yè)有個(gè)鏈接指向B網(wǎng)頁(yè),那么B網(wǎng)頁(yè)將得到A貢獻(xiàn)給它的分值,值的大小取決于A的重要性。引用的網(wǎng)頁(yè)數(shù)量越多,質(zhì)量越高,排序越前面。

  通過(guò)對(duì)算法原理的簡(jiǎn)單認(rèn)識(shí),我們可以分析得到,之所以百度的搜索引擎查到的信息更豐富,這歸結(jié)于在這個(gè)搜索引擎中,這些網(wǎng)頁(yè)的價(jià)值較高,從總的基數(shù)來(lái)看,被引用的次數(shù)較多,鏈接的網(wǎng)頁(yè)價(jià)值也不錯(cuò)。而在谷歌這個(gè)全球常用的搜索引擎上來(lái)看,同樣的網(wǎng)頁(yè)被引用的次數(shù)太少,而且相關(guān)鏈接的網(wǎng)頁(yè)價(jià)值不高。因此,在用搜索引擎來(lái)查詢(xún)優(yōu)惠信息時(shí),要注意使用的搜索引擎和關(guān)鍵詞的使用。其中,關(guān)鍵詞的使用需格外注意,指明針對(duì)性。   一般以“優(yōu)惠信息 松江大學(xué)城”為關(guān)鍵詞的搜索結(jié)果范圍仍舊極大,這不利于我們仔細(xì)排查一些小商家的信息。我們嘗試先利用百度地圖尋找松江大學(xué)城附近的商家信息,努力收集各個(gè)商家的官方公眾網(wǎng)絡(luò)。隨時(shí)關(guān)注商家的動(dòng)態(tài)信息變化,收集商家的優(yōu)惠活動(dòng),判斷商家活動(dòng)的真實(shí)性,匯總在我們平臺(tái)上。如果能在發(fā)現(xiàn)商家的官方網(wǎng)頁(yè)的同時(shí)取得商家的聯(lián)系方式,可以與之線上商談,爭(zhēng)取成為長(zhǎng)期合作伙伴。

  2)微信等平臺(tái)搜索。有些小眾的網(wǎng)絡(luò)平臺(tái)同樣收集著一些值得嘗試的優(yōu)惠信息。而這些信息存在于不同的平臺(tái)上,顧客看到的較少。我們提供相關(guān)的鏈接,與那些小眾優(yōu)惠信息搭建一個(gè)橋梁,方便顧客查看。許多商家的微信公眾平臺(tái)同樣發(fā)布著一些消息,有時(shí)候會(huì)在朋友圈大范圍傳播,這個(gè)途徑收集起來(lái)的信息雖然不全面,但是也是一種較為常見(jiàn)的方式。

  4 顧客行為信息分析

  隨著平臺(tái)的不斷推廣,顧客涌入。在微信公眾號(hào)后臺(tái),可以用直觀看到訂閱人數(shù),每條推送消息的點(diǎn)擊數(shù)。因此可以獲取大量的顧客消費(fèi)行為數(shù)據(jù)。利用數(shù)據(jù)挖掘技術(shù)可以分析大量的數(shù)據(jù),對(duì)顧客進(jìn)行細(xì)分,還可以從已有的歷史數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的潛在的知識(shí),為顧客提供個(gè)性化的商品信息推薦。

  建立模型以及分析:

  經(jīng)過(guò)對(duì)數(shù)據(jù)的預(yù)處理,我們發(fā)現(xiàn)利用關(guān)聯(lián)規(guī)則挖掘來(lái)對(duì)數(shù)據(jù)進(jìn)行處理比較好。關(guān)聯(lián)規(guī)則可以發(fā)現(xiàn)不同事務(wù)之間隱藏的聯(lián)系。我們?cè)谶M(jìn)行關(guān)聯(lián)規(guī)則挖掘時(shí),主要做了兩步,第一找出頻繁項(xiàng)目集,然后根據(jù)頻繁項(xiàng)集產(chǎn)生滿(mǎn)足最小可信度的關(guān)聯(lián)規(guī)則。

  從微信公眾平臺(tái)獲得的數(shù)據(jù),我們對(duì)其進(jìn)行整理。在事務(wù)數(shù)據(jù)庫(kù)中,事務(wù)的項(xiàng)目集為人們檢索的優(yōu)惠信息類(lèi)別編號(hào),事務(wù)ID為人的編號(hào)。由此我們得到了事務(wù)數(shù)據(jù)庫(kù)D。

  在挖掘關(guān)聯(lián)規(guī)則時(shí)我們運(yùn)用了Apriori算法,使用“K?項(xiàng)集”產(chǎn)生“1K +?項(xiàng)集”的迭代方法[3]。掃描所有的事務(wù),對(duì)每種優(yōu)惠信息類(lèi)別出現(xiàn)次數(shù)計(jì)數(shù)。這里,假定最小事務(wù)支持計(jì)數(shù)為20,由此我們可以確定頻繁1-項(xiàng)集的集合。使用來(lái)產(chǎn)生候選集,再次掃描數(shù)據(jù)庫(kù)中事務(wù),計(jì)算中每一個(gè)候選集的支持度計(jì)數(shù)。具有最小支持度的里面的候選2?項(xiàng)集組成了頻繁2?項(xiàng)集的集合。反復(fù)進(jìn)行上述步驟,由于Apriori算法性質(zhì),頻繁項(xiàng)集的所有子集必須是頻繁的,因此我們計(jì)算過(guò)程中會(huì)剪去一些項(xiàng)集。一直反復(fù)進(jìn)行下去,直至1K +?項(xiàng)集為空集,我們得到K?項(xiàng)集為最大的頻繁項(xiàng)集{1、2、5},也就是為{美食、休閑娛樂(lè)、購(gòu)物}。

  對(duì)于每個(gè)頻繁項(xiàng)集L,我們列出所有它的非空子集,對(duì)每一個(gè)非空子集X,計(jì)算它的可信度。在這里,我們假設(shè)最小可信度(min_conf)為60%,最終得到了4條關(guān)聯(lián)規(guī)則。在進(jìn)行數(shù)據(jù)整理時(shí),我們發(fā)現(xiàn)在每日推送的各種優(yōu)惠信息中,美食類(lèi)的點(diǎn)擊量一直居高不下。這完全符合我們問(wèn)卷調(diào)查的結(jié)果。

  通過(guò)關(guān)聯(lián)規(guī)則等對(duì)顧客的行為數(shù)據(jù)進(jìn)行分析,我們發(fā)現(xiàn)人們往往會(huì)希望在休息娛樂(lè)比如看電影和購(gòu)物之后享受一頓美味大餐。在享受的同時(shí)也希望獲得優(yōu)惠信息,以較小的代價(jià)獲得高品質(zhì)生活。

  參考文獻(xiàn)

  [1]鄧維婕.網(wǎng)絡(luò)搜索引擎的原理、技術(shù)和發(fā)展[J].電腦與電信,2008(5):12-14.

  [2]姚明.淺談網(wǎng)絡(luò)搜索引擎的研究[J].電腦知識(shí)與技術(shù):學(xué)術(shù)交流,2007,4(19):83-84.

  [3]陳安,陳寧,數(shù)據(jù)挖掘技術(shù)及應(yīng)用[M].北京:科學(xué)出版社,2006.

  
看了“信息檢索學(xué)術(shù)論文”的人還看:

1.關(guān)于檢索的學(xué)術(shù)論文

2.如何搜索學(xué)術(shù)論文

3.文獻(xiàn)檢索學(xué)習(xí)心得體會(huì)

4.淺談檔案信息計(jì)算機(jī)的檢索論文

5.計(jì)算機(jī)文獻(xiàn)檢索論文

2762644