導航:首頁 > 凈水問答 > 信息檢索和信息過濾

信息檢索和信息過濾

發布時間:2023-02-16 12:29:04

㈠ 求信息檢索論文

「信息資源共享」課程檢索報告

一 檢索課題
數字圖書館個性化服務研究現狀
二 主題分析
隨著數字圖書館建設和網路通訊技術的高速發展, 數字資源越來越多, 而人們獲取所需資源的可能性則越來越少, 用戶需求的專業化、垂直化激化了數字圖書館大量信息資料庫與用戶需求之間的矛盾。1999 年, 美國圖書館與信息技術聯合會(LITA) 10 位著名的數字圖書館專家在研討會上, 把個性化定製服務列為數字圖書館發展的7 大趨勢之首。目前, 數字圖書館個性化的信息服務已經開始得到普遍的關注, 人們正在為提供個性化信息服務做出努力的嘗試。數字圖書館個性化服務是近幾年數字圖書館研究中受到關注較多的一個研究方向,數字圖書館個性化服務是基於信息用戶的信息使用行為,習慣,偏好,特點及用戶特定的需求,來向用戶提供滿足其個性化需求的信息內容和系統功能的一種服務。
關於數字圖書館個性化服務研究現狀,該主題涉及到:
(1)數字圖書館個性化服務的有哪些介紹
(2)數字圖書館個性化服務的模式有什麼
(3)數字圖書館個性化服務的技術研究有哪些
(4)數字圖書館個性化服務研究的最新進展(2005年-2007年)

三 檢索情況
(一)檢索工具
1.維普中文期刊資料庫 (1989-2007)
2.中國期刊全文資料庫 (1994-2007)
(二)檢索過程
1.檢索途徑
關鍵詞 題名 主題詞
2.檢索用詞
數字圖書館 關鍵詞或題名、主題詞
個性化服務 關鍵詞或題名、主題詞
3.檢索策略
(1)維普中文期刊資料庫
(題名或關鍵詞=數字圖書館)*(題名或關鍵詞=個性化服務)
在高級檢索中選擇題名或關鍵詞欄位,輸入「數字圖書館」和「個性化服務」兩個檢索詞進行限定,年代限定在2005-2007年,共檢索出78條記錄。

(2)中國期刊全文資料庫
(題名或關鍵詞=數字圖書館)* (題名或關鍵詞=數字圖書館)
在高級檢索中選擇篇名欄位,輸入「數字圖書館」與「個性化服務」,年代限定在2005-2007,共檢出89條記錄。

四 檢索結果分析
(一) 檢索結果
經檢索上述兩個資料庫,有關數字圖書館個性化服務的研究論文眾多,現選出其中具有代表性,研究主題未重復的文獻。
1.中國期刊全文資料庫
(1) 數字圖書館個性化信息服務系統研究 劉燕平 圖書情報工作 2006/S2
(2) 數字圖書館個性化服務系統分類體系問題 葉紅 科技信息(學術研究) 2007年13期
(3) 淺析智能搜索引擎技術及其在數字圖書館個性化信息服務中的應用 王林廷 高校圖書情報論壇 2006年01期
(4)數據挖掘技術在數字圖書館個性化服務中的應用 朱冰冰 科技情報開發與經濟 2006年24期
(5)數字圖書館個性化信息服務發展研究 馬維華 鄭州大學學報(哲學社會科學版) 2006年06期
(6) 智能推送技術在數字圖書館個性化服務中的應用 石岩 情報探索 2006年11期
(7) 基於文本過濾的數字圖書館個性化服務技術 張帆 計算機工程與應用 2006年31期
(8) 數字圖書館信息門戶的個性化服務模式 何平 中國信息導報 2006年08期
(9) 網路信息技術下的數字圖書館個性化服務 張丹 林區教學 2006年07期
(10)MyLibrary——數字圖書館個性化服務新趨勢 楊華 農業圖書情報學刊 2006年08期
(11)基於Web服務組合的數字圖書館個性化動態定製服務構建 張曉青 情報學報 2006年03期
(12)校園網中數字化圖書館個性化服務的實現 朱江峰 科技經濟市場 2006年01期
(13)數字圖書館的個性化推送服務 白雪松 圖書館雜志 2005年09期
(14)Web日誌挖掘在數字圖書館個性化服務中的應用 王英培 科技情報開發與經濟 2005年22期
(15)國內外數字圖書館個性化信息服務系統的功能與特徵比較研究 張俊 情報理論與實踐 2005年06期
(16)基於知識管理的數字圖書館個性化服務機制研究 郭琳 四川圖書館學報 2004年05期
2.維普中文期刊資料庫
(17)基於Web挖掘的數字圖書館個性化技術研究 王艷 張帆 情報雜志 2007年1期
(18)基於文本過濾的數字圖書館個性化服務技術 張帆 楊炳儒 計算機工程與應用 2006年31期
(19) 數字圖書館信息門戶的個性化服務模式 何平 陳有志 中國信息導報 2006年8期
(20)個性化服務深度與廣度解決方式探討 劉月勝 數字圖書館論壇 2006年6期
(21)個人數字圖書館模式的分析 石德萬 李軍 現代情報 2005年9期
(22)數字圖書館個性化信息環境與服務構建 杜安平 韶關學院學報 2005年3期
(23)數字圖書館個性化信息服務的技術實現 張雲瑾 許春漫 農業圖書情報學刊 2005年6期
(24)個性化信息服務的模式研究及策略分析 杜春光 國家圖書館學刊 2005年2期

(二) 檢索結論
文獻一論述了個性化信息服務的涵義,闡述數字圖書館開展個性化信息服務的有利條件,國內外圖書館的有關研究開發狀況,分析國內數字圖書館個性化信息服務系統應用實例,並時其工作流程,主要功能進行剖析,指出該系統目前存在的問題,提出改進對策。
文獻二圍繞數字圖書館個性化服務系統分類體系問題展開探討。首先,簡要介紹數字圖書館個性化服務系統的主要內容,包括其定義和服務內容。其次,從用戶分類和信息分類兩個方面闡述目前數字圖書館個性化服務系統存在的問題。用戶分類主要存在的兩個問題,根據用戶特點分析提出相應建議。信息分類問題從五個方面進行討論,列舉數字圖書館個性化服務系統頁面進行分析,提出解決方法。
文獻三介紹了智能信息檢索的實質和發展方向,是智能搜索引擎技術的不斷改進和廣泛應用。以這一技術為基礎構建數字圖書館的個性化服務系統,是數字圖書館信息服務的現實需要。文章論述了當前搜索引擎存在的不足,概述了智能搜索引擎的原理機制及其優越性,探討了該技術在數字圖書館個性化服務中的應用。
文獻四闡述了數字圖書館的定義,介紹了個性化服務的工作原理和國內外個性化服務系統的現狀,探討了分類模型、關聯模型、序列模型、聚類模型、回歸模型以及時間序列模型的原理,對如何把其用在數字圖書館的個性化服務上以描述用戶需求,提出了建議。
文獻五介紹了數字圖書館個性化信息服務是當今圖書館發展的重要趨勢,目前國內外都已有比較成熟的數字圖書館個性化信息服務系統,服務方式及其功能也多種多樣,但是探索圖書館個性化信息服務有效模式的任務仍很艱巨。
文獻六介紹了智能推送技術和個性化服務的內容,討論了將智能推送技術應用於數字圖書館個性化服務,以及智能推送技術存在的優勢與不足。
文獻七提供了一種針對數字圖書館個性化服務策略的文本過濾技術,通過在向量空間內建立用戶興趣模型和文本內容特徵模型,計算它們的相似度後,將用戶不感興趣的文本過濾掉。詳細描述了具體的建模過程和個性化文本過濾演算法,最後給出了在實際的數字圖書館工程中的驗證結果。
文獻八試圖對數字圖書館信息門戶下的個性化服務模式進行研究,從雙向互動式信息服務、集成式信息檢索服務、動態式館藏特色信息服務、滲透式垂直信息門戶服務、追蹤式數據挖掘信息服務等服務模式來探討數字圖書館個性化服務的有效模式及發展建勢。
文獻九簡述了數字圖書館個性化服務的內涵,分析了網路信息技術對其各項服務的支撐,並通過My Library實例對這些具體技術的集成化運用加以探討,為構建可互操作的數字圖書館個性化服務系統提供參考。
文獻十就My Library(我的圖書館)的產生,及其概念、類型、特徵、原理、功能等諸方面做了簡要的論述,並介紹了它在國內外的發展現狀,指出其今後的發展方向。
文獻十一介紹了Web服務組合是一種利用現有Web服務動態構建新的能滿足用戶需求的復雜Web服務的Web服務技術。將數字圖書館各種資源組件、應用組件、功能組件和管理組件進行Web服務描述,人們就能利用Web服務組合技術根據用戶的個性化需求實現對不同數字圖書館各種組件的動態集成,從而實現開放環境下數字圖書館的個性化動態定製服務。本文討論了基於Web服務組合的數字圖書館個性化動態定製服務的基本系統架構、構建模型,並對構建過程中需要注意的幾個問題展開了討論。
文獻十二介紹了數字化圖書館建設是圖書信息化發展的必然,而個性化服務能夠根據用戶不同的特點,提供切實的服務,以更好地為讀者服務。本文對數字化圖書館的個性化服務進行了討論,分析了關鍵的實現技術,並給出了部分核心代碼。
文獻十三介紹了個性化推送服務是數字圖書館研究的熱點,也是建設數字圖書館的關鍵問題之一。本文針對各種不同的信息形式提出了相應的實現方案,並對實際操作中的幾個難點事項做了簡要討論。
文獻十四介紹了Web日誌挖掘的基本概念和過程,指出通過對讀者在數字圖書館服務中留下的日誌信息進行挖掘,可以實現個性化服務,更好地滿足不同類別讀者的需求。
文獻十五從個性化信息服務的概念入手,介紹了個性化信息服務的幾種類型,包括分類定製服務、信息推送服務、智能代理服務和垂直門戶服務等,並介紹了目前國內外若干圖書館已經開展的個性化信息服務的典型應用實例。在此基礎上總結了這些個性化信息服務系統的共同功能與特徵,並進行了一些比較研究。
文獻十六介紹了構建一個基於信息過濾技術的信息服務系統是數字圖書館實現個性化信息服務的有效手段。通過對信息過濾技術概念的研究和與信息檢索概念的比較,抽象出此類系統的一般模型,並沿用查全率和查准率評價信息過濾的效果,最後分析了個性化信息服務系統實現的關鍵技術。
文獻十七提出一種基於Web挖掘技術的個性化實現策略,針對數字圖書館資源的文獻,改進了經典的演算法,分別從Web內容挖掘、結構挖掘和日誌挖掘出發,建立用戶動態的興趣特徵模型,使之更具有實用性和針對性。
文獻十八提出在數字圖書館的應用中,個性化服務可以為用戶提供符合其興趣的檢索結果。提供了一種針對數字圖書館個性化服務策略的文本過濾技術,通過在向量空間內建立用戶興趣模型和文本內容特徵模型,計算它們的相似度後,將用戶不感興趣的文本過濾掉。詳細描述了具體的建模過程和個性化文本過濾演算法,最後給出了在實際的數字圖書館工程中的驗證結果。
文獻十九試圖對數字圖書館信息門戶下的個性化服務模式進行研究,從雙向互動式信息服務、集成式信息檢索服務、動態式館藏特色信息服務、滲透式垂直信息門戶服務、追蹤式數據挖掘信息服務等服務模式來探討數字圖書館個性化服務的有效模式及發展趨勢。
文獻二十提出數字圖書館的個性化服務決定了它在藉助網路技術的基礎上向學科館和聯盟制方向發展,以提高資源的利用率和解決個性化服務的深度與廣度問題。
文獻二十一根據個人數字圖書館文獻信息資源存儲位置的不同.把個人數字圖書館劃分為遠程個人數字圖書館和本地個人數字圖書館兩種模式,著重對這兩種模式的個人數字圖書館的功能特點進行比較分析。
文獻二十二提出構建數字圖書館的個性化信息服務實際上就是要在數字圖書館上實現個性化資料、個性化檢索、個性化過濾、個性化服務等四種環境.數字圖書館可以開發個人圖書館、檢索幫助、個性化信息咨詢、信息代理、垂直門戶等多種個性化信息服務。
文獻二十三闡述了數字圖書館個性化信息服務的概念、研究與應用的現狀,並分析了實現數字圖書館個性化信息服務所需的技術。
文獻二十四強調個性化信息服務在數字圖書館中有其特定的定義,也是數字圖書館發展中的必需。根據網路環境下圖書館信息服務的內容及用戶行為的不同,可以有多種個性化服務模式,有策略地開展服務。

(三) 結果分析
從2005-2007年所發表的關於圖書館學個性化服務的論文可以看出,研究的主題和方向主要集中在以下幾個方面:
1. 數字圖書館個性化服務的概念研究。在中國期刊全文資料庫檢索到的89篇文章中,有40篇是論述圖書館個性化服務概念的研究。在這些文章中作者都對數字圖書館個性化服務概念有自己的認識,對於這個概念的研究也越來越深入。
2. 數字圖書館個性化服務的方式研究。對於數字圖書館個性化信息服務模式, 也在摸索實踐中。目前有以下幾種方式:(1)信息分類定製服務方式。分定製是指信息用戶可以按照自己的目的和需求,在某一特定的系統功能和服務形式中,自己設定信息的資源類型、表現形式,選取特定的系統服務功能等。(2)信息推送服務方式。是運用推送技術(push technology)來實現的一種個性化主動信息服務的方式。(3)信息智能代理服務方式。它是一種能夠完成委託任務的計算機系統,能模仿人的行為執行一定的任務,不需要或很少需要用戶的干預和指導。通過跟蹤用戶在信息空間中的活動,自動捕捉用戶的興趣愛好,主動搜索可能引起用戶興趣的信息並提供給用戶。(4)信息垂直門戶服務方式。通過匯聚網上某一特定專題信息資源並對其進行挖掘及加工,以滿足用戶基於專業的深入的信息需求。(5)信息幫助檢索服務方式。如何幫助用戶進行高效的信息檢索也是當今數字圖書館信息服務向縱深發展的一個重要內容。(6)數據挖掘服務方式。從資料庫中發掘人們感興趣的知識,這些知識是隱含的、潛在的,目的是幫助用戶尋找數據間潛在的關聯。(7)信息呼叫中心服務方式。主要利用電話、傳真等方式來服務客戶,處理簡單的呼叫流程。
在這些方式中,現在比較熱門的個人圖書館(My library)是上述部分個性化服務方式的具體應用,是當前開發應用較為成熟的圖書館個性化服務模式系統,也是一個完全個性化的私人信息空間。
3.數字圖書館個性化服務關鍵技術研究。數字圖書館個性化信息服務的應用技術, 集現代信息技術之大成。它包括推送技術、智能代理技術、智能搜索引擎技術、網頁動態生成技術、數據挖掘技術、信息過濾技術、過程跟蹤技術、安全身份認證技術、數據加密技術等, 這些都可以為數字圖書館的個性化服務方式提供技術支持。
4.國內外數字圖書館個性化服務現狀研究。還有一部分論文是主要介紹當今國內外數字圖書館個性化服務的現狀,通過介紹這些先進的技術和模式來指導我國數字圖書館個性化的服務。
5.其他研究。除了數字圖書館個性化信息服務的概念、模式、技術和國內外研究現狀外, 數字圖書館個性化信息服務的研究還就數字圖書館個性化信息服務的模型構建、用戶評價、館員角色的變化、存在的問題與對策等作了深入探討。
綜上所述,這兩年國內有關數字圖書館個性化服務的研究可謂是碩果累累,隨著對數字圖書館個性化信息服務理論研究和實踐的不斷深入,我國數字圖書館個性化信息服務一定能夠真正實現以用戶需求為中心, 利用數字圖書館信息資源開展不同層次的、多種類型的、滿足用戶個性需求的有效信息服務。

五 檢索情況總結
由於這個學期開了數字圖書館這門課,對於數字圖書館有一些簡單的了解,特別是對個性化信息服務這部分內容有興趣,課本上涉及得比較少,所以就把這個內容作為了檢索主題。在選擇檢索工具時選擇了平時最常用的兩個檢索工具,本來還選用了中文Google,想找一下國內在研究這個主題的項目或者網站,但是檢索到的內容數量實在太龐大,而且檢索到的大量結果都來自各個資料庫的論文,最後就放棄了使用搜索引擎。
在構造檢索策略時,因為該主題比較簡單,不用構造很復雜的檢索式,就選擇了「數字圖書館」和「個性化服務」作為關鍵詞,開始有想到是不是需要使用與「數字圖書館」概念相近的「電子圖書館」或者「虛擬圖書館」,但考慮到國內現在已經比較統一的使用「數字圖書館」這個概念,使用其他兩個詞檢索到的文章不多,所以還是以數字圖書館為重點。檢索途徑選擇了關鍵詞,題名以及主題詞,在使用中國期刊全文資料庫進行檢索時,一開始是使用關鍵詞作為檢索途徑,檢索出423條記錄,但是有很多文章與該主題相關度不高,所以採用了篇名作為檢索途徑,這樣兩個詞同時限定在文章題名中,檢索的相關度就非常高,但也可能會造成漏檢。覺得自從學習檢索課程以來,檢索最難的就是檢索式的構造,檢索式構造的好與壞,直接關繫到檢索結果的好壞。維普提供的欄位有題名或關鍵詞欄位,使用高級檢索將兩個檢索詞都限定在這個欄位中,檢索出來的結果相對比較精確。檢索完成之後,接下來的工作就是分析檢索結果,這其實也是難度挺大的一項任務,要看完150幾篇文章不是一件簡單的事,文摘和篇名這個時候就幫了很大的忙了,一般看文摘可以略知一二,需要了解詳細內容的再打開全文閱覽。從文章中歸納出研究的主要內容和方向,找出比較有特色而又不重復的內容,最後再整理出結論,這就是我整個辛苦但卻有趣的檢索過程。
通過完成這次作業,首先就是復習與鞏固了以往的知識,平時雖然也經常在進行檢索,但是嚴格按照檢索步驟進行的就不太多,也沒有這么有條理的對整個檢索過程做一個安排,並按照計劃一步一步的執行,直到完成檢索結果。其次就是以往做作業都是完成老師布置的具體任務,有些題目比較簡單或是比較有興趣的檢索起來還好,有些比較深奧的主題做起來真的十分困難,沒有專業背景,拿到題目和檢索出來的結果就覺得十分茫然。而這次老師讓我們自己選擇題目,我就可以從自己的興趣和想了解的領域下手,這樣完成作業的過程也不再那麼枯燥,興致自然也大了很多。還有最重要的是,做作業的目的不只是完成作業,更重要的是有收獲,鞏固了檢索知識自不用說,通過這次閱讀大量文章,也算對所檢索的主題有了一個大概的認識和了解,增長了知識,開闊了視野,可是說從完成這次檢索作業中的確是收獲不少。

㈡ 如何看待信息檢索與篩選

信息的檢索與篩查是非常重要的信息學。

㈢ 信息過濾的概念是什麼它和一般的信息檢索、信息分類、信息抽取有什麼區別

信息過濾:依據用戶的興趣和對信息的需求,對信息進行篩選,去掉用專戶不需要的、無用的信息,得屬到符合用戶興趣的信息。這個過程就叫做信息過濾。

信息過濾和信息檢索的區別在於,信息檢索根據用戶的需求,從大量信息中查找信息的過程,在這個過程中發生了篩選行為,因此可以說信息檢索中發生了信息過濾行為。但是有了信息過濾行為並不一定有信息檢索行為,比如某些信息提供機構主動屏蔽一些有害的信息。

信息分類是信息檢索的前提,它是對信息的整理和排序,以便人們更加方便的使用。信息分類可以說是信息的重組,並沒有丟失信息,而信息過濾則是丟失了一部分信息。

信息抽取(information extraction)就是根據一個事先定義好的、描述所需信息規格的模板,從非結構化的文本中抽取相關信息的過程。這個模板通常說明了某些事件、實體或關系的類型。信息抽取可以幫助人們快速找到和瀏覽文本中的有用信息。在這個過程中沒有發生選擇的行為,它是一種直達目標的行為,而信息過濾則要分析什麼信息該保留、什麼信息該過濾。

㈣ 高校文獻信息檢索的必要性與有效方法論文

高校文獻信息檢索的必要性與有效方法論文

在學習、工作中,大家總免不了要接觸或使用論文吧,論文可以推廣經驗,交流認識。如何寫一篇有思想、有文採的論文呢?以下是我收集整理的高校文獻信息檢索的必要性與有效方法論文,希望能夠幫助到大家。

摘要: 隨著互聯網信息、知識的不斷更新,文獻信息檢索能力已經成為高校師生信息素養的重要內容,也是提高大學生學習能力和教師科研的重要手段,成為繼續學習的重要工具。通過探討文獻信息檢索的科學定義及高校信息檢索的必要性,進而從文獻信息檢索流程角度提出高校文獻信息檢索的途徑和策略。

關鍵詞: 文獻;信息檢索;策略;

文獻信息是巨大的社會財富,它伴隨著社會的廣泛進步而迅速更新和積累,在帶給我們越來越便捷的同時,也必然給閱讀、查找和充分利用信息帶來一定困難。為解決龐大的科學文獻和個人特定需求之間的矛盾,便產生了文獻信息檢索,文獻信息的檢索和利用已經發展成為一門專門的學科,高校信息檢索能力已經成為高校師生信息素養的重要內容,也是提高大學生學習能力和教師科研的重要手段。

一、文獻信息檢索定義

「信息檢索(Information Retrieval)」一詞最早出現在20世紀50年代,有廣義和狹義之分。

廣義的信息檢索是指將信息按一定的方式組織和存儲起來,並根據信息用戶的需要找出有關信息的過程和技術。也就是說,信息檢索包括兩個環節和內容:「存」和「取」。狹義的信息檢索則專指信息檢索過程中的第二個環節,即從信息集合中找出所需要信息的過程,也就是我們常說的信息檢索、信息查找或信息搜索等術語。

信息檢索按照檢索對象的不同又可以分為文獻檢索、數據檢索、事實檢索。本文側重於文獻檢索,即通過檢索文獻來獲取所需要的信息、知識、情報[1]。

二、高校文獻信息檢索的必要性

(一)信息的多元化需要師生具備一定的信息評價和篩選能力

在當今互聯網、信息化社會,人們無時無刻不在利用信息資源進行生產、生活和創新創造。但面對浩瀚的信息海洋,信息流和信息量越來越多、越來越大,人們進行檢索和利用的困難也就越來越大。隨著4G網路的覆蓋和智能手機的普及,人們輕而易舉就能接觸各種各樣的信息,各類門戶網站、微博、微信、QQ等推送信息的常態化,一方面豐富了我們的日常生活,拓寬了我們的視野;另一方面也給我們對於浩瀚無垠的信息的過濾、評價、篩選和運用帶來極大的挑戰[2]。在紛繁復雜的信息洪流中,哪些是對我們有益的,哪些會給我們帶來負面的影響,都要求我們具備一定的信息鑒別和評價的能力,需要我們具備較高的信息素養和信息處理能力。文獻信息檢索能力成為高校師生應掌握的基本學習技能之一,是繼續學習的重要手段,在教學、學習、科研和生活方面發揮巨大作用。

(二)學校對學生的信息素養教育重視程度不夠

早在20世紀70年代,聯合國教科文組織就對「文盲」下了新的定義:在當今科學技術飛速發展的時代,文盲已不是不識字的人,而是不知道如何獲取知識的人。我國國家教委要求,全國各大院校要全面普及開設文獻信息檢索課,這對大學生普及文獻檢索知識、提高信息素養、增強信息檢索的興趣、提高信息檢索能力都具有十分重要的現實意義[3]。然而現狀卻是,全國各大高校開設的信息檢索課程大部分是以選修課的形式存在,學生自願選擇,主要目的也就是為了修夠學分,以這樣的方式開展信息教育並不能取得理想的效果,這種重專業、輕信息素養的教育還普遍客觀存在。

(三)信息檢索助力高校科學研究

科學研究是高等學校重要職能之一,大學對整個社會的科技進步與發展起著重要引領與推動作用。現代科學技術的迅猛發展,各個學科的交叉和滲透一方面促使了新的學科不斷涌現,源源不斷地出現大量新的知識;另一方面,知識的老化和被淘汰的速度也會越來越快。作為高校科研人員,必須具備一定的信息素養,即敏銳的信息意識、發現高質量信息的能力、信息的選擇和評價的能力以及如何正確地引用文獻、尊重他人知識產權的能力。作為科學研究者,必須時時了解學科最前沿的動態,掌握最新的知識,這樣才能研究出有價值的科研成果,而文獻信息檢索能力就是科學研究人員必不可少的要素之一。為了減少課題的重復研究,提高研究的成功率,科研人員在研究一項課題之前,必須要進行的相關的資料收集和文獻檢索。在確定選題之後同樣要科學合理運用文獻信息檢索方法開展文獻信息甄別篩選和運用,進行進一步研究,保障研究成果的承續性,進而推動科學研究向縱深發展。

三、高校文獻信息檢索的策略

(一)分析檢索問題

在解決一個問題之前,我們首先要做的就是分析問題,對問題的分析是解決問題的關鍵所在。分析一個問題我們可以從如下幾個方面考慮:首先,提問者是誰。同樣一個問題,教師跟學生對內容的層次要求就不同;一個專業性的問題,高校專業教師和學生對問題的要求也會不同。其次,問題的性質。不同的問題對應不同的要求,如果我們對一個概念需要界定,或者需要查找與自己所撰寫文章密切相關的文獻,這時對概念的界定和對文獻的檢索就需要「准」。如果我們要做一個論文的選題的確定或者做一個項目的申報、企業新產品的開發,在做這些工作之前,我們需要對前人的研究成果做一個全面的普查,這類型的問題的要求就是「全」。再如,我們要了解某個領域的趨勢前沿和最新進展,對這類問題的要求就是查找的資料必須要有新穎性,即「新」。再有,對一些技術性強的問題,如專利的申報、企業新產品的開發、某一項技術的引進等,對這類問題的檢索要求是「細」。再次,學科和主題。如果只是單一的某一個學科或主題,那麼只需要找到收錄這個學科資源的資料庫進行檢索就可以。但是有很多跨學科領域研究的問題如果只是在一個資料庫查找,就會造成資源的不全面。第四,資源類型。我們熟知的資源類型有學位論文、會議論文、期刊論文、圖書、專利、標准等等,不同的資源類型收錄的特點也不同,如內容的深度、系統性、時效性都不同,研究課題不同,對資源類型的要求也不同。第五,資源的范圍。查找資料的時候往往對范圍進行限定,范圍包括時間范圍、地域范圍、語種范圍等。

(二)選擇合適的檢索工具

分析檢索問題之後,我們需要選擇合適的檢索工具。常用的檢索工具有搜索引擎和商業資料庫。搜索引擎它具有檢索過程不收費、面向所有的終端用戶、對用戶檢索水平要求較低等特點,常用的搜索引擎有谷歌、網路、搜狗、必應等。商業性資料庫的特點有:第一,檢索需要收費或者授權,高等學校一般都與相關商業資料庫合作,校園網環境下一些商業資料庫是可以免費使用的。第二,它們的功能和收錄資源的范圍有明確的定位,如只能檢索專利信息的德溫特專利創新索引、只能檢索學位論文的ProQuest Digital Dissertations資料庫、只能檢索會議論文的CPCI、只收錄世界上頂尖期刊論文的Web Of Sicence的三大引文索引資料庫等。第三,這些資料庫都有自己的一套檢索技術,因此對用戶的檢索水平要求較高。除了上述的專業性資料庫之外,還有一些因經常使用被我們熟知的綜合性資料庫,如中國知網、維普、萬方等。

除了搜索引擎和商業資料庫之外,還有一些其他可以免費獲取資源的途徑,如主題指南(導航)、數字圖書館、政府的網站(資料庫)、電子預印本、博客、微博、機構知識庫等途徑。因此,我們只有熟知各個不同的檢索工具以及它們的特色才能檢索到不同的文獻類型。 高校師生要立足本職工作和學習需要選取適合的文獻信息檢索工具,助力科學研究、日常教學和學習生活。

(三)抽取恰當的關鍵詞

選取科學適當的檢索工具後,下一步工作就是確定檢索關鍵詞。

首先,要確定研究問題有哪些核心關鍵詞(Core Keywords),抽取核心關鍵詞可以依據漢語主題詞表,如查詢表述具體事物名稱的名詞術語、事物的狀態或現象的名詞術語、科學分類的名詞術語、研究方法、技術方法的名詞術語、工藝方法、加工技術的名詞術語、化學元素、化合物、金屬材料與合金的名詞術語、國家名稱、地名、組織機構名稱以及文獻類型、文獻載體的名詞術語等。其次,為了保證查全率和查准率,應當注意這些核心關鍵詞有無其他的表述方式,如同義詞、近義詞、與之相關的詞、有無縮寫形式或者全稱形式、有無相關的組織機構、英文的單數復數形式等,如果有,分別檢索。第三,避免用太泛的關鍵詞,應選用專指性很強的關鍵詞。例如,我們要檢索計算機軟體有關的視頻資料,如果我們只輸入「計算機操作視頻」這樣類似的檢索式,當然也可以找到一些檢索結果,但缺乏針對性。我們不妨直接明確輸出我們要學習的.軟體的名稱,如「Powerpoint 視頻」,這樣檢索出的結果的相關性就要高很多。第四,學會利用專業術語。不同的學科,他們的專業術語表述不同,如信息檢索、克隆人、電子圖書等都屬於專業術語,對這些專業術語進行檢索的時候,盡可能加上雙引號進行精確檢索,可以提高檢索結果的相關度和准確度。

(四)構造檢索式

確定幾組關鍵詞後,下一步工作就是要構造檢索式。即要用一定的運算符號將這些關鍵詞連接起來,形成具有一定意義的表達式,也叫檢索提問表達式。構造檢索式具有一定的專業性,這就需要依託信息檢索課和上機課來實現,重點指導學生如何正確構造檢索式。構造檢索式,可以從以下幾個方面考慮:首先要明確檢索詞之間的邏輯關系,用布爾邏輯運算符AND、OR、NOT將它們連接起來;然後需要考慮檢索詞之間的位置是否需要進行限定,如果需要則根據不同的檢索工具使用一定的檢索手段對檢索詞的位置進行限定;對於一些專有名詞,是否需要作精確檢索,如果需要則給檢索詞加上雙引號;為了使檢索結果更加精準,我們還需要把檢索限制在某一個范圍當中,比如限制在某個欄位,語種、出版年、摘要、題名等不同的欄位作一個限定,還有其他的各種限定,如文獻類型、機構的域名的類型等等。當然,不同的檢索工具可能有自己特有的語法用法,我們應當學會靈活應用和變通不同的檢索方法和技巧。

(五)篩選檢索結果

通過選取關鍵詞、構造檢索式進行檢索後,會得到眾多檢索結果,但在眾多的檢索結果當中,並不是每一條都是我們所需要的,所以我們要對檢索結果作一些篩選。首先,依據結果的相關度,我們得到的檢索結果是否與我們要檢索內容的主題相關,是否與我們所需要的信息內容的層次、深淺度相匹配;其次,要看作者,即要看作者的權威性和影響力,這直接影響到我們檢索到的文獻信息的質量,對於一些沒有顯示作者的網站來說就缺乏一定的嚴謹性;再次,要看檢索結果的時效性,往往最新的觀點、新的理論、新的解決方案都來源於最新發表的文獻信息。另外,要合理判斷檢索信息的公正性、准確性,避免使用錯誤的、缺乏科學論證的文獻資料,等等。

(六)調整檢索策略

經過前面的檢索步驟得出的檢索結果當中,如果還是沒有理想的檢索結果,就需要調整檢索策略。首先,當檢索結果太少的時候,則需要擴大檢索范圍。比如看檢索詞是否有近義詞、同義詞、上位詞,將這些檢索詞用布爾邏輯語OR來連接,可以很好的擴大檢索范圍。再如,利用寬容的檢索方法檢索,像英文單詞中經常會有一部分相同的部分,那些可變換的部分就可以用截詞檢索代替。還有英文名詞的單復數形式,如果我們要找「女性」的相關資料,只輸入「woman」檢索就會漏檢很多,還應該對它的復數形式「women」也進行檢索。還比如英文的縮寫形式,比如我們要找「慕課」相關的文獻,如果我們只是輸入「慕課」就可能會漏掉相關重要信息,我們還應該用它的縮寫形式去檢索,輸入「MOOC」或者它的英文全稱「Massive Open Online Courses」,這樣分別去檢索才不會遺漏掉重要文獻資料。如果是因為我們的限制太多導致檢索結果太少,那麼可以考慮去掉一兩個限制。因為每一個檢索工具收錄的范圍和內容有一定的側重點和有限性,所以我們也可以考慮更換不同的檢索工具進行檢索。其次,當檢索結果太多的時候,我們也應該採取一定的措施縮小檢索范圍。例如用布爾邏輯運算符AND和NOT連接檢索詞,用AND多加幾個檢索詞進行限定,或者用NOT排除一些限定;使用檢索詞的下位詞進行檢索;對一些專有名稱,專業術語加上引號進行精確檢索也可以縮小檢索范圍,從而實現更精確地檢索;對檢索詞加上一定的限制,如對它的時間、機構、網站、文獻格式等進行一個限制;除此之外,我們還可以利用檢索工具本身所具備的二次檢索功能來篩選檢索結果,從而縮小檢索結果。

(七)求助專業人士

如果通過上述途徑仍然不能取得理想的文獻信息資料,我們可以通過一些掌握現代技術的、具有豐富科學研究經驗的專業人士來獲取我們想要的文獻信息。例如,有很多圖書館的網站主頁上都會有在線咨詢的功能,我們可以通過在線咨詢的服務功能從圖書館員那裡獲取文獻信息資料。很多圖書館都開通了館際互借的功能,通過館際互借,我們可以共享很多成員館的文獻信息資源,而這些龐大且寶貴的文獻信息資源經常會被老師們和學生們忽略掉。再如,我們還可以求助一些在線的問題回答類的網站,像網路知道、知乎等,還有國外比較權威的網站像AIIExperts等,通過詢問這些網站上的一些權威專家,也可以為我們的學習和研究提供寶貴的意見。

總之,互聯網是一個非常開放的空間,如果善於應用,我們不僅可以貢獻自己的經驗和智慧來為他人服務,我們也可以共享他人的智慧來為我們自己的研究和學習服務。

四、結語

信息檢索的最終目的是通過解決各種各樣的問題,進而提高學習和科學研究能力。正如美國文獻家赫伯特所言:「知識的一半,是知道到哪裡去尋找它。明日的文盲,不是不能閱讀的人,而是缺乏檢索能力的人。」互聯網時代文獻信息檢索能力比文獻信息本身更重要。來自美國的非盈利性機構「今日信息科學網站」的一份報告「Information Literacy A Skill for Life」也在呼籲互聯網時代新的技能,即媒體與信息素養。由此看來,信息素養的培養不光適用於高校信息素養教育,同時也具有世界性的重要意義。文獻信息知識伴隨著社會的發展而迅速更新和積累,高校應強化對信息檢索的指導,提高信息檢索能力,助力高校教學和科學研究。

五、參考文獻

[1]陳振標.文獻信息檢索、分析與應用[M].北京:海洋出版社,2016:19.

[2]陸和建,姜豐偉.新信息環境下高校信息檢索課教學方式的優化策略[J].大學圖書館學報,2015(2):96—99,112.

[3]萬愛群,楊紅.淺談開設《信息檢索與利用》課程的必要性[J].廣西質量監督導報,2007(6):105—118.

;

㈤ 網路信息過濾與網路信息檢索的關系

是因為每個搜索引擎都有自己的爬蟲程序,這些爬蟲程序分布在很多的伺服器上,爬蟲程序就是負責搜尋某個ip段內的主機信息,通過得到網頁首頁文件的title來分類和過濾,防止收集無用的冗餘信息,然後根據網頁中的超鏈接繼續搜索,最終將搜索到信...

㈥ 什麼是信息檢索

信息檢索(Information Retrieval)是指信息按一定的方式組織起來,並根據信息用戶的需要找出有關的信息的過程和技術。狹義的信息檢索就是信息檢索過程的後半部分,即從信息集合中找出所需要的信息的過程,也就是我們常說的信息查尋(Information Search 或Information Seek)。一般情況下,信息檢索指的就是廣義的信息檢索。
信息檢索(Information Retrieval)是指從信息資源的集合中查找所需文獻或查找所需文獻中包含的信息內容的過程。
起源編輯
信息檢索起源於圖書館的參考咨詢和文摘索引工作,從19世紀下半葉首先開始發展,至20世紀40年代,索引和檢索成已為圖書館獨立的工具和用戶服務項目。隨著1946年世界上第一台電子計算機問世,計算機技術逐步走進信息檢索領域,並與信息檢索理論緊密結合起來;離線批量情報檢索系統、聯機實時情報檢索系統

文獻信息檢索
相繼研製成功並商業化,20世紀60年代到80年代,在信息處理技術、通訊技術、計算機和資料庫技術的推動下,信息檢索在教育、軍事和商業等各領域高速發展,得到了廣泛的應用。Dialog國際聯機情報檢索系統是這一時期的信息檢索領域的代表,至今仍是世界上最著名的系統之一。

㈦ 信息檢索過濾類型

信息檢索按照類容分:可以分為
事實檢索、數據檢索和文獻檢索
信息檢索按照組織方式分:可以分為
目錄檢索、全文檢索、超文本檢索、超媒體檢索
信息檢索按照檢索手段分:可以分為
手工檢索、計算機檢索、網路檢索

因為信息檢索比較容易理解不再多說。下面照抄一段信息過濾的類型:

從不同角度可以對信息過濾作出了不同的分類,根據信息過濾的基本原理將其分為以下幾種:
①基於內容的信息過濾:又稱認知學過濾,是指首先對一則信息的內容和潛在信息接收者的信息需求進行表徵,然後利用這些表徵智能地把相匹配的信息傳送給信息接收者。目前,網路系統中使用的分配列表和關鍵詞匹配是最基本的基於內容的過濾形式。
⑨協作過濾:又稱社會學過濾,這種方法支持群體中個性化的和有組織的相互聯系。重點研究信息發出者的特點。其典型特徵是利用用戶群中興趣相似或相同的知識來間接獲取用戶特定需求,從而進行信息過濾並為用戶推薦相關信息。這種方法對事先不了解或很難表達自己的信息需求的用戶比較有效,對復合式的信息過濾系統識別初始用戶興趣文檔也具有重要的價值。
③基於經濟學的過濾:這種過濾方法主要利用各種成本一效益評價和顯性的或隱性的價格機制來實現信息過濾。即用戶常常根據成本與價值之比來確定是否對一則消息進行處理。信息的長度、潛在信息質量、成本、效益以及個性化程度等都是經濟過濾方法中需要考慮的重要指標。這樣的過濾系統原型目前還較為少見。
④基於環境的過濾:也稱作鏈接分析或超文本信息過濾。這是一種基於文獻與文獻鄰近度矩陣的過濾。用戶在網路上瀏覽文獻時,用戶的興趣常常強烈依賴於瀏覽的局部環境。該系統根據用戶瀏覽過的文獻之間的相關度推測用戶下一步可能會瀏覽哪些文獻,從而實現個性化的服務。
⑤基於智能代理的信息過濾:智能代理又稱智能體,是一種半自動化的執行程序,能感知環境的變化,有一定的預知功能。能夠不在人類的干預或較少干預下完成一定的任務,將智能代理引入信息過濾可自動地修改用戶興趣文檔並自動地進行相關的過濾操作,增強系統的可適性。系統能夠精確地學慣用戶行為並理解用戶行為與信息內容之間的聯系,代理之間還可以互相學習、協調行動完成預定的過濾任務。如美國麻省理工學院研製的Amalthaea系統就利用了兩種代理進行過濾:信息發現代理和信息過濾代理。
⑥復合型過濾:是將上述幾種方法不同程度地結合起來實施信息過濾。已運行的過濾系統實驗證明,任何兩種或兩種以上方法的結合都能不同程度地提高過濾的效率。

㈧ 急急急~網路信息檢索方法與應用 論文

我給你找了一篇,摘要如下:
隨著Internet在全世界范圍內迅猛發展,網上龐大的數字化信息和人們獲取信息之間的矛盾日益突出。因此,對網路信息的檢索技術及其發展趨勢進行探討和研究,是一個既迫切而又實用的課題。本文通過對網路信息檢索的基本原理、網路信息檢索的技術及工具、網路信息檢索的現狀等方面進行分析研究,並對網路信息檢索的發展趨勢進行了預測,旨在尋找提高網路信息檢索的手段和方法的有效途徑,並最終提高網路信息的檢索效果,使得網路信息資源得到充分有效地利用。
全文主要包括六個部分,
第一部分為網路信息檢索述評,主要是闡述了網路信息檢索所涉及到的有關概念,如信息檢索技術、網路信息檢索的特點及網路信息檢索效果評價。
第二部分重點討論了網路信息檢索的基本技術。如信息推拉技術、數據挖掘技術、信息過濾技術、自然語言處理技術等等,旨在弄清網路信息檢索的技術支撐,為預測網路信息檢索的發展趨勢作下鋪墊。
第三部分對網路信息檢索的重要工具——搜索引擎進行了闡述,主要從其檢索機制入手,分析了不同種類的搜索引擎的檢索特點及功能。其獨到之處在於對搜索引擎的基本功能進行了比較全面的概括,並對目前流行的搜索引擎進行科學的分類...
第四部分分析討論了檢索技術的另一分支—基於內容的檢索技術
第五部分則分析了網路信息搜索工具的局限,主要從文本信息檢索和多媒體信息檢索兩方面進行闡述。

好不容易給轉成 .txt文本,貼在下面:
1.1網路信息資源
網路信息資源是指「通過國際Intemet可以利用的各種信息資源」的總稱。
隨著Intemet的迅速發展,網上信息資源也以指數形式增加,網路信息資源作
為一種新型的信息資源,發揮著越來越重要的作用,其內容幾乎無所不包,涉
及政治、經濟、文化、科學、娛樂等各個方面;其媒體形式多種多樣,包括文
本、圖形、圖像、聲音、視頻等;其范圍覆蓋社會科學、自然科學、人文科學
和工程技術等各個領域。
1.2信息檢索技術
信息檢索技術是現代信息社會中非常關鍵的技術之一。信息檢索是指將信
息按一定的方式組織和存儲起來,並根據信息用戶的信息需求查找所需信息的
過程和技術,所以信息檢索的全稱又叫「信息存儲與檢索」。狹義的信息檢索
僅指從信息集合中找出所需信息的過程,也就是利用信息系統檢索工具查找所
需信息的過程。人們獲取信息源的方式主要有:①遵循傳統的檢索方法在浩如
煙海的圖書館資料中,通過人工查找索引找到對應的文獻索引號再獲取文獻原
文;②聯機信息檢索。這其中也存在一個發展過程,由檢索結果來看,從提供
目錄、文摘等相關的二次信息檢索到可以直接獲得電子版的全文;由檢索方法
來看,從對特定關鍵詞或者如作者、機構等輔助信息作為檢索入口的常規檢索
到以原始文獻中任意詞檢索的全文檢索等等。其中,全文檢索由於其包含信息
的原始性、信息檢索的徹底性、所用檢索語言的自然性等特點在近年來發展比
較迅速,成為深受人們關注的一種非常有效的信息檢索技術,它是從大容量文
檔庫中精確定位所需信息的最有效手段l3]。
.3.2web信息檢索
其檢索方式有:瀏覽器方式和搜索引擎方式。
(l)瀏覽器方式(Br,singsystelns)。只要能夠進入hitemct就能夠通過瀏
覽器,利用HTTP協議提供的WV乃萬服務,瀏覽認觸b頁面和通過W匕b頁面提
供的檢索方式訪問資料庫。
(2)搜索引擎方式(SearehEngines)。搜索引擎是intemet提供公共信息檢
索服務的W七b站點,它是以一定的技術和策略在intemet中搜集和發現網路信
息,並對網路信息進行理解、提取和處理,建立資料庫,同時以認倪b形式提
供一個檢索界面,供用戶輸入檢索關鍵詞、片語或短語等檢索項,代替用戶在
資料庫中查找出與提問相匹配的記錄,同時返回結果且按相關度排序輸出,從
而起到快速查找信息的目的。搜索引擎所處理的信息資源主要包括萬維網服務
器上的信息,另外還包括電子郵件和新聞組信息。搜索引擎服務的宗旨是為滿
足用戶的信息需要,所以它是面向用戶的,採用的方式是互動式的。
網路信息檢索工具採用主動提交或自動搜索兩種方法搜索數據。
1.4網路信息檢索效果評價
目前,得到普遍認同的檢索效果的評價標准主要有以下幾個:查全率、查
准率、收錄范圍、輸出格式,其中以查全率和查准率最為重要。
現代信息科學技術的發展,為人們提供了多種多樣的信息獲取和傳送方法
及技術,從「信源」與「用戶」的關系來看,可分為兩種模式:「信息推送」
模式(InformationPush),由「信源」主動將信息推送給「用戶」,如電台廣播;
「信息拉取」模式(InformationPull),由「用戶」主動從「信源」中拉取信息,
如查詢資料庫。
2.2.1信息推送技術
「推」模式網路信息服務,是基於網路環境下的一種新的服務形式,即信
息服務者在網上利用「Push」技術為特定用戶開展信息服務的方式。Push技術
之所以成為Intemet上一項新興的技術,是因為藉助該技術使網路信息服務具
有主動性,不僅可以直接把用戶感興趣的信息推送給用戶,而且可有效地利用
網路資源,提高網路吞吐率;再者,Push技術還允許用戶與提供信息的伺服器
之間透明地進行通信,極大地方便了用戶。
所謂Push技術,又稱「推送」技術、Web廣播(Webeasting)技術,實質
上是一種軟體,這種軟體可以根據用戶定義的准則,自動搜集用戶最可能發生
興趣的信息,然後在適當的時候,將其傳遞至用戶指定的「地點」。因而從技
術上看,「推」模式網路信息服務就是具有一定智能性的、可以自動提供信息
服務的一組計算機軟體,該軟體不僅能夠了解、發現用戶的興趣(可能關心的
某些主題的信息),還能夠主動從網上搜尋信息,並經過篩選、分類、排序,
然後按照每個用戶的特定要求,主動推送給用戶141。
(l)信息推送方式。信息推送方式分兩類,即網播方式和智能方式。
網播方式有:頻道式推送。頻道式網播技術是目前普遍採用的一種模式,
它將某些頁面定義為瀏覽器中的頻道,用戶可像選擇電視頻道那樣接受有興趣
的網播信息;郵件式推送,用電子郵件方式主動將所推送信息發布給各用戶,
如國際會議的通知、產品的廣告等:網頁式推送。在一個特定網頁內將所推送
信息發布給各用戶,如某企業、某組織、某個人的網頁;專用式推送。採用專
門的信息發送和接收軟體,信源將信息推送給專門用戶,如機密的點對點通信。
智能推送方式有:操作式推送(客戶推送式),由客戶數據操作啟動信息
推送。當某客戶對數據進行操作時,把修改後的新數據存入資料庫後,即啟動
信息推送過程,將新數據推送給其他客戶;觸發式推送(伺服器推送式),由
ll碩士學位論文
MASTER,5THESIS⑧
資料庫中的觸發器啟動信息推送過程,將新數據推送給其他客戶,當數據發生
變化,如出現增加(Insert)、刪除(Delete)、修改(update)操作時,觸發器
啟動信息推送過程。
(2)信息推送的特徵。信息推送的特徵有:主動性、針對性、智能性、高效
性·靈活性和綜合性I5]。
主動性。Push技術的核心就是服務方不需要客戶方的及時請求而主動地將
數據傳送到客戶方。因而,主動性是「推」模式網路信息服務最基本特徵之一。
這也是它與基於瀏覽器的「拉」(Pull)模式的被動服務的鮮明對比。
針對性(個性化)。針對性是說,Push技術可以針對用戶的特定信息需求
進行檢索、加工和推送,並根據用戶的特定信息需求為其提供個人定製的檢索
界面。
智能性。Push伺服器能夠根據用戶的要求自動搜集用戶感興趣的信息並定
期推送給用戶。甚至,Push技術中的「客戶代理(ClientAgent)」可以定期自
動對預定站點進行搜索,收集更新信息送回用戶。同時個人信息服務代理和主
題搜索代理還可為了提高「推送」的准確性,控制搜索的深度,過濾掉不必要
的信息,將認飛b站點的資源列表及其更新狀態配以客戶代理完成。因而,網
絡環境下的「推」模式信息服務具有較高的智能性。這也是傳統的定題服務
(SDI)不能比的。
高效性。高效性是網路環境下「推」模式信息服務的又一個重要特徵。Push
技術的應用可在網路空閑時啟動,有效地利用網路帶寬,比較適合傳送大數據
量的多媒體信息。
靈活性。靈活性是指用戶可以完全根據自己的方便和需要,靈活地設置連
接時間,通過E一mail、對話框、音頻、視頻等方式獲取網上特定信息資源。
綜合性。「推」模式網路信息服務的實現,不僅需要信息技術設備,而且
還依賴於搜尋軟體、分類標引軟體等多種技術的綜合[6]。
但在當前信息技術的發展階段,「推」技術還存在很大的缺陷,比如:不
能確保信息發送,沒有狀態跟蹤,缺乏群組管理功能等等。因此,國內外的研
究者們又提出超級推(BeyondPush)技術的理論。所謂超級推技術是在保留、繼
承、完善了Push的優點(主動傳遞和個性化定製),摒棄了Push的諸多缺點之
,2碩士學位論文
MASTER,5THESIS管
後而發展起來的一種新型的Push技術。它的最大特點是在於保證傳送。即所
有的信息都是在特定的時間送給特定的信息用戶,同時保持連續性的用戶資
料,隨時可以知道誰收到了信息,信息是否為該用戶定製,用戶環境是否適當
等等[刀。
2.2.2信息拉取技術
常用的、典型的信息拉取技術,如資料庫查詢,是由用戶主動查詢資料庫,
從資料庫中拉取所需信息。其主要優點是:針對性好,用戶可針對自己的需求
有目的地去查詢、搜索所需的信息。
Intemet上的信息拉取技術可以說是資料庫查詢技術的擴展和延伸。在網
絡上,用戶面對的不止是一個資料庫,而是擁有海量信息的hitemet環境,因
此,各種網路信息拉取(查詢)的輔助工具—搜索引擎應運而生了。信息推送與信息拉取兩種模式各有其特點,在實際中常常是將兩者的結合
起來,常用的結合方式為:
(1)「先推後拉」式。先及時地推送最新信息(更新的動態信息),再有針
對性地拉取所需的信息。這樣,便於用戶注意信息變化的新情況和趨勢,從而
動態地選取需要深入了解的信息。
(2)「先拉後推」式。用戶先拉取所需信息,然後根據用戶的興趣,再有針
對性地推送相關的其它信息。
(3)「推中有拉」式。在信息推送過程中,允許用戶隨時中斷、定格在所感
興趣的網頁上,作進一步的搜索,主動拉取更豐富的信息。
(4)「拉中有推」式。在用戶拉取信息的搜索過程中,根據用戶輸入的關鍵
詞,信源主動推送相關信息和最新信息。這樣既可以及時地、有針對性時為用
戶服務,又可以減輕網路的負擔,並便於擴大用戶范圍[8]。
因此,信息推送與信息拉取相結合是當前Intemet、資料庫系統及其它信
息系統為用戶提供主動信息服務的一個發展方向。
2.3Web挖掘技術
隨著功temet的發展,W己b已經成為人類社會的公共信息源。在hitemet
給人類帶來前所未有的信息機遇的同時,又使得人類的信息環境更加復雜,人碩士學位論文
MASTER,5THESIS⑧
類如何利用信息的問題非但沒有如預想的通過信息技術的發展得到圓滿的解
決,相反,隨著信息技術的發展,信息量的激增,造成了個人實際所需信息量
與研觸b上的海量信息之間的矛盾,因而也就造成了個人利用信息的困難。在
這種情況下,雖然出現了叭范b環境下的專門檢索工具,但是由於搜索引擎是
由傳統檢索技術發展而來,在當前用戶要求不斷提高的情況下,傳統的搜索技
術己經不能夠滿足人們的需要。為了更加有效地利用網路信息資源,W七b挖掘
作為新的知識挖掘的手段,為Web信息的利用提出了新的解決方案叨。
2.3,1姍eb挖掘的內容
數據挖掘就是從大量的、不完全的、有雜訊的、模糊的、隨機的數據中,
提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
Web挖掘則是從WWW及其相關的資源和行為中抽取有用的模式和隱含信息。其
中WWW及其相關資源是指存在於WWW之上的Web文檔及Web伺服器上的日誌文
件以及用戶資料,從Web挖掘的概念中應當看出Web挖掘在本質上是一種知識
發現的手段,它主要從下面3個方面進行仁時。
(1)Web內容挖掘。W七b內容挖掘是從W匕b數據中抽取知識,以實現Web
資源的自動檢索,提高web數據的利用效率。隨著Intemet的進一步延伸,Web
數據越來越龐大,種類越來越繁多,數據的形式既有文本數據信息,也有圖像、
聲音、視頻等多媒體數據信息,既有來自於資料庫的結構化數據,也有用HTML
標記的半結構化數據及非結構化的自由文本數據信息。因而,對W己b內容信
息挖掘主要從下面兩個角度進行〔」]。
一是從信息檢索的角度,主要研究如何處理文本格式和超級鏈接文檔,這
些數據是非結構化或半結構化的。處理非結構化數據時,一般採用詞集方法,
用一組組詞條來表示非結構化的文本,先用信息評價技術對文本進行預處理,
然後採取相應的模型進行表示。另外,還可以用最大字序列長度、劃分段落、
概念分類、機器學習和自然語言統計等方法來表示文本。處理半結構化數據時,
可以利用一些相關演算法給超級鏈接分類,尋求認七b頁面關系,抽取規則。同
處理非結構化數據相比,由於半結構化數據增加了HTM毛標記信息及Web文
檔內部超鏈結構,使得表示半結構化數據的方法更加豐富。
二是從資料庫的角度,主要處理結構化的W匕b資料庫,也就是超級鏈接
14⑧蕊譽蕊
文檔,數據多採用帶權圖或者對象嵌入模型(OME),或者關系資料庫表示,
應用一定的演算法,尋找出網站頁面之間的內在聯系,其主要目的是推導出Web
站點結構或者把W匕b變成一個資料庫,以便進行更好的信息管理和查詢。數
據庫管理一般分成三個方面:一是模型化,研究認觸b上的高級查詢語言,使
其不局限於關鍵字查詢;二是信息的集成與抽取,把每個W七b站點及其包裝
程序看成是一個認范b數據源,通過W七b數據倉庫(data~house)或虛擬W七b資料庫實現多種數據來源的集成;三是叭幾b站點的創建與重構,通過研
究web上的查詢語言來實現建立並維護web站點的途徑[「]。
(2)札b結構挖掘。W匕b結構挖掘,主要指的是通過對W七b文檔的分析,從
文檔之間的組織結構獲取有用的模式。W匕b內容挖掘研究的是文檔內的關系,
W七b結構挖掘關注的則是網站中的超級鏈接結構之間的關系,找到隱藏在一個
個頁面之後的鏈接結構模型,可以用這個模型對W七b頁面重新分類,也可以
用於尋找相似的網站。
W七b結構挖掘處理的數據類型為W七b結構化的數據。結構化數據是描述
網頁內容組織方式的數據,頁內結構可以用超文本標記語言等表示成樹型結
構,此外頁間結構還可以用連接不同網頁的超鏈結構表示。文檔間的鏈接反映
了文檔信息間的某種聯系,如隸屬平行關系、引用與被引用關系等。對W七b
頁面的超級鏈接進行分類,可以判斷與識別頁面信息間的屬性關系。由於Web
頁面內部存在或多或少的結構信息,通過研究W亡b頁面內部結構,可尋找出
與用戶選定的頁面集合信息相關的其它頁面信息模式,以檢測W己b站點所展
示的信息完整程度。
③Web行為挖掘。所謂W己b用戶行為挖掘主要是通過對認尼b伺服器的日
志文件以及用戶信息的分析,從而獲得有關用戶的有用模式。W七b行為挖掘的
數據信息主要指網路日誌中包括的用戶行為模式,它包括檢索時間、檢索詞、
檢索路徑、檢索結果以及對哪些檢索結果進行了瀏覽。由於W七b自身的異質、
分布、動態、無統一結構等特點,使得在認七b網上進行內容挖掘比較困難,
它需要在人工智慧和自然語言理解等方面有所突破。所幸的是基於W七b服務
器的109日誌存在著完整的結構,當信息用戶訪問web站點時,與訪問相關的
頁面、時間、用戶ro等信息,日誌中都作了相應的記錄,因而對其進行信息
l5碩士學位論文
MASTER,5THESIS⑥
挖掘是可行的,也是有意義的。在技術實踐過程中,一般先把日誌中的數據映
射成諸種關系信息,並對其進行預處理,包括清除與挖掘不相關的信息等。為
了提高性能,目前對109日誌數據信息挖掘採用的方法有路徑分析、關聯規則、
模式發現、聚類分析等。為了提高精確度,行為挖掘也應用到站點結構信息和
頁面內容信息等方面。
2.3.2web挖掘技術在網路信息檢索中的應用
(l)Web內容挖掘在檢索中的應用。W匕b內容挖掘是指從文檔內容及其描述
中獲取知識的過程,由於用傳統的信息檢索技術對W己b文檔的處理不夠深入,
因此,可以利用叭觸b內容挖掘技術來對網路信息檢索中的W己b文檔處理部分
進行進一步的完善,具體而言表現在以下幾個方面。
①文本總結技術。文本總結技術是指從文檔中抽取出關鍵信息,然後以簡
潔的形式對W匕b文檔的信息進行摘要或表示。這樣用戶通過瀏覽這些關鍵信
息,就可以對W七b網頁的信息有大致的了解,決定其相關性並對其進行取捨。
②文本分類技術。W匕b內容挖掘中的文本分類指的是按照預先定義的主題
類別,利用計算機自動為文檔集合中的每一個文檔進行分類。分類在網路信息
檢索中的價值在於可以縮小檢索范圍,大大提高查准率。目前,己經出現了很
多文本分類技術,如TFIFF演算法等,由於文本挖掘與搜索引擎所處理的文本幾
乎完全一樣,所以可以直接將文本分類技術應用於搜索引擎的自動分類之中,
通過對大量頁面自動、快速、有效的分類,來提高文檔檢索的查准率。
③文本聚類技術。文本聚類與文本分類的過程J險洽相反,文本聚類指的是
將文檔集合中的文檔分為更小的簇,要求同一簇內的文檔之間的相似性盡可能
大,而簇與簇之間的關系盡可能小,這些簇相當於分類表中的類目。文本聚類
技術不需要預先定義好的主題類別,從而使得搜索引擎的類目能夠與所收集的
信息相適應。文本聚類技術與人工分類相比,它的分類更加迅速、客觀。同時,
文本聚類可與文本分類技術相結合,使得信息處理更加方便。可以對檢索結果
進行分類,並將相似的結果集中在一起。
(2)Web結構挖掘在網路信息檢索中的應用。W匕b的信息組織方式採用了一
種非平面結構,一般來說W己b的信息組織方式是根據內容來進行組織的。但
是由於W匕b的這些結構信息比較難以處理,所以搜索引擎一般不處理這些信
16碩士學位論文
MASTER,S竹正515⑧
息,而是將叭觸b頁面作為平面機構的文本進行處理。但是,在從觸b結構挖掘
中,通過對研觸b文檔組織結構的挖掘,搜索引擎可以進一步擴展搜索引擎的
檢索能力,改善檢索效果〔3]。
(3)脆b行為挖掘在網路信息檢索中的應用。認觸b行為挖掘是一種通過挖掘
總結出用戶的檢索行為的模式。用戶的檢索行為一直是信息檢索中重要的研究
內容,通過研觸b行為挖掘,不僅可以發現多數用戶潛在共同的行為模式,而
且還可以發現單個用戶的個性化行為,對這些模式進行研究,可以更好地對搜
索引擎的檢索效果進行反饋,以便進一步改進搜索策略,提高檢索效果。
2.3.3web挖掘技術的局限及方向
(1)孔b內容挖掘。W七b上的數據不管是用HTML還是XML標記語言表示,
都不能完全解決W七b數據的非結構性問題,特別是漢語句子格式繁多,虛詞、
實詞沒有絕對的界限,切分詞難度大,這些是造成無法對數據進行完全自動標
引的根本性問題,因此,從七b內容挖掘技術有必要結合數據倉庫等信息技術進
行信息存儲,並最終實現智能化、自動化的數據表示和標引,以供搜索之用。
通常數據的表示和數據的利用形式是相互關聯的,因此,設計相應的具有高查
全率和查准率的挖掘演算法也和數據表示一樣是未來的方向之一。另外多媒體數
據如何進行識別分類標引,這也是未來的研幾b內容挖掘研究的難點和方向。
(2)梅b結構數據挖掘。隨著Intemet的迅猛發展,網站的內容也越來越豐
富,結構也越來越龐雜,用有向圖表示巨型網站鏈接結構將不能滿足數據處理
的需要,需要設計新的數據結構來表示網站結構。
由於用來作對比分析發現問題所在的用戶使用信息只有日誌流,那麼,對
用戶使用日誌流中每一鏈接關系如何識別、採用什麼結構表示、如何抽取有用
的模式等等,不僅是認飛b行為挖掘的重要研究內容也是網站結構挖掘的重要
研究方向之一。
(3),eb用戶行為挖掘。由於Iniemet傳輸協議HTTP的無狀態性,客戶端、
代理伺服器端緩存的存在,使用戶訪問日誌分別存在於伺服器、代理伺服器和
客戶端,因此,從W七b用戶訪問日誌中研究用戶訪問規律最大的難點在於如
何把分布於不同位置的訪問日誌經過預處理,形成一個個用戶一次的訪問期
間。通常來講,對於靜態W七b網站,伺服器端的日誌容易取得,客戶端和代
l7理伺服器用戶訪問日誌不容易取得;其次,由於一個完整的W匕b是由一個個
圖片和框架頁面組成的,而用戶訪問伺服器也有並發性,在確定用戶訪問內容
時,必須從伺服器日誌中甄選出某個用戶實際請求的頁面和頁面的主要內容。
另外,由於目前已經有的數據挖掘演算法主要是在大量交易數據基礎上發展起來
的,在處理海量Web用戶訪問日誌中也需要重新設計演算法結構〔41。
2.4信息過濾技術
hitemet開放式的環境,為人們檢索和利用信息提供了極大的方便,但同
時,網路環境也為人們及時准確地檢索到所需信息帶來了麻煩。這是因為,第
一,網路環境中信息的來源復雜多樣,隨意性大,任何人、任何單位不管其背
景和動機如何都可以在網路上發布信息,信息的產生和傳播沒有經過篩選和審
定,因此信息的可靠性、質量和價值成為用戶普遍擔心的一大問題;第二,目
前大多數據搜索工具的檢索范圍是綜合性的,它們的Robots盡可能地把各種
網頁抓回來,經過簡單加工後存放在資料庫中備檢;第三,搜索引擎直接提供
給用戶的檢索途徑大都是基於關鍵詞的布爾邏輯匹配,返回給用戶的就是所有
包括關鍵詞的文獻,這樣的檢索結果在數量上遠遠超出了用戶的吸收和使用能
力,讓人感到束手無策。這就是人們經常談論的「信息過載」、「信息超載」現
象。信息過濾技術就是在這樣的背景下開始受到人們的重視,它的目的就是讓
搜索引擎具有更多的「智力」,讓搜索引擎能夠更加深入、更加細致地參與到
用戶的整個檢索過程中,從關鍵詞的選擇、檢索范圍的確定到檢索結果的精煉,
幫助用戶在浩如煙海的信息中找到和需求真正相關的資料。
2.4.1信息過濾模型
信息過濾其實質仍是一種信息檢索技術,因此它仍依託於某一信息檢索模
型,不同的檢索模型有不同的過濾方法。51。
(1)利用布爾邏輯模型進行過濾。布爾模型是一種簡單的檢索模型。在檢索
中,它以文獻中是否包含關鍵詞來作為取捨標准,因此,它不需要對網頁數據
進行深度的加工。最簡單的關鍵詞表可以設計成只有三個欄位:關鍵詞、包括
關鍵詞的文獻號、關鍵詞在相應文獻中出現的次數。檢索時,用戶提交關鍵詞。

㈨ 什麼是信息檢索信息檢索的類型有哪些

信息檢索一詞出現於20世紀50年代,是指從信息資源的集合中查找所需文獻或查找所需文獻中包含的信息內容的過程。又稱信息存貯與檢索、情報檢索,是指將信息按一定的方式組織和存儲起來,並根據信息用戶的需要找出有關的信息的過程和技術。也就是說,包括「存」和「取」兩個環節和內容。狹義的信息檢索就是信息檢索過程的後半部分,即從信息集合中找出所需要的信息的過程,也就是我們常說的信息查詢(Information Search 或Information Seek)。信息檢索方法包括:普通法、追溯法和分段法。

閱讀全文

與信息檢索和信息過濾相關的資料

熱點內容
地熱過濾網漏水 瀏覽:705
簡述活性污泥法凈化污水的機理 瀏覽:807
污水口設置屬什麼部門監管 瀏覽:826
華帝凈化器前蓋怎麼打開 瀏覽:530
tbpb對不飽和聚酯樹脂的影響 瀏覽:715
污水進水總磷高是什麼原因 瀏覽:575
家裡地暖不熱過濾閥 瀏覽:880
含氰廢水降低ph 瀏覽:157
小米凈化器pro數據怎麼看 瀏覽:139
廢水的ss值 瀏覽:693
小區室外雨污水管道圖紙怎麼看 瀏覽:554
污水井剖面圖尺寸 瀏覽:588
安利凈水器濾芯外面的膜是什麼 瀏覽:308
酒店的凈水器是怎麼用的 瀏覽:338
除污水為什麼要預氧化 瀏覽:674
小米車載凈化器怎麼走線 瀏覽:296
為什麼打開回水閥排出來污水 瀏覽:412
純凈水桶子有刻劃怎麼辦 瀏覽:827
蒸餾餅的做法 瀏覽:171
蒸餾水存在丁達爾效應嗎 瀏覽:10