談網絡環境下搜索引擎的使用

學識都 人氣:3.11W

建立索引數據庫由分析索引系統程序對收集回來的網頁進行分析,怎樣淺談網絡環境下搜索引擎的使用?

談網絡環境下搜索引擎的使用

摘要 隨着網絡信息時代的到來,信息檢索處於一個互聯的網絡系統之中,用戶、信息檢索技術、信息資源構成信息檢索三個基本要素。主要通過intemet搜索引擎來介紹信息檢索技術。

關鍵詞 網絡 信息檢索 搜索引擎

一、前言

隨着internet的迅速發展,網上信息正以爆炸性的速度增長,其資源內容幾乎涉及所有領域,已經成爲知識、信息的集合體,是人們獲取信息的基本工具。在internet網上進行瀏覽和檢索,就好比進入了世界上最大的圖書館,而這個圖書館裏的書刊、雜誌、廣告、新聞及各種形式的文獻信息全都沒有規律地排放着,沒有一箇中心目錄將這些信息組織起來。正是因爲internet資源既豐富又分散且處於無序狀態,使得人們在網上查找自己所需的信息並非易事。這時爲滿足人衆信息檢索的需求,搜索引擎便應運而生。搜索引擎是指使用某些自動索引軟件來發現、收集網絡上的信息,然後對收集的網頁進行標引,建立一個可供查詢的大型數據庫。

intemet提供了多種不同的檢索工具,它們各自有各自的數據庫、語言、檢索功能和顯示方式,對用戶來說,最重要的就是熟悉這些工具的性能,掌握檢索技巧,提高檢索的命中率。

二、搜索引擎的工作原理

搜索引擎的工作原理可以簡單概括爲:從互聯網上抓取網頁→建立索引數據庫→在索引數據庫中搜索排序。

從互聯網上抓取網頁利用能夠從互聯網上自動收集網頁的spider (又名爲:robot, crawler,worms,wanders)系統程序,自動訪問互聯網,並沿着任何網頁中的所有url爬到其它網頁,重複這過程,並把爬過的所有網頁收集回來。

建立索引數據庫由分析索引系統程序對收集回來的網頁進行分析,提取相關網頁信息(包括網頁所在url、編碼類型、頁面內容包含的關鍵詞、關鍵詞位置、生成時間、大小、與其它網頁的鏈接關係等),根據一定的相關度算法進行大量複雜計算,得到每一個網頁針對頁面內容中及超鏈中每一個關鍵詞的相關度(或重要性),然後用這些相關信息建立網頁索引數據庫。

在索引數據庫中搜索排序當用戶輸入關鍵詞搜索後,由搜索系統程序從網頁索引數據庫中找到符合該關鍵詞的所有相關網頁。因爲所有相關網頁針對該關鍵詞的.相關度早已算好,所以只需按照現成的相關度數值排序,相關度越高,排名越靠前。最後由頁面生成系統將搜索結果的鏈接地址和頁面內容摘要等內容組織起來返回給用戶。說到這裏,網絡搜索引擎的基本工作原理基本上讓大家瞭解了。

三、檢索技巧

(一) 科學選擇關鍵詞。由於搜索引擎智能化程度的影響,它只能在現存的數據庫中查找匹配的關鍵詞,因此,這種匹配相對比較盲目,我們在選擇關鍵詞時,要注意兩方面的問題,纔有可能得到較好的搜索效果。