搜索引擎技術中人工智能的引入研究

學識都 人氣:1.44W

在全球經濟的不斷髮展下,在搜索引擎中引入人工智能技術,可以有效提高互聯網中的資源利用率,下面是小編蒐集整理的一篇相關論文範文,歡迎閱讀借鑑。

搜索引擎技術中人工智能的引入研究

Internet 網絡技術的快速發展 ,使網絡已經成爲了人們日常生活不可或缺的一部分 ,它作爲信息發佈、傳播的主要方式 ,Web 擁有幾億頁面的分佈式信息空間 ,目前仍然以 130~200d 翻一番的速度增加。Internet 信息廣泛 ,涵蓋量很大 ,要從中迅速找出自己需要的信息 ,有一定難度。因此 ,人們研究開發了多種檢索工具 ,以便自可以快速方便的找出自己想要的內容。

隨着科學技術的不斷髮展與成熟 ,網絡搜索引擎得到了快速發展 ,它是以一定的策略在互聯網中搜集、發現、提取、處理信息的過程 ,通過爲用戶提供檢索服務 ,發揮其信息導航的作用。

1、搜索引擎技術

1.1 分類

①目錄式搜索引擎。其特點主要是用人工方式或者半自動的方式蒐集相關信息 ,編輯人員通過訪問 Web 站點 ,等信息摘要形成之後便會根據站點的內容將其歸類在預先設置的分類中 ,將站點的描述、URL 置於此類別中 ,若用戶需要查詢某個關鍵詞 ,搜索軟件便會在預先存儲的描述中搜索。部分目錄也會接受用戶提交的描述 ,當編輯人員認可此描述後 ,便會將其歸類在相關類別當中 ,以供其他用戶查詢。此搜索引擎的優點是導航質量可靠 ,準確性高 ,如 Yahoo ;缺點則是人工介入過多 ,維護量及維修費用大 ,信息無法及時更新。

②基於 Robot 的搜索引擎。其特點是由稱爲 Robot 的`機器人程序用某種策略自動發現並蒐集互聯網中的有關信息 ,通過索引系統自動建立信息索引 ,由查詢接口按照用戶輸入信息檢索索引庫 ,然後將查詢結果反饋給用戶。其較爲顯着的一個特點是需要定期訪問曾經蒐集的網頁,並刷新索引,去除無用鏈接,網頁內容的變化也會出現在用戶查詢結果中。其優點是更新及時、不需要人工干預、信息齊全 ,如 Google,缺點則是返回信息較多 ,且無用信息多 ,用戶要在搜索結果中仔細篩選。

③Meta搜索引擎。其特點是自身無存放網頁信息的數據庫,用戶查詢某個關鍵詞時 ,它可以將其查詢請求轉化爲其他搜索引擎可以接受的形式 ,通過訪問多個搜索引擎查詢關鍵詞 ,並對查詢的相同結果進行排除 ,之後返回給用戶。優點是覆蓋面比較大 ,搜索效果好 ,缺點是具有侷限性 ,無法充分發揮搜索引擎的功能。

1.2 工作原理及相關技術

搜索引擎的工作原理是通過一個 Robot 最大限度的收集 WWW的網頁 ,根據網頁內容建立反向索引 ,用戶想查詢有關內容時 ,輸入關鍵字作爲查詢條件 ,搜索引擎根據預先建立的單詞索引或者網頁庫 ,檢索符合要求的網頁反饋給用戶。通常情況下 ,搜索引擎由三部分組織 ,如下圖所示(圖 1)。【1】

①信息蒐集系統。主要以 Robot 自動完成 Robot 在互聯網中漫遊時能夠蒐集大量的、多類型的新信息。互聯網上信息含量大 ,更新速度快。爲了確保搜索引擎信息具備一定的時效性與準確性 ,就要提高 Robot 的搜索效率 ,完善其搜索策略。搜索策略主要有兩個內容 ,一是從 URL 集合開始 ,根據其超鏈接 ,以深度或者寬度優先的方法重複搜索互聯網中的有關信息 ,URL可以是任何 URL,但經常會包括很多鏈接站點 ;二是將 Web 空間根據 IP 地址、域名劃分 ,搜索器需要對每個子空間進行不斷搜索。

②索引系統。Robot 完成信息蒐集後 ,要用索引系統程序對其收集的網頁進行分析 ,並提取網頁 URL、頁面內容包含的關鍵詞等信息 ,採用有關算法對其進行計算 ,然後獲得網頁針對頁面文字及關鍵詞的相關度 ,用相關信息建立網頁索引數據庫。

③查詢接口。用戶做出查詢操作時 ,搜索引擎根據查詢內容迅速檢出相關文檔 ,並對查詢和文檔的相關度進行分析 ,根據相關度大小對輸出結果進行排序 ,反饋給用戶。其目的在於方便用戶獲得更加及時、有效的信息。而查詢接口的設計 ,能夠適應人類思維方式。

 2、人工智能技術在搜索引擎中的應用

現有搜索引擎效率較低 ,將人工智能技術引入搜索引擎中 ,不僅可以支持用戶的搜索及瀏覽操作 ,還可以提供獨立搜索的功能。

2.1 Robot 的人工智能化

基於 Robot 的搜索引擎使用人工智能技術 ,其目的在於獲得互聯網中的信息資源 ,利用主頁的超文本鏈接 Web,然後通過 URL 引用一個 HTML 文檔爬行到另一個文檔。其算法採用深度優先、廣度優先的搜索策略 ,廣度優先能夠跟蹤頁面中的任何URL,覆蓋網頁範圍較廣 ;深度優先則是輕鬆發現文檔結構 ,並進行交叉引用。兩種算法雖然可以檢索出用戶需要的內容 ,但無法對檢索出的信息進行再分析。爲有效提高其搜索效率 ,採用啓發式學習採取有效的搜索策略 ,可在互聯網上自動整理信息。

2.2 智能代理技術的應用

智能代理技術是人工智能研究的成果 ,可以對用戶知識進行蒐集、過濾 ,根據用戶需求的變化 ,將用戶可能感興趣的內容主動提交給用戶 ,此外 ,還可以根據用戶的相關要求 ,代替用戶完成某些任務。其特點是不斷學習 ,積極、主動的適應用戶興趣的動態變化 ,從而實現個性化服務 ,因此 ,其具備智能性、主動性、代理性及協作性等優勢。

2.3 查詢接口的智能化

一是根據關鍵詞進行搜索。用戶有查詢需求時 ,搜索技術可以將其查詢需求分解爲多個關鍵詞 ,根據關鍵詞計算 Web 文檔和用戶要求是否符合 ,從而選出合適的文檔。二是自然語言查詢。好的檢索語言可以提高搜索引擎對用戶查詢要求的理解 ,自然語言理解計算可以實現自然語言智能答詢。它可以將信息檢索從關鍵詞查詢提升到知識層面 ,通過理解、處理有關知識 ,實現分詞技術、翻譯技術、短語識別等。因此,其服務更加人性化、智能化。

 3、結束語

在全球經濟的不斷髮展下 ,互聯網已經發展成全球最大的信息庫 ,成爲傳播信息的主要途徑 ,並且擁有大量分散的信息內容。在搜索引擎中引入人工智能技術 ,可以有效提高互聯網中的資源利用率 ,實現資源共享充分發揮信息資源的作用。

參考文獻

[1]張曉剛,李明樹。智能搜索引擎技術的研究與發展[J].計算機工程與應用,2011(24)。

[2]張明遠。基於粒計算的智能搜索引擎技術研究[D].武漢理工大學:計算機應用技術,2010.

[3]王挺。智能搜索引擎在企業人力資源管理決策支持系統中的應用[J].電腦知識與技術,2010(24)。