當前位置:學識都>好好學習>考研>

阿里巴巴筆試考點

學識都 人氣:1.67W

C++:1.關於DOM的描述;2.網絡蜘蛛系統;-8;4.數據庫檢索:查準率和查全率;5.索引壓縮;6.設計cralwer;樹查詢;&HTTP協議;9.信息檢索模型;10.分佈式通信協議;11.分佈式搜索引擎;12.雙向循環鏈表;13.快速排序;14.32位系統。

阿里巴巴筆試考點

關於DOM的描述:

javascrip裏面的dom(文檔對象模型)它是一種模型,將格式化文檔對象化處理。在xml和html 的處理中廣泛應用。  //dom是定義超文本結構的對象及方法,分層次的,有容器類的對象,也有基本元素對象,而這些對象,都包含有相應的屬性和對應的操作方法(接口)。

//一般而言,DOM結構準確地反映了HTML文檔所包含的內容,也就是說,每個HTML標記表現爲一個標記節點(tag node),每個文本項內容表現爲一個文本項節點(text node)。//是W3C組織推薦的處理可擴展置標語言的標準編程接口。

2. 網絡蜘蛛系統

網絡蜘蛛即Web Spider,是一個很形象的名字。把互聯網比喻成一個蜘蛛網,那麼Spider就是在網上爬來爬去的蜘蛛。網絡蜘蛛是通過網頁的.鏈接地址來尋找網頁,從網站某一個頁面(通常是首頁)開始,讀取網頁的內容,找到在網頁中的其它鏈接地址,然後通過這些鏈接地址尋找下一個網頁,這樣一直循環下去,直到把這個網站所有的網頁都抓取完爲止。如果把整個互聯網當成一個網站,那麼網絡蜘蛛就可以用這個原理把互聯網上所有的網頁都抓取下來。

對於搜索引擎來說,要抓取互聯網上所有的網頁幾乎是不可能的,從目前公佈的數據來看,容量最大的搜索引擎也不過是抓取了整個網頁數量的百分之四十左右。這其中的原因一方面是抓取技術的瓶頸,無法遍歷所有的網頁,有許多網頁無法從其它網頁的鏈接中找到;另一個原因是存儲技術和處理技術的問題,

在抓取網頁的時候,網絡蜘蛛一般有兩種策略:廣度優先和深度優先(如下圖所示)。廣度優先是指網絡蜘蛛會先抓取起始網頁中鏈接的所有網頁,然後再選擇其中的一個鏈接網頁,繼續抓取在此網頁中鏈接的所有網頁。這是最常用的方式,因爲這個方法可以讓網絡蜘蛛並行處理,提高其抓取速度。深度優先是指網絡蜘蛛會從起始頁開始,一個鏈接一個鏈接跟蹤下去,處理完這條線路之後再轉入下一個起始頁,繼續跟蹤鏈接。這個方法有個優點是網絡蜘蛛在設計的時候比較容易。兩種策略的區別,下圖的說明會更加明確。

在網絡蜘蛛機器人系統裏面,真正起指揮作用的是人工管理系統制定的規則和檢索索引數據庫。它可以決定什麼樣的網站抓的勤一點,或者乾脆不抓.

3. UTF-8

使用UTF-8編碼唯一的好處是,國外的用戶如果使用Windows XP英文版,瀏覽UTF-8編碼的任何網頁,無論是中文、還是日文、韓文、阿拉伯文,都可以正常顯示,UTF-8是世界通用的語言編碼,UTF-8的推廣要歸功於Google的應用,以及Blog開發者。而如果用Windows XP英文版的IE6.0瀏覽gb2312語言編碼的網頁,則會提示是否安裝語言包。因此,可能會失去很多的國外瀏覽者。 使用gb2312編碼的好處是,因爲程序產生的網頁文本使用ANSI編碼格式,會比UTF-8文本編碼節省一些體積,訪問速度會稍微快一點點,大約是30:38的比例,也就是30K的ANSI編碼,轉爲UTF-8編碼是38K,當然,這個比例並不準確,是會隨Unicode字符集區域的不同而變化的。