sorter是什么意思,sorter中文翻譯,sorter發(fā)音、用法及例句
?sorter
sorter發(fā)音
英:['s?:t?] 美:['s?:t?]
英: 美:
sorter中文意思翻譯
n. 分類(lèi)程序, 分類(lèi)機, 整理者
sorter常見(jiàn)例句
1 、It's a poor sort of memory that only work backwards.───只會(huì )向后作用的記憶力可就差勁了。
2 、What sort of medicine do you take?───你吃的是什么藥?
3 、Let's leave the two of them to sort themselves out.───咱們讓他們倆自己把相互間的誤解好好澄清一下吧。
4 、What sort of car would you like to hire?───你想租那一類(lèi)的車(chē)?
5 、No, actually, that sort of thing isn't for me.───不,實(shí)際上,那種事不合我的口味。
6 、She never meant anything of the sort.───她決沒(méi)有那種意思。
7 、She's not such a bad sort.───她不是這樣壞的人。
8 、Don't spend your time writing this sort of squibs.───不要花時(shí)間寫(xiě)這類(lèi)的諷刺短文了。
9 、Your act doesn't sort ill with your status.───你的行為不太符合你的身份。
10 、He's not he sort of man to be trusted.───他不是一個(gè)可信賴(lài)的人。
11 、He led off with his companion in a sort of quick-step.───他和他的舞伴帶頭跳一種快步舞。
12 、He protested that he had no views of that sort.───他分辯說(shuō),他沒(méi)有這種看法。
13 、What sort of classic the concert will have tonight?───今晚音樂(lè )會(huì )上將有哪種古典音樂(lè )?
14 、What soup do you have? What sort of soup is there?───你們有些什么湯?
15 、I'd need a cell sorter to get really get a look.─── 我需要用細胞分選儀仔細看看
16 、The illiberality of parents, in allowance towards their children, is an harmful error; makes them base; acquaints them with shifts; makes them sort with mean company; and makes them surfeit more when they come to plenty.───在子女小時(shí)不應對他們過(guò)于苛吝。否則會(huì )使他們變得卑賤,甚至投機取巧,以至墮入下流,即使后來(lái)有了財富時(shí)也不會(huì )正當利用。
17 、He do not want any special sort.───他不想要任何特別種類(lèi)的。
18 、He's the sort of man whom setbacks weigh very heavily.───他是那種碰到挫折就萬(wàn)分苦惱的人。
19 、He's not the sort of man who would go back on his word.───他不是那種會(huì )食言的人。
20 、What sort of food do you like best?───你最喜歡吃什么樣的食物?
21 、He is in essence a reclusive sort.───他本質(zhì)上具有一種隱士的氣質(zhì)
22 、"She is very unhappy, and-and that sort of thing, " Jose urged.───喬斯慫恿地說(shuō):"她可憐得很呢,還有-還有許多其他倒霉的事情。
23 、That sort of work wants a lot of patience.───做這樣工作需要很大的耐心。
24 、He is a downright sort of person.───他是那種直爽的人。
25 、A card stacker in card sorter.───卡片分類(lèi)機中的一種接卡箱。
26 、He's a real good sort.───他是個(gè)性情很溫和的人。
27 、All of his relations were a sort of Royal Family.───他的家族都是皇親國戚。
28 、David, in his secret heart, had visions of a sort of sublimated summer resort.───大衛在他心里設想著(zhù)一個(gè)類(lèi)似理想的避暑地。
29 、He is sort of, er, in low spirits.───他有點(diǎn)兒,呃,精神不振。
30 、He's the sort of person I really dislike.───他這種人我真不喜歡。
31 、She never immersed herself in that sort of trivia.───她從來(lái)不沉湎于往日瑣事。
32 、A veterinary surgeon is a doctor of a sort.───獸醫是一個(gè)一般的醫生行當。
33 、No buyers can buy this sort of product.───任何買(mǎi)主都不能購買(mǎi)這種產(chǎn)品。
34 、He's the sort of person who would pull the wings off a fly just for kicks.───他就是那種人,會(huì )把的蒼蠅的翅膀拉下來(lái)逗人玩。
35 、She hardly ever hit any sort of mark.───他幾乎從來(lái)沒(méi)有打中過(guò)什么目標。
36 、Most people know a sort of puzzle called rebus.───大多數人都知道有一種稱(chēng)為畫(huà)謎的猜謎。
37 、He had a sort of instinctive chivalry in him.───在他身上有一種天生的騎士精神。
38 、He's a bit tight with his money; definitely not the sort of man you can touch for a few bob.───他對錢(qián)有點(diǎn)吝嗇,你肯定不能從他這種人那里討到錢(qián)的。
39 、He is a sort of person who doesn't care two hoots what other people think.───他就是一個(gè)別人怎么想他毫不在乎的那種人。
40 、They seemed to love the land and the people with a sort of fierce egoism.───他們似乎是帶著(zhù)強烈的利己主義來(lái)愛(ài)這里的人和土地的。
41 、Don't worry about price-I'm sure we can come to some sort of arrangement.───別擔心價(jià)格——我敢肯定我們能夠達成某種協(xié)議。
42 、He's pulling some sort of trick.───他不定在耍什麼花招。
43 、What sort of people does he think we are?───他把我們看成什么樣的人了?
44 、It seems to be a nasty sort of day,is not it?───似乎天氣惡劣,對吧?
45 、"What sort of a noise?" asked the cook.───“那是什么樣的響聲?”廚娘問(wèn)道。
46 、There's some sort of sticky fluid on the kitchen floor.───廚房的地上有一種發(fā)黏的液體。
47 、You need a professional to sort out your finances .───你需要專(zhuān)業(yè)人士替你管理財務(wù)。
48 、He is not the sort of person ever to draw back.───他不是逃避責任的那種人。
49 、That sort of life style has come to stay whether you approve of it or not.───不管你贊成與否,那種生活方式已成為時(shí)尚。
50 、What sort of book do you want?───你要哪一類(lèi)的書(shū)?
51 、The duchess sang a sort of lullaby to the baby.───公爵夫人對孩子唱了一首催眠曲一樣的歌子。
52 、We must sort out the good apples from the bad.───咱們得把好蘋(píng)果揀出來(lái),同壞的分開(kāi)。
53 、He's a friendly chatty sort of person.───他這個(gè)人挺和善,很愛(ài)講話(huà)。
54 、Dad seemed to take your going sort of hard.───你父親看來(lái)非常舍不得離開(kāi)你。
55 、It is necessary that he (should) sort out the information for my reference.───他有必要整理些資料供我參考。
56 、What sort of books is most popular?───什么書(shū)最流行?
57 、He had such a funny friendly sort of face.───他的面孔是那么和善有趣。
58 、We have a private job to revamp their viticulture technology with selective harvesters and optical sorters.─── 我們接了私活兒 去幫他們改造收割機和光照揀選機 以改進(jìn)他們的葡萄栽培技術(shù)
59 、Do you mean you still have some other sort of room?───你是說(shuō)還有其他樣子的房間嗎?
60 、He is an unapproachable sort of person.───他是個(gè)不易親近的人。
61 、Can you sort me out on how to write this preface?───你能對怎樣寫(xiě)這個(gè)前言給我提點(diǎn)建議嗎?
62 、Let's sort the names alphabetically.───咱們把名字按字母順序歸類(lèi)。
63 、Their lukewarm welcome gave me an all-over sort of feeling.───他們不冷不熱的歡迎使我覺(jué)得渾身不舒服。
64 、He appeared to be in a spasmodic sort of hurry.───他那副樣子好象非常匆促似的。
65 、You may find this sort of job rather difficult.───你會(huì )感到這種工作相當難做。
66 、You must stop, and at once, this sort of behaviour.───你必須而且馬上停止這種行為。
67 、I wonder what sort of a bargain you'll make.───不知道你想賣(mài)個(gè)啥價(jià)錢(qián)。
68 、What sort of qualifications do you need for the job?───做這項工作需要什么資格?
69 、He's not the sort of man you can put one over on.───他可不是能用花言巧語(yǔ)打動(dòng)的人。
70 、She's a happy-go-lucky sort.───她是個(gè)樂(lè )天派。
71 、In another year, Wilma could manage a sort of hop.───又過(guò)了一年,威爾瑪好容易才能夠單足蹦跳。
72 、Poison of some sort must be operating in her.───一定有什么毒素在對她起作用。
73 、People have propose all sort of hypotheses to explain why dinosaur have become extinct.───人們提出種種假設,試圖說(shuō)明恐龍為什么會(huì )滅絕。
74 、What sort of play do you like best?───你最喜歡哪種戲劇?
75 、They served coffee of a sort.───他們供應的咖啡很差。
76 、He is a very active sort of person and cannot bear to see others idling about.───他是那種積極肯干的人,看不慣別人懶懶散散。
77 、Let me put on my thinking cap, sir. When you first told me that you wanted to make a sort of offer to me? Now let me think.───先生,讓我仔細想想, ... 你什么時(shí)候第一次對我說(shuō),你有件事跟我商量?讓我想想看。
78 、She is a very domestic sort of woman.───她是個(gè)十足的家庭婦女。
79 、He is the most suitable sort of salesman.───他就是那種最合適的推銷(xiāo)員。
80 、Can't you sort the good from the bad?───你難道不會(huì )區分好壞嗎?
81 、The husband and wife were having words of a sort.───夫妻倆正在吵架。
82 、She's the sort of woman who lives for others.───她是一心為別人著(zhù)想的人。
求這些產(chǎn)品得英文名稱(chēng)
共享器 sharing device
光標閱卷機 cursor paper reader
光端機 optical terminal device
光端機 同上
光盤(pán)庫 disc warehouse
光盤(pán)銷(xiāo)毀機 disc earse/demolish device
** anti-radar speedmeter
防盜報警 anti-theft alarm
防毒及郵件過(guò)濾 antivirous and email filrtater/sorter
防輻射產(chǎn)品 anti-radioative products/product
防靜電地板 anti-static floor
防雷產(chǎn)品 anti-thunder product/products
防水墻 waterproof wall
復用器 duplicater
覆膜機 film/pellicle cover
多媒體硬盤(pán)播放 multi-media harddisk player
多屏顯示 multi-display
多屏顯示 multi-display
常用的搜索引擎有哪些
索引擎(search engines)是對互聯(lián)網(wǎng)上的信息資源進(jìn)行搜集整理,然后供你查詢(xún)的系統,它包括信息搜集、信息整理和用戶(hù)查詢(xún)三部分。
搜索引擎是一個(gè)為你提供信息“檢索”服務(wù)的網(wǎng)站,它使用某些程序把因特網(wǎng)上的所有信息歸類(lèi)以幫助人們在茫茫網(wǎng)海中搜尋到所需要的信息。
早期的搜索引擎是把因特網(wǎng)中的資源服務(wù)器的地址收集起來(lái),由其提供的資源的類(lèi)型不同而分成不同的目錄,再一層層地進(jìn)行分類(lèi)。
人們要找自己想要的信息可按他們的分類(lèi)一層層進(jìn)入,就能最后到達目的地,找到自己想要的信息。
這其實(shí)是最原始的方式,只適用于因特網(wǎng)信息并不多的時(shí)候。
隨著(zhù)因特網(wǎng)信息按幾何式增長(cháng),出現了真正意義上的搜索引擎,這些搜索引擎知道網(wǎng)站上每一頁(yè)的開(kāi)始,隨后搜索因特網(wǎng)上的所有超級鏈接,把代表超級鏈接的所有詞匯放入一個(gè)數據庫。
這就是現在搜索引擎的原型。
隨著(zhù)yahoo!的出現,搜索引擎的發(fā)展也進(jìn)入了黃金時(shí)代,相比以前其性能更加優(yōu)越。
現在的搜索引擎已經(jīng)不只是單純的搜索網(wǎng)頁(yè)的信息了,它們已經(jīng)變得更加綜合化,完美化了。
以搜索引擎權威yahoo!為例,從1995年3月由美籍華裔楊致遠等人創(chuàng )辦yahoo!開(kāi)始,到現在,他們從一個(gè)單一的搜索引擎發(fā)展到現在有電子商務(wù)、新聞信息服務(wù)、個(gè)人免費電子信箱服務(wù)等多種網(wǎng)絡(luò )服務(wù),充分說(shuō)明了搜索引擎的發(fā)展從單一到綜合的過(guò)程。
然而由于搜索引擎的工作方式和因特網(wǎng)的快速發(fā)展,使其搜索的結果讓人越來(lái)越不滿(mǎn)意。
例如,搜索“電腦”這個(gè)詞匯,就可能有數百萬(wàn)頁(yè)的結果。
這是由于搜索引擎通過(guò)對網(wǎng)站的相關(guān)性來(lái)優(yōu)化搜索結果,這種相關(guān)性又是由關(guān)鍵字在網(wǎng)站的位置、網(wǎng)站的名稱(chēng)、 標簽等公式來(lái)決定的。
這就是使搜索引擎搜索結果多而雜的原因。
而搜索引擎中的數據庫因為因特網(wǎng)的發(fā)展變化也必然包含了死鏈接。
這篇文章中,我們介紹了google,它是一個(gè)大型的搜索引擎(of a large-scale search engine)的原型,搜索引擎在超文本中應用廣泛。
Google的設計能夠高效地抓網(wǎng)頁(yè)并建立索引,它的查詢(xún)結果比其它現有系統都高明。
這個(gè)原型的全文和超連接的數據庫至少包含24‘000‘000個(gè)網(wǎng)頁(yè)。
我們可以從://google.stanford.edu/ 下載。
設計搜索引擎是一項富有挑戰性的工作。
搜索引擎為上億個(gè)網(wǎng)頁(yè)建立索引,其中包含大量迥然不同的詞匯。
而且每天要回答成千上萬(wàn)個(gè)查詢(xún)。
在網(wǎng)絡(luò )中,盡管大型搜索引擎非常重要,但是學(xué)術(shù)界卻很少研究它。
此外由于技術(shù)的快速發(fā)展和網(wǎng)頁(yè)的大量增加,現在建立一個(gè)搜索引擎和三年前完全不同。
本文詳細介紹了我們的大型搜索引擎,據我們所知,在公開(kāi)發(fā)表的論文中,這是第一篇描述地如此詳細。
除了把傳統數據搜索技術(shù)應用到如此大量級網(wǎng)頁(yè)中所遇到的問(wèn)題,還有許多新的技術(shù)挑戰,包括應用超文本中的附加信息改進(jìn)搜索結果。
本文將解決這個(gè)問(wèn)題,描述如何運用超文本中的附加信息,建立一個(gè)大型實(shí)用系統。
任何人都可以在網(wǎng)上隨意發(fā)布信息,如何有效地處理這些無(wú)組織的超文本 *** ,也是本文要關(guān)注的問(wèn)題。
關(guān)鍵詞 World Wide Web,搜索引擎,信息檢索,PageRank, Google 1 緒論 Web 給信息檢索帶來(lái)了新的挑戰。
Web上的信息量快速增長(cháng),同時(shí)不斷有毫無(wú)經(jīng)驗的新用戶(hù)來(lái)體驗Web這門(mén)藝術(shù)。
人們喜歡用超級鏈接來(lái)網(wǎng)上沖浪,通常都以象Yahoo這樣重要的網(wǎng)頁(yè)或搜索引擎開(kāi)始。
大家認為L(cháng)ist(目錄)有效地包含了大家感興趣的主題,但是它具有主觀(guān)性,建立和維護的代價(jià)高,升級慢,不能包括所有深奧的主題。
基于關(guān)鍵詞的自動(dòng)搜索引擎通常返回太多的低質(zhì)量的匹配。
使問(wèn)題更遭的是,一些**為了贏(yíng)得人們的關(guān)注想方設法誤導自動(dòng)搜索引擎。
我們建立了一個(gè)大型搜索引擎解決了現有系統中的很多問(wèn)題。
應用超文本結構,大大提高了查詢(xún)質(zhì)量。
我們的系統命名為google,取名自googol的通俗拼法,即10的100次方,這和我們的目標建立一個(gè)大型搜索引擎不謀而合。
1.1網(wǎng)絡(luò )搜索引擎—升級換代(scaling up):1994-2000 搜索引擎技術(shù)不得不快速升級(scale dramatically)跟上成倍增長(cháng)的web數量。
1994年,第一個(gè)Web搜索引擎,World Wide Web Worm(WWWW)可以檢索到110,000個(gè)網(wǎng)頁(yè)和Web的文件。
到1994年11月,頂級的搜索引擎聲稱(chēng)可以檢索到2‘000’000(WebCrawler)至100‘000’000個(gè)網(wǎng)絡(luò )文件(來(lái)自 Search Engine Watch)。
可以預見(jiàn)到2000年,可檢索到的網(wǎng)頁(yè)將超過(guò)1‘000’000‘000。
同時(shí),搜索引擎的訪(fǎng)問(wèn)量也會(huì )以驚人的速度增長(cháng)。
在1997年的三四月份,World Wide Web Worm 平均每天收到1500個(gè)查詢(xún)。
在1997年11月,Altavista 聲稱(chēng)它每天要處理大約20’000’000個(gè)查詢(xún)。
隨著(zhù)網(wǎng)絡(luò )用戶(hù)的增長(cháng),到2000年,自動(dòng)搜索引擎每天將處理上億個(gè)查詢(xún)。
我們系統的設計目標要解決許多問(wèn)題,包括質(zhì)量和可升級性,引入升級搜索引擎技術(shù)(scaling search engine technology),把它升級到如此大量的數據上。
1.2 Google:跟上Web的步伐(Scaling with the Web)建立一個(gè)能夠和當今web規模相適應的搜索引擎會(huì )面臨許多挑戰。
抓網(wǎng)頁(yè)技術(shù)必須足夠快,才能跟上網(wǎng)頁(yè)變化的速度(keep them up to date)。
存儲索引和文檔的空間必須足夠大。
索引系統必須能夠有效地處理上千億的數據。
處理查詢(xún)必須快,達到每秒能處理成百上千個(gè)查詢(xún)(hundreds to thousands per second.)。
隨著(zhù)Web的不斷增長(cháng),這些任務(wù)變得越來(lái)越艱巨。
然而硬件的執行效率和成本也在快速增長(cháng),可以部分抵消這些困難。
還有幾個(gè)值得注意的因素,如磁盤(pán)的尋道時(shí)間(disk seek time),操作系統的效率(operating system robustness)。
在設計Google的過(guò)程中,我們既考慮了Web的增長(cháng)速度,又考慮了技術(shù)的更新。
Google的設計能夠很好的升級處理海量數據集。
它能夠有效地利用存儲空間來(lái)存儲索引。
優(yōu)化的數據結構能夠快速有效地存?。▍⒖?.2節)。
進(jìn)一步,我們希望,相對于所抓取的文本文件和HTML網(wǎng)頁(yè)的數量而言,存儲和建立索引的代價(jià)盡可能的?。▍⒖几戒汢)。
對于象Google這樣的集中式系統,采取這些措施得到了令人滿(mǎn)意的系統可升級性(scaling properties)。
1. 3設計目標 1.3.1提高搜索質(zhì)量我們的主要目標是提高Web搜索引擎的質(zhì)量。
1994年,有人認為建立全搜索索引(a plete search index)可以使查找任何數據都變得容易。
根據Best of the Web 1994 -- Navigators ,“最好的導航服務(wù)可以使在Web上搜索任何信息都很容易(當時(shí)所有的數據都可以被登錄)”。
然而1997年的Web就迥然不同。
近來(lái)搜索引擎的用戶(hù)已經(jīng)證實(shí)索引的完整性不是評價(jià)搜索質(zhì)量的唯一標準。
用戶(hù)感興趣的搜索結果往往湮沒(méi)在“垃圾結果Junk result”中。
實(shí)際上,到1997年11月為止,四大商業(yè)搜索引擎中只 有一個(gè)能夠找到它自己(搜索自己名字時(shí)返回的前十個(gè)結果中有它自己)。
導致這一問(wèn)題的主要原因是文檔的索引數目增加了好幾個(gè)數量級,但是用戶(hù)能夠看的文檔數卻沒(méi)有增加。
用戶(hù)仍然只希望看前面幾十個(gè)搜索結果。
因此,當 *** 增大時(shí),我們就需要工具使結果精確(在返回的前幾十個(gè)結果中,有關(guān)文檔的數量)。
由于是從成千上萬(wàn)個(gè)有點(diǎn)相關(guān)的文檔中選出幾十個(gè),實(shí)際上,相關(guān)的概念就是指最好的文檔。
高精確非常重要,甚至以響應(系統能夠返回的有關(guān)文檔的總數)為代價(jià)。
令人高興的是利用超文本鏈接提供的信息有助于改進(jìn)搜索和其它應用 。
尤其是鏈接結構和鏈接文本,為相關(guān)性的判斷和高質(zhì)量的過(guò)濾提供了大量的信息。
Google既利用了鏈接結構又用到了anchor文本(見(jiàn)2.1和2.2節)。
1.3.2搜索引擎的學(xué)術(shù)研究隨著(zhù)時(shí)間的流逝,除了發(fā)展迅速,Web越來(lái)越商業(yè)化。
1993年,只有1.5%的Web服務(wù)是來(lái)自域名。
到1997年,超過(guò)了60%。
同時(shí),搜索引擎從學(xué)術(shù)領(lǐng)域走進(jìn)商業(yè)。
到現在大多數搜索引擎被公司所有,很少技公開(kāi)術(shù)細節。
這就導致搜索引擎技術(shù)很大程度上仍然是暗箱操作,并傾向做**(見(jiàn)附錄A)。
Google的主要目標是推動(dòng)學(xué)術(shù)領(lǐng)域在此方面的發(fā)展,和對它的了解。
另一個(gè)設計目標是給大家一個(gè)實(shí)用的系統。
應用對我們來(lái)說(shuō)非常重要,因為現代網(wǎng)絡(luò )系統中存在大量的有用數據(us because we think some of the most interesting research will involve leveraging the vast amount of usage data that is available from modern web systems)。
例如,每天有幾千萬(wàn)個(gè)研究。
然而,得到這些數據卻非常困難,主要因為它們沒(méi)有商業(yè)價(jià)值。
我們最后的設計目標是建立一個(gè)體系結構能夠支持新的關(guān)于海量Web數據的研究。
為了支持新研究,Google以壓縮的形式保存了實(shí)際所抓到的文檔。
設計google的目標之一就是要建立一個(gè)環(huán)境使其他研究者能夠很快進(jìn)入這個(gè)領(lǐng)域,處理海量Web數據,得到滿(mǎn)意的結果,而通過(guò)其它方法卻很難得到結果。
系統在短時(shí)間內被建立起來(lái),已經(jīng)有幾篇論文用到了Google建的數據庫,更多的在起步中。
我們的另一個(gè)目標是建立一個(gè)宇宙空間實(shí)驗室似的環(huán)境,在這里研究者甚至學(xué)生都可以對我們的海量Web數據設計或做一些實(shí)驗。
2. 系統特點(diǎn) Google搜索引擎有兩個(gè)重要特點(diǎn),有助于得到高精度的搜索結果。
第一點(diǎn),應用Web的鏈接結構計算每個(gè)網(wǎng)頁(yè)的Rank值,稱(chēng)為PageRank,將在98頁(yè)詳細描述它。
第二點(diǎn),Google利用超鏈接改進(jìn)搜索結果。
2.1 PageRank:給網(wǎng)頁(yè)排序 Web的引用(鏈接)圖是重要的資源,卻被當今的搜索引擎很大程度上忽視了。
我們建立了一個(gè)包含518‘000’000個(gè)超鏈接的圖,它是一個(gè)具有重要意義的樣本。
這些圖能夠快速地計算網(wǎng)頁(yè)的PageRank值,它是一個(gè)客觀(guān)的標準,較好的符合人們心目中對一個(gè)網(wǎng)頁(yè)重要程度的評價(jià),建立的基礎是通過(guò)引用判斷重要性。
因此在web中,PageRank能夠優(yōu)化關(guān)鍵詞查詢(xún)的結果。
對于大多數的主題,在網(wǎng)頁(yè)標題查詢(xún)中用PageRank優(yōu)化簡(jiǎn)單文本匹配,我們得到了令人驚嘆的結果(從google.stanford.edu可以得到演示)。
對于Google主系統中的全文搜索,PageRank也幫了不少忙。
2.1.1計算PageRank 文獻檢索中的引用理論用到Web中,引用網(wǎng)頁(yè)的鏈接數,一定程度上反映了該網(wǎng)頁(yè)的重要性和質(zhì)量。
PageRank發(fā)展了這種思想,網(wǎng)頁(yè)間的鏈接是不平等的。
PageRank定義如下: 我們假設T1…Tn指向網(wǎng)頁(yè)A(例如,被引用)。
參數d是制動(dòng)因子,使結果在0,1之間。
通常d等于0.85。
在下一節將詳細介紹d。
C(A)定義為網(wǎng)頁(yè)A指向其它網(wǎng)頁(yè)的鏈接數,網(wǎng)頁(yè)A的PageRank值由下式給出: PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) 注意PageRank的形式,分布到各個(gè)網(wǎng)頁(yè)中,因此所有網(wǎng)頁(yè)的PageRank和是1。
PageRank或PR(A)可以用簡(jiǎn)單的迭代算法計算,相應規格化Web鏈接矩陣的主特征向量。
中等規模的網(wǎng)站計算26‘000’000網(wǎng)頁(yè)的PageRank值要花費幾小時(shí)。
還有一些技術(shù)細節超出了本文論述的范圍。
2.1.2直覺(jué)判斷 PageRank被看作用戶(hù)行為的模型。
我們假設網(wǎng)上沖浪是隨機的,不斷點(diǎn)擊鏈接,從不返回,最終煩了,另外隨機選一個(gè)網(wǎng)頁(yè)重新開(kāi)始沖浪。
隨機訪(fǎng)問(wèn)一個(gè)網(wǎng)頁(yè)的可能性就是它的PageRank值。
制動(dòng)因子d是隨機訪(fǎng)問(wèn)一個(gè)網(wǎng)頁(yè)煩了的可能性,隨機另選一個(gè)網(wǎng)頁(yè)。
對單個(gè)網(wǎng)頁(yè)或一組網(wǎng)頁(yè),一個(gè)重要的變量加入到制動(dòng)因子d中。
這允許個(gè)人可以故意地誤導系統,以得到較高的PageRank值。
我們還有其它的PageRank算法,見(jiàn)98頁(yè)。
另外的直覺(jué)判斷是一個(gè)網(wǎng)頁(yè)有很多網(wǎng)頁(yè)指向它,或者一些PageRank值高的網(wǎng)頁(yè)指向它,則這個(gè)網(wǎng)頁(yè)很重要。
直覺(jué)地,在Web中,一個(gè)網(wǎng)頁(yè)被很多網(wǎng)頁(yè)引用,那么這個(gè)網(wǎng)頁(yè)值得一看。
一個(gè)網(wǎng)頁(yè)被象Yahoo這樣重要的主頁(yè)引用即使一次,也值得一看。
如果一個(gè)網(wǎng)頁(yè)的質(zhì)量不高,或者是死鏈接,象Yahoo這樣的主頁(yè)不會(huì )鏈向它。
PageRank處理了這兩方面因素,并通過(guò)網(wǎng)絡(luò )鏈接遞歸地傳遞。
& nbsp; 2.2鏈接描述文字(Anchor Text)我們的搜索引擎對鏈接文本進(jìn)行了特殊的處理。
大多數搜索引擎把鏈接文字和它所鏈向的網(wǎng)頁(yè)(the page that the link is on)聯(lián)系起來(lái)。
另外,把它和鏈接所指向的網(wǎng)頁(yè)聯(lián)系起來(lái)。
這有幾點(diǎn)好處。
第一,通常鏈接描述文字比網(wǎng)頁(yè)本身更精確地描述該網(wǎng)頁(yè)。
第二,鏈接描述文字可能鏈向的文檔不能被文本搜索引擎檢索到,例如圖像,程序和數據庫。
有可能使返回的網(wǎng)頁(yè)不能被抓到。
注意哪些抓不到的網(wǎng)頁(yè)將會(huì )帶來(lái)一些問(wèn)題。
在返回給用戶(hù)前檢測不了它們的有效性。
這種情況搜索引擎可能返回一個(gè)根本不存在的網(wǎng)頁(yè),但是有超級鏈接指向它。
然而這種結果可以被挑出來(lái)的,所以此類(lèi)的問(wèn)題很少發(fā)生。
鏈接描述文字是對被鏈向網(wǎng)頁(yè)的宣傳,這個(gè)思想被用在World Wide Web Worm 中,主要因為它有助于搜索非文本信息,能夠用少量的已下載文檔擴大搜索范圍。
我們大量應用鏈接描述文字,因為它有助于提高搜索結果的質(zhì)量。
有效地利用鏈接描述文字技術(shù)上存在一些困難,因為必須處理大量的數據。
現在我們能抓到24‘000’000個(gè)網(wǎng)頁(yè),已經(jīng)檢索到259‘000’000多個(gè)鏈接描述文字。
2.3其它特點(diǎn)除了PageRank和應用鏈接描述文字外,Google還有一些其它特點(diǎn)。
第一,所有hit都有位置信息,所以它可以在搜索中廣泛應用鄰近性(proximity)。
第二,Google跟蹤一些可視化外表細節,例如字號。
黑體大號字比其它文字更重要。
第三,知識庫存儲了原始的全文網(wǎng)頁(yè)。
3有關(guān)工作 Web檢索研究的歷史簡(jiǎn)短。
World Wide Web Worm()是最早的搜索引擎之一。
后來(lái)出現了一些用于學(xué)術(shù)研究的搜索引擎,現在它們中的大多數被上市公司擁有。
與Web的增長(cháng)和搜索引擎的重要性相比,有關(guān)當今搜索引擎技術(shù)的優(yōu)秀論文相當少。
根據Michael Mauldin(Lycos Inc的首席科學(xué)家)) ,“各種各樣的服務(wù)(包括Lycos)非常關(guān)注這些數據庫的細節。
”雖然在搜索引擎的某些特點(diǎn)上做了大量工作。
具有代表性的工作有,對現有商業(yè)搜索引擎的結果進(jìn)行傳遞,或建立小型的個(gè)性化的搜索引擎。
最后有關(guān)信息檢索系統的研究很多,尤其在有組織機構 *** (well controlled collections)方面。
在下面兩節,我們將討論在信息檢索系統中的哪些領(lǐng)域需要改進(jìn)以便更好的工作在Web上。
3.1信息檢索信息檢索系統誕生在幾年前,并發(fā)展迅速。
然而大多數信息檢索系統研究的對象是小規模的單一的有組織結構的 *** ,例如科學(xué)論文集,或相關(guān)主題的新聞故事。
實(shí)際上,信息檢索的主要基準,the Text Retrieval Conference(),用小規模的、有組織結構的 *** 作為它們的基準。
大型文集基準只有20GB,相比之下,我們抓到的24000000個(gè)網(wǎng)頁(yè)占147GB。
在TREC上工作良好的系統,在Web上卻不一定產(chǎn)生好的結果。
例如,標準向量空間模型企圖返回和查詢(xún)請求最相近的文檔,把查詢(xún)請求和文檔都看作由出現在它們中的詞匯組成的向量。
在Web環(huán)境下,這種策略常常返回非常短的文檔,這些文檔往往是查詢(xún)詞再加幾個(gè)字。
例如,查詢(xún)“Bill Clinton”,返回的網(wǎng)頁(yè)只包含“Bill Clinton Sucks”,這是我們從一個(gè)主要搜索引擎中看到的。
網(wǎng)絡(luò )上有些爭議,用戶(hù)應該更準確地表達他們想查詢(xún)什么,在他們的查詢(xún)請求中用更多的詞。
我們強烈反對這種觀(guān)點(diǎn)。
如果用戶(hù)提出象“Bill Clinton”這樣的查詢(xún)請求,應該得到理想的查詢(xún)結果,因為這個(gè)主題有許多高質(zhì)量的信息。
象所給的例子,我們認為信息檢索標準需要發(fā)展,以便有效地處理Web數據。
3.2有組織結構的 *** (Well Controlled Collections)與Web的不同點(diǎn) Web是完全無(wú)組織的異構的大量文檔的 *** 。
Web中的文檔無(wú)論內在信息還是隱含信息都存在大量的異構性。
例如,文檔內部就用了不同的語(yǔ)言(既有人類(lèi)語(yǔ)言又有程序),詞匯([email]地址,鏈接,郵政編碼,**號碼,產(chǎn)品號),類(lèi)型(文本,HTML,PDF,圖像,聲音),有些甚至是機器創(chuàng )建的文件(log文件,或數據庫的輸出)。
可以從文檔中推斷出來(lái),但并不包含在文檔中的信息稱(chēng)為隱含信息。
隱含信息包括來(lái)源的信譽(yù),更新頻率,質(zhì)量,訪(fǎng)問(wèn)量和引用。
不但隱含信息的可能來(lái)源各種各樣,而且被檢測的信息也大不相同,相差可達好幾個(gè)數量級。
例如,一個(gè)重要主頁(yè)的使用量,象Yahoo 每天瀏覽數達到上百萬(wàn)次,于此相比無(wú)名的歷史文章可能十年才被訪(fǎng)問(wèn)一次。
很明顯,搜索引擎對這兩類(lèi)信息的處理是不同的。
Web與有組織結構 *** 之間的另外一個(gè)明顯區別是,事實(shí)上,向Web上傳信息沒(méi)有任何限制。
靈活利用這點(diǎn)可以發(fā)布任何對搜索引擎影響重大的信息,使路由阻塞,加上為牟利故意操縱搜索引擎,這些已經(jīng)成為一個(gè)嚴重的問(wèn)題。
這些問(wèn)題還沒(méi)有被傳統的封閉的信息檢索系統所提出來(lái)。
它關(guān)心的是元數據的努力,這在Web搜索引擎中卻不適用,因為網(wǎng)頁(yè)中的任何文本都不會(huì )向用戶(hù)聲稱(chēng)企圖操縱搜索引擎。
甚至有些公司為牟利專(zhuān)門(mén)操縱搜索引擎。
4 系統分析(System Anatomy)首先,我們提供高水平的有關(guān)體系結構的討論。
然后 ,詳細描述重要的數據結構。
最后,主要應用:抓網(wǎng)頁(yè),索引,搜索將被嚴格地檢查。
Figure 1. High Level Google Architecture 4.1Google體系結構概述這一節,我們將看看整個(gè)系統是如何工作的(give a high level),見(jiàn)圖1。
本節不討論應用和數據結構,在后幾節中討論。
為了效率大部分Google是用c或c++實(shí)現的,既可以在Solaris也可以在Linux上運行。
Google系統中,抓網(wǎng)頁(yè)(下載網(wǎng)頁(yè))是由幾個(gè)分布式crawlers完成的。
一個(gè)URL服務(wù)器負責向crawlers提供URL列表。
抓來(lái)的網(wǎng)頁(yè)交給存儲服務(wù)器storeserver。
然后,由存儲服務(wù)器壓縮網(wǎng)頁(yè)并把它們存到知識庫repository中。
每個(gè)網(wǎng)頁(yè)都有一個(gè)ID,稱(chēng)作docID,當新URL從網(wǎng)頁(yè)中分析出時(shí),就被分配一個(gè)docID。
由索引器和排序器負責建立索引index function。
索引器從知識庫中讀取文檔,對其解壓縮和分析。
每個(gè)文檔被轉換成一組詞的出現情況,稱(chēng)作命中hits。
Hits紀錄了詞,詞在文檔中的位置,最接近的字號,大小寫(xiě)。
索引器把這些hits分配到一組桶barrel中,產(chǎn)生經(jīng)過(guò)部分排序后的索引。
索引器的另一個(gè)重要功能是分析網(wǎng)頁(yè)中所有的鏈接,將有關(guān)的重要信息存在鏈接描述anchors文件中。
該文件包含了足夠的信息,可以用來(lái)判斷每個(gè)鏈接鏈出鏈入節點(diǎn)的信息,和鏈接文本。
URL分解器resolver閱讀鏈接描述anchors文件,并把相對URL轉換成絕對URL,再轉換成docID。
為鏈接描述文本編制索引,并與它所指向的docID關(guān)聯(lián)起來(lái)。
同時(shí)建立由docID對組成的鏈接數據庫。
用于計算所有文檔的PageRank值。
用docID分類(lèi)后的barrels,送給排序器sorter,再根據wordID進(jìn)行分類(lèi),建立反向索引inverted index。
這個(gè)操作要恰到好處,以便幾乎不需要暫存空間。
排序器還給出docID和偏移量列表,建立反向索引。
一個(gè)叫DumpLexicon的程序把這個(gè)列表和由索引器產(chǎn)生的字典結合在一起,建立一個(gè)新的字典,供搜索器使用。
這個(gè)搜索器就是利用一個(gè)Web服務(wù)器,使用由DumpLexicon所生成的字典,利用上述反向索引以及頁(yè)面等級PageRank來(lái)回答用戶(hù)的提問(wèn)。
4.2主要數據結構經(jīng)過(guò)優(yōu)化的Google數據結構,能夠用較小的代價(jià)抓取大量文檔,建立索引和查詢(xún)。
雖然近幾年CPU和輸入輸出速率迅速提高。
磁盤(pán)尋道仍然需要10ms。
任何時(shí)候Google系統的設計都盡可能地避免磁盤(pán)尋道。
這對數據結構的設計影響很大。
4.2.1大文件大文件BigFiles是指虛擬文件生成的多文件系統,用長(cháng)度是64位的整型數據尋址。
多文件系統之間的空間分配是自動(dòng)完成的。
BigFiles包也處理已分配和未分配文件描述符。
由于操縱系統不能滿(mǎn)足我們的需要,BigFiles也支持基本的壓縮選項。
4.2.2知識庫 Figure 2. Repository Data Structure 知識庫包含每個(gè)網(wǎng)頁(yè)的全部HTML。
每個(gè)網(wǎng)頁(yè)用zlib(見(jiàn)RFC1950)壓縮。
壓縮技術(shù)的選擇既要考慮速度又要考慮壓縮率。
我們選擇zlib的速度而不是壓縮率很高的bzip。
知識庫用bzip的壓縮率接近4:1。
而用zlib的壓縮率是3:1。
文檔一個(gè)挨著(zhù)一個(gè)的存儲在知識庫中,前綴是docID,長(cháng)度,URL,見(jiàn)圖2。
訪(fǎng)問(wèn)知識庫不需要其它的數據結構。
這有助于數據一致性和升級。
用其它數據結構重構系統,我們只需要修改知識庫和crawler錯誤列表文件。
4.2.3文件索引文件索引保存了有關(guān)文檔的一些信息。
索引以docID的順序排列,定寬ISAM(Index sequential access mode)。
每條記錄包括當前文件狀態(tài),一個(gè)指向知識庫的指針,文件校驗和,各種統計表。
如果一個(gè)文檔已經(jīng)被抓到,指針指向docinfo文件,該文件的寬度可變,包含了URL和標題。
否則指針指向包含這個(gè)URL的URL列表。
這種設計考慮到簡(jiǎn)潔的數據結構,以及在查詢(xún)中只需要一個(gè)磁盤(pán)尋道時(shí)間就能夠訪(fǎng)問(wèn)一條記錄。
還有一個(gè)文件用于把URL轉換成docID。
它是URL校驗和與相應docID的列表,按校驗和排序。
要想知道某個(gè)URL的docID,需要計算URL的校驗和,然后在校驗和文件中執行二進(jìn)制查找,找到它的docID。
通過(guò)對這個(gè)文件進(jìn)行合并,可以把一批URL轉換成對應的docID。
URL分析器用這項技術(shù)把URL轉換成docID。
這種成批更新的模式是至關(guān)重要的,否則每個(gè)鏈接都需要一次查詢(xún),假如用一塊磁盤(pán),322‘000’000個(gè)鏈接的數據 *** 將花費一個(gè)多月的時(shí)間。
4.2.4詞典詞典有幾種不同的形式。
和以前系統的重要不同是,詞典對內存的要求可以在合理的價(jià)格內。
現在實(shí)現的系統,一臺256M內存的機器就可以把詞典裝入到內存中。
現在的詞典包含14000000詞匯(雖然一些很少用的詞匯沒(méi)有加入到詞典中)。
它執行分兩部分—詞匯表(用null分隔的連續串)和指針的哈希表。
不同的函數,詞匯表有一些輔助信息,這超出了本文論述的范圍。
4.2.5 hit list hit list是一篇文檔中所出現的詞的列表,包括位置,字號,大小寫(xiě)。
Hit list占很大空間,用在正向和反向索引中。
因此,它的表示形式越有效越好。
我們考慮了幾種方案來(lái)編碼位置,字號,大小寫(xiě)—簡(jiǎn)單編碼(3個(gè)整型數),緊湊編碼(支持優(yōu)化分配比特位),哈夫曼編碼。
Hit的詳細信息見(jiàn)圖3。
我們的緊湊編碼每個(gè)hit用2字節。
有兩種類(lèi)型hit,特殊hit和普通hit。
特殊hit包含URL,標題,鏈接描述文字,meta tag。
普通hit包含其它每件事。
它包括大小寫(xiě)特征位,字號,12比特用于描述詞在文檔中的位置(所有超過(guò)4095的位置標記為4096)。
字號采用相對于文檔的其它部分的相對大小表示,占3比特(實(shí)際只用7個(gè)值,因為111標志是特殊hit)。
特殊hit由大小寫(xiě)特征位,字號位為7表示它是特殊hit,用4比特表示特殊hit的類(lèi)型,8比特表示位置。
對于anchor hit八比特位置位分出4比特用來(lái)表示在anchor中的位置,4比特用于表明anchor出現的哈希表hash of the docID。
短語(yǔ)查詢(xún)是有限的,對某些詞沒(méi)有足夠多的anchor。
我們希望更新anchor hit的存儲方式,以便解決地址位和docIDhash域位數不足的問(wèn)題。
版權聲明: 本站僅提供信息存儲空間服務(wù),旨在傳遞更多信息,不擁有所有權,不承擔相關(guān)法律責任,不代表本網(wǎng)贊同其觀(guān)點(diǎn)和對其真實(shí)性負責。如因作品內容、版權和其它問(wèn)題需要同本網(wǎng)聯(lián)系的,請發(fā)送郵件至 舉報,一經(jīng)查實(shí),本站將立刻刪除。