imagery是什么意思,imagery中文翻譯,imagery發(fā)音、用法及例句
?imagery
imagery發(fā)音
英:['?m?d??r?] 美:[??m?d?r?]
英: 美:
imagery中文意思翻譯
n.意象, 肖像, 圖像, 比喻
imagery詞形變化
名詞復數: imageries |
imagery常見(jiàn)例句
1 、His poetry abounds in imagery.───他的詩(shī)富于形象。
2 、In what seemed a logical extension, we have tried, a bit naively, to use macroscopic imagery to describe submicroscopic entities.───似乎是作為這種做法的一種邏輯**,我們有點(diǎn)天真地試圖用宏觀(guān)形象來(lái)描述亞微觀(guān)體。
3 、The number of wind imagery in the North Dynasty's poems was not very much , but had its own naivete style.───北朝詩(shī)中的風(fēng)意象數量不多,但有著(zhù)質(zhì)樸剛健的獨特風(fēng)格,它們與西晉以來(lái)綿延不斷的悲情風(fēng)意象一起,代表了此期風(fēng)意象傳統的一面。
4 、Despite the beautiful imagery, it's not certain that each posturing pair is actually a mated pair.───盡管**表現得盡善盡美,但實(shí)際上并不一定每一對在鏡頭前展現風(fēng)姿的都是情侶。
5 、"Love is blind." It is one of the most familiar imagery in English.───“愛(ài)情是盲目的”這句話(huà)是英語(yǔ)中最為人所熟悉的比喻之一。
6 、Public users have access to regional ice charts &bulletins, weather analysis &forecasts, marine forecasts, weather models and the satellite imagery.───公眾用戶(hù)能夠進(jìn)入區域冰圖表和公報、天氣分析與預測、海上預報、天氣模型和衛星圖像。
7 、Yeah, I'm very uncomfortable with that imagery.─── 是啊 那惡心的畫(huà)面讓我很不舒服
8 、Dual Coding Theory; reading process; mental imagery; affective responses; language concreteness.───01雙重代碼理論;閱讀過(guò)程;意象;情感反應;語(yǔ)言的具體性
9 、One scene of ERS-2 SLC imagery was selected as major test data and Ground Control Points (GCP) were manually collected.───從中選擇了一景ERS-2 SLC數據作為主要實(shí)驗數據,并手工采集了控制點(diǎn)。
10 、Q4.What is Imagery (the common word in review of poem) in your opinion?───你認為的“意象”(詩(shī)論中常用詞)是什么?
11 、Euphemisms are a means through which a culture may alter its imagery and by so doing subtly change its style, its priorities, and its values.───委婉表達是一種方式,通過(guò)這種方式,文化可以改變其表意,并據此微妙地改變這種文化的風(fēng)格、優(yōu)先權和價(jià)值。
12 、Yet in the long run such concerns could boost the desire for products that combine modern hygiene with unsullied, back-to-the-land imagery.───在很長(cháng)一段時(shí)間里,人們對于合乎現代衛生標準的無(wú)污染、純天然產(chǎn)品的需求將會(huì )增加。
13 、A style using subco cious mental activity as its subject matter, characterized by dreamlike, hallucinatory imagery.───將下意識的精神活動(dòng)作為描寫(xiě)對象,多運用夢(mèng)幻意象的藝術(shù)形式。
14 、Imagery conversing technique was dan gerous to some degree because it contacted directly the deep personality of the client.───但意象對話(huà)技術(shù)可以直接面對來(lái)訪(fǎng)者人格的深層面,這在一定程度上存在危險性。
15 、But, this time we get social messages and metaphorical imagery.───但這出**卻包含一些社會(huì )信息和對社會(huì )的隱喻。
16 、The imagery network is born out of Buddha culture, but it is ended with more aesthetic modern meaning.───《野草》中的這個(gè)意象網(wǎng)絡(luò )脫胎于佛家文化,但被魯迅賦予了更具審美質(zhì)感的現代意蘊。
17 、I believe the imagery speaks for itself.─── 我相信圖像本身就能說(shuō)明問(wèn)題
18 、There is typically a 0-3 hour outage of imagery each day as GOES progresses through eclipse season.───在整個(gè)星蝕季節每天通常有這樣0-3個(gè)小時(shí)的停機。
19 、But for white viewers, this sort of imagery encourages a fantasy.───但是,對于白人觀(guān)眾來(lái)說(shuō),這種想像助長(cháng)了人們的幻覺(jué)。
20 、With the drone imagery you can see a tremendous amount more detail than you can see with the satellite imagery.─── 通過(guò)無(wú)人機圖像 你可以看到 比衛星圖像更詳細的細節
21 、Imagery and Habitability in Urban Design: Can these Two Functions be Reconciled?───城市設計中的形象性與適居性可以兼顧嗎?
22 、I checked satellite imagery of your property.─── 我查了你們住所的衛星圖像
23 、In fact, this metaphor is part of a pattern of fire imagery that involves two other related terms as well.───實(shí)際上,這個(gè)詞屬于火的一組類(lèi)比,相關(guān)詞匯另有兩個(gè)。
24 、He says the United States is providing satellite imagery to help aid the search.───他還說(shuō),美國提供衛星圖像協(xié)助搜尋。
25 、Official newspapers were probably glad not to have to second-guess censors' concerns about that kind of imagery.───官方報紙可能會(huì )很高興地看到市民們對這樣的情形不感到擔心。
26 、The word "designer" has become an adjective loaded with the symbolism and imagery of the consumer society.───“名牌”這個(gè)詞已成為一個(gè)形容詞,包含消費社會(huì )的象征和形象化的意思。
27 、"Ice Age: Dawn of the Dinosaurs" impresses with vibrant CGI imagery and animation by the wizards at Blue Sky Studios.───“冰河時(shí)代:恐龍的黎明”通過(guò)藍天工作室的魔法,以其令人震撼的CGI圖像和動(dòng)畫(huà)制作給人留下深刻的印象。
28 、He draws diction, style and imagery from works of Shakespeare, Milton and Dante.───他在措詞,風(fēng)格和比喻上都參考了莎士比亞,彌爾頓和但丁的作品。
29 、Abstract: Phase Congruency was introduced as a new method to detect features from high-resolution remotely sensed imagery.───中文摘要: 精確檢測圖像邊緣特征是進(jìn)行高分辨率遙感圖像分割和識別的關(guān)鍵。
30 、Use visual and mental imagery of yourself achieving and surpassing your goals.───從視覺(jué)上、心理上暗示你自己達到或超過(guò)你的目標。
31 、Experiments on visible/near-infrared OMIS-I hyperspectral imagery justify the effectiveness of the algorithm.───使用可見(jiàn)光/近紅外波段OMIS-I高光譜圖像進(jìn)行了實(shí)驗,實(shí)驗結果證明了算法的有效性。
32 、It was this rich mass of imagery and allegory that the Zohar contains that served as the inspiration for all subsequent generations of Kabbalists.───它就是《光明篇》包含的更多豐富的比喻和寓言適合作為所有卡巴拉學(xué)家后代的靈感。
33 、It was only then that the Radarsat 2 satellite, which gives us very high resolution imagery, could be used.───“雷達2號衛星”提供給我們高分辨率的照片,這對身處冰天雪地的我們來(lái)說(shuō)是一個(gè)極佳的開(kāi)始。
34 、The Transformers were created with a mix of computer-generated imagery (from Industrial Light &Magic and Digital Doman) and props (from KNB Effects).───變形金剛的設計是通過(guò)計算機三維模型(工業(yè)光魔公司和數字域共同完成)和實(shí)際模型(KNB特效公司完成)兩種方式混合完成的。
35 、For example, in holographic imagery the speckle pattern corresponds to troublesome background noise.───例如,在全息照相中,斑紋圖樣相當于討厭的背景噪聲。
36 、If we step between him and his past, it could fragment the imagery.─── 如果我們介入他和他的過(guò)去之間 有可能破壞他所回憶起的畫(huà)面
37 、Their early films tried to convey revolutionary propaganda through grotesque and fantastic imagery.───他們早期的**試圖通過(guò)離奇古怪異想天開(kāi)的形象來(lái)進(jìn)行革命宣傳。
38 、The author's imagery mystifies me.───作者的比喻令我迷惑。
39 、Christlike vagrant wanders through a perverse and grotesque land filled with religious and sacrilegious imagery.───一個(gè)長(cháng)得像基督的流浪漢在一個(gè)充滿(mǎn)宗教和瀆圣景象的怪異墮落之地游蕩。
40 、Stuart Anstee, “Removal of Range-dependant Artifacts from Sidescan Sonar Imagery,” DSTO Aeronautical and Maritime Research Laboratory, 2001.───吳聲瑋,“墾丁附近海域珊瑚礁分布現況之調查與研究”,國立中山大學(xué)海洋環(huán)境及工程研究所碩士論文,民94.6。
41 、Kandinsky produced __ art characterized by imagery that had a musical quality.───康定斯創(chuàng )作的__作品有一種音樂(lè )美。
42 、O'Keeffe's imagery is concrete, but the consequence of her concise recounting shocks us to a new awareness.───奧基夫的意象是具體的,但她簡(jiǎn)要敘述沖擊的結果,我們到一個(gè)新的認識。
43 、Michael's aim was to produce mugs that looked alive with colour and imagery, and were cheaper to produce in capital costs and labour.───Michael的目標是生產(chǎn)具有色彩和形象從而外觀(guān)生動(dòng)的咖啡杯,而且在制作上比較節省費用和勞動(dòng)。
44 、Unfortunately, this imagery and language colors our thinking more than we might admit.───不幸的是,這種比喻和語(yǔ)言嚴重歪曲了我們的思維。
45 、Lesploitation :The use of sapphic imagery for commercial purposes.───使用帶有拉拉信息圖像以達到商業(yè)目的;
46 、Magic, on the sea as the sea-and mountain fog is illusionary imagery ever imagined is granted!───奇妙之處,就在似海非海,山峰云霧相幻化,意象萬(wàn)千,想象更是萬(wàn)萬(wàn)千千!
47 、The rigor geometric model based on affine transform is a good algorithm for optic imagery with few GCPs.───嚴密投影仿射變換模型是針對少地面控制點(diǎn)的星載光學(xué)影像的一種有效的校正算法;
48 、In response, alternative analysis techniques are under development which take advantage of improved IR camera imagery.───因此,基于改進(jìn)紅外攝像技術(shù)的紅外決策分析技術(shù)正在研究之中。
49 、Try to associate your brand with positive imagery that can better remind your customers of who you are and what you are trying to achieve.───努力使你的品牌和積極的意象相關(guān)聯(lián),這些積極的意象能很好地提醒你的顧客你是誰(shuí)以及你正努力做什么。
50 、Home and business units create imagery with a single DLP chip and a color wheel [see illustration below].───家用與商用機種內有一個(gè)DLP晶片與一個(gè)旋轉色輪;
51 、The discussion of her petrifaction imagery in Dickinson’s literary works can be divided into six parts.───全文針對詩(shī)人作品中,對石化意像的討論,可分為六部份。
52 、Early this year the publication of commercial satellite imagery explained the coyness.───今年早些時(shí)候公布的商業(yè)衛星圖片解釋了這種三緘其口。
53 、Clouds are a powerful logo, conjuring imagery of dreams, creativity and playfulness.───云狀物是一個(gè)極有表現力的標志,憑空幻化意象,即有創(chuàng )造性,又很好玩。
54 、There is sufficient exit pupil distance to match simulator exit pupil to the LWIR imagery system entrance pupil.───在滿(mǎn)足設計指標的前提下,和變焦系統相比,該光學(xué)系統結構簡(jiǎn)單、成本低、可行性高。
55 、It's almost overwhelming to see all this imagery of him.─── 各種關(guān)于他的畫(huà)像簡(jiǎn)直讓人眼花繚亂
56 、Double imagery was extremely popular during the eighteenth, nineteenth, and twentieth centuries.───雙面畫(huà)像在十八,十九,及二十世紀相當流行。
57 、Detection of dim targets in FLIR imagery using multiscale transforms.───基于分形理論的紅外圖像邊緣檢測。紅外技術(shù)。
58 、Symmetry Waveforms.Ideally, each human face is bilaterally symmetrical when viewed in either visual or IR imagery.───對稱(chēng)波形技術(shù)在理想狀況下,無(wú)論是可見(jiàn)光圖像還是紅外圖像中每個(gè)人臉都是兩側對稱(chēng)的。
59 、First, jing Literary School's imagery is different from Chinese classical poetry and the Western imagism.───京派意象是中國傳統詩(shī)藝與西方象征主義、意象派等詩(shī)學(xué)思潮相融合的產(chǎn)物。
60 、I'm talking to him to calm him down which is improving our imagery.─── 我和他說(shuō)話(huà)是想安慰他 這對成像有利
61 、It recognizes the power of personal imagery and symbols, and encourages the use of unconvential cures that have great personal significance to you.───它能識別個(gè)人形象和符號的力量,并鼓舞使用非傳統的但是對某個(gè)個(gè)體有顯著(zhù)影響的方法。
62 、Warhammer's imagery and style are influenced heavily by gritty, classic fantasy authors, such as Michael Moorcock, Robert E.Howard, and H.───在傳遞過(guò)程中我首先把自已服用產(chǎn)品前后健康情況的好轉變化,從產(chǎn)品原料和作用。。。。
63 、His great achievement lies in his efforts to blend Celtic and English cultures together and in his imagery of mythological poetic world.───他的功績(jì)在于他把凱爾特文化和英國文化糅合進(jìn)他的充滿(mǎn)幻想的神話(huà)般的詩(shī)歌世界之中。
64 、Imagery and Habitability in Urban Design:Can these Two Functions be Reconciled?───城市設計中的可居住性與城市形象:兩者能否協(xié)調?
65 、Students will study in detail medical acupuncture, homeopathy. osteopathic manipulation and guided imagery.───學(xué)生們將詳細學(xué)習針灸、順勢療法、骨療手法以及暗示療法。
66 、Marosi uses his early childhood experience to transform the mundane into spectacular, bold imagery.───他運用這些兒時(shí)的回憶和體驗把現實(shí)景物轉化成大膽精彩的想象。
67 、International Society for Mental Imagery Techniques in Psychotherapy and Psychology?───國際心智圖技術(shù)學(xué)會(huì )
68 、Users recognize the imagery of the metaphor and, by extension, can presumably understand the purpose of the thing.───即用于描繪事物目的和特征的圖片,用戶(hù)識別隱喻的圖像通過(guò)外延理解事物的目的。
69 、Her very normativeness is being demonstrated as a facade for Hitchcock's mocking imagery.───(4)她的一本正經(jīng)做派,使希區柯克的影片又加深了一層嘲弄色彩。
70 、Most of her poems abound in imagery.───她的詩(shī)歌大多數富于形象。
71 、Surrounded by fantastic imagery and evocative of medieval center and the park of monti sibillini.───Sarnano -配有 會(huì )議設施 的酒店:The Hotel is located in the panoramic position.
72 、I find your imagery both colorful and accurate.─── 我覺(jué)得你的比喻既有畫(huà)面感又很準確
73 、A few other techniques you might find in a speechwriter's toolbox might be the use of imagery, anecdotes and alliteration.───其他一些可能會(huì )在一個(gè)撰稿人的工具箱中發(fā)現的,可能是可以使用圖像,軼事和頭韻。
74 、That's what I do best verbal imagery.─── 這是我的專(zhuān)長(cháng)啊 文字意象
75 、Lowliness and Commonness, this is a visualize body of own imagery, it is a most direct education deal from the universe.───卑微與平凡,這是一個(gè)自喻的形象,是宇宙給予的最直接的訓導。
76 、Interested in all was happening at the time,Herge collected a century's worth of mythic andhistoric imagery.───憑借對那個(gè)時(shí)代發(fā)生的大事的濃厚興趣,埃爾熱將歷史時(shí)間和虛構情節巧妙結合。
77 、Firstly,the accurate contour of the target in SAR imagery is extracted after the image segmentation based on Markov Random Field(MRF)model.───利用基于馬爾可夫隨機場(chǎng)(MRF)的圖像分割提取準確的目標成像輪廓。
78 、A fantastic sequence of haphazardly associative imagery, as seen in dreams or fever.───幻覺(jué)效應一連串偶然聯(lián)想的幻景,如在夢(mèng)中或發(fā)燒時(shí)
79 、He argued that Shakespeare's plays were patterns of imagery.───他認為莎士比亞的劇本是形象塑造的典范。
80 、I'm pulling up satellite imagery of the area.─── 我來(lái)調出那個(gè)區域的衛星圖像
81 、A style that emphasizes Christian imagery, brilliant color, and strong verticality in composition.───以基督教題材、亮麗的色彩、明顯的垂直線(xiàn)條為特點(diǎn)的繪畫(huà)風(fēng)格。流行于12至16世紀。
82 、Kandinsky produced nonfigurative art characterized by imagery that had a musical quality.───康定斯創(chuàng )作的抽象作品有一種音樂(lè )美。
83 、A style using subconscious mental activity as its subject matter, characterized by dreamlike, hallucinatory imagery.───將下意識的精神活動(dòng)作為描寫(xiě)對象,多運用夢(mèng)幻意象的藝術(shù)形式。
84 、Kandi ky produced a tract art characterized by imagery that had a musical quality.───康定斯創(chuàng )作的抽象派作品有一種音樂(lè )美。
85 、Use imagery that can help consumers remember your brand whenever they see things that can point back to you.───使用那些能幫助你的顧客在看到指向你的事物時(shí)就能想起你的品牌的意象。
86 、The result shows that the method is better for SAR imagery speckle redution.───實(shí)驗表明,所提出的圖像濾波方法能夠更好地抑制雷達圖像的斑點(diǎn)噪聲。
87 、She refuses to mask her real face behind imagery.───她拒絕掩飾她形象后面的真實(shí)臉面。
88 、The experimental group received training on imagery mnemonics, while the control group received the thinking method training unrelated to mnemonics.───圖像記憶術(shù)使用視覺(jué)心像作為策略,使儲存更有效率,進(jìn)而增加整個(gè)工作記憶的容量。
89 、Can people feel safe in their own backyards when real-time satellite imagery is being collected from overhead?───如果人們待在自家后院時(shí)有一個(gè)實(shí)時(shí)衛星正在頭頂掃描,他們會(huì )有安全感嗎?
90 、A style using subconscious mental activity as its subject matter,characterized by dreamlike,halluncinatoyy imagery.───將下意識的精神活動(dòng)描寫(xiě)對象,多運用夢(mèng)幻意象的藝術(shù)形式。
如何成為?Kaggle頂級大師?
Vladimir I. Iglovikov 是一名 Kaggle 頂級大師(Grandmaster),曾獲得過(guò) Carvana 圖像遮蔽挑戰的冠軍,以及 Dstl 衛星圖像特征檢測挑戰的第三名。他曾在 UC Davis 獲得過(guò)理論凝聚態(tài)物理學(xué)博士的學(xué)位,現在是一名 Lyft 的計算機視覺(jué)工程師,主要研究自動(dòng)駕駛。
最近,Vladimir 分享了自己成為 Kaggle 高手的經(jīng)驗。目前,Kaggle 注冊用戶(hù)數量已超 100 萬(wàn),其中只有 124 人擁有 Grandmaster 頭銜,如何成為全球排名前千分之一的數據科學(xué)家?讓我們看看他是怎么說(shuō)的。
我叫 Vladimir,本科畢業(yè)并獲得理論物理學(xué)位后搬到了硅谷,從事數據科學(xué)相關(guān)的工作。我當前在 Lyft 公司的自動(dòng)駕駛部門(mén)工作,研究與計算機視覺(jué)相關(guān)的應用。
過(guò)去幾年來(lái),我花了很多時(shí)間參加關(guān)于機器學(xué)習的比賽。這樣做是因為,一方面我覺(jué)得它本身很好玩,而另一方面,我覺(jué)得這是一種非常高效的數據科學(xué)技能提升方法。當然,不是所有的比賽都很容易,我也不是在每場(chǎng)比賽中都能獲得好成績(jì)。但時(shí)不時(shí)地參加這些比賽,讓我不斷地提高了自己的相關(guān)技能,甚至最終獲得了 Kaggle Grandmaster 的稱(chēng)號。
我要向 @Lasteg 表示感謝,是他提議我參加這期的 AMA(Ask Me Anything session)并在 Reddit、kaggle、science.d3.ru(in Russian)上收集問(wèn)題。他收集有很多問(wèn)題,我會(huì )盡我所能去回答,但沒(méi)辦法在本篇博客中解決所有問(wèn)題。如果你的疑問(wèn)未能在本文獲得解答,可以在評論中留言。
以下是我(或我的團隊)有幸躋身排行榜前列的一些深度學(xué)習挑戰:
在 Ultrasound Nerve Segmentation 中獲得第十名
在 Dstl Satellite Imagery Feature Detection 中獲得第三名
在 Safe passage: Detecting and classifying vehicles in aerial imagery 中獲得第二名
在 Kaggle: Planet: Understanding the Amazon from Space 中獲得第七名
在 MICCAI 2017: Gastrointestinal Image ANAlysis (GIANA) 中獲得第一名
在 MICCAI 2017: Robotic Instrument Segmentation 中獲得第一名
在 Kaggle: Carvana Image Masking Challenge 中獲得第一名
在 Kaggle: IEEE's Signal Processing Society—Camera Model Identification 中獲得第九名
在 CVPR 2018 Deepglobe. Road Extraction. 中獲得第二名
在 CVPR 2018 Deepglobe. Building Detection. 中獲得第二名
在 CVPR 2018 Deepglobe. Land Cover Classification. 中獲得第三名
在 MICCAI 2018: Gastrointestinal Image ANAlysis (GIANA) 中獲得第三名
Q:除了數據科學(xué)以外,您生活中喜歡做些什么?
A:當然,我喜歡徒步旅行、攀巖。如果你早上去 Mission Cliffs 攀巖館,見(jiàn)到我可以打個(gè)招呼。
我也喜歡跳舞,特別是 Bules Fusion。舊金山的 Misiion Fusion 和 South Bay Fusion 舞蹈產(chǎn)地是我經(jīng)常去的。
旅行對我來(lái)說(shuō)很重要。春天的時(shí)候我去了白俄羅斯、摩洛哥、約旦。九月,我在芬蘭、德國、奧地利呆了三周。當然,2018 Burning Man 是今年最爽的活動(dòng)。
Q:你如何在工作的同時(shí)花很多時(shí)間做 kaggle 呢?
A:對我來(lái)說(shuō),雖然沒(méi)有薪酬,但參加 Kaggle 比賽是我的第二職業(yè)。我這么做理由很充足?;钴S的 Kaggle 參與者追求領(lǐng)域的改變很常見(jiàn)。我也不例外。當我從學(xué)界轉向業(yè)界時(shí),我開(kāi)始參加比賽。我需要一個(gè)高效的方法來(lái)盡快熟悉 ML 需要解決的問(wèn)題,掌握那些工具,并將思維擴展機器學(xué)習的新領(lǐng)域。
后來(lái),當我在 Bidgely 開(kāi)始我的第一份工作之后,我參與的 Kaggle 賽事更多了。有段時(shí)間,我在研究信號處理任務(wù),同時(shí)幾乎將所有晚上的時(shí)間用來(lái)處理參加比賽用的表格數據。那段時(shí)間我的工作和生活有些失衡,但我獲得的知識卻是值得的。
再后來(lái),我做好準備換工作以后,加入了 TrueAccord,在那里我做了很多傳統的機器學(xué)習任務(wù)。但我不想停止對 Kaggle 的研究,所以我白天做的是傳統機器學(xué)習,晚上和周末研究深度學(xué)習。也因此,工作和生活更加無(wú)法保持平衡。但我學(xué)到了很多東西,獲得了很好的附加技能,成為了 Kaggle Master。當我加入 Lyft Level 5 時(shí),我知道所有這些努力都沒(méi)有白費,在這份工作里我將深度學(xué)習應用于自動(dòng)駕駛問(wèn)題上。
最終,我沒(méi)有全職做 Kaggle,但我仍在積極地學(xué)習。工作中有很多有趣的計算機視覺(jué)問(wèn)題,我正嘗試在 Kaggle 沒(méi)有涉足的領(lǐng)域里獲得更多的知識。我仍然時(shí)不時(shí)地向各種比賽提交參賽作品,但這主要是為了更好地理解其他參賽者正面臨的問(wèn)題和挑戰,這樣做反過(guò)來(lái)有助于我從論壇分享的信息中獲得很大的收益。
Q:幫助你提高工作效率的日常慣例是什么?你如何安排一天的行程?
A:首先,我不太確定自己是否高效,因為我總是在尋找新的辦法優(yōu)化工作方式。
需要解決的問(wèn)題和需要參與的活動(dòng)總是很多,但不是所有的都有用又好玩。所以我做什么事情都要優(yōu)先考慮。有兩本書(shū)對這個(gè)話(huà)題進(jìn)行了精彩的討論:《So Good They Can't Ignore You: Why Skills Trump Passion in the Quest for Work You Love》和《Deep Work: Rules for Focused Success in a Distracted World》。
工作日,我一般早上 6 點(diǎn)起床,然后去攀巖館。這樣做能幫助我保持身材并讓我一天都保持清醒。之后,我開(kāi)車(chē)去上班。我們的自動(dòng)駕駛工程中心位于 Palo Alto,這對我來(lái)說(shuō)有點(diǎn)憂(yōu)桑,因為我更喜歡住在市區。開(kāi)車(chē)很有趣,但通勤很煩。為了讓通勤時(shí)間更有效率,我會(huì )在車(chē)里聽(tīng)有聲讀物。開(kāi)車(chē)時(shí)當然沒(méi)法專(zhuān)心聽(tīng)書(shū),但在駕駛時(shí)聽(tīng)聽(tīng)這些文學(xué)、有關(guān)軟技能和商業(yè)的書(shū)總是不錯的。
我想好好把握工作和生活之間的平衡,但沒(méi)有做到。當然,我花了很多時(shí)間和朋友參加不同的活動(dòng),而且很多活動(dòng)是在舊金山。同時(shí),我仍需要學(xué)習;我還要保持機器學(xué)習的狀態(tài),不能把目光局限在工作中遇到的問(wèn)題上。所以我晚上有時(shí)候會(huì )閱讀技術(shù)文獻,或者為比賽、輔助項目和開(kāi)源項目編寫(xiě)代碼。
談到開(kāi)源項目,我想借此機會(huì )**一個(gè)圖像增強庫,該庫是由我和 Alexander Buslaev、Alex Parinov、Eugene Khvedchenia 一起基于我們有關(guān)視覺(jué)挑戰賽的研究創(chuàng )建的。
如果不闡述細節的話(huà),可能沒(méi)法說(shuō)清楚這個(gè)問(wèn)題:
我更喜歡 Ubuntu+i3 的電腦,而不是 MacBook,因為這樣能讓我的效率提升 10%。
我很少用 Jupyter notebook,僅用于 EDA 和可視化。幾乎所有的代碼我都是在 PyCharm 上寫(xiě)的,然后用 flake8 檢查,再傳到 GitHub 上。很多 ML 問(wèn)題都非常相似。找一個(gè)更好的代碼庫,而不是重復自己的代碼,然后思考如何最好地重構。這樣做雖然在開(kāi)始時(shí)進(jìn)展緩慢,但后面會(huì )加快你的進(jìn)步。
我正在嘗試編寫(xiě)單元測試。所有人都在討論單元測試在數據科學(xué)中的重要性,但很少有人花時(shí)間去寫(xiě)。Alex Parinov 寫(xiě)了一個(gè)很好的文檔(https://albumentations.readthedocs.io/en/latest/writing_tests.html),教你怎么從簡(jiǎn)單的測試做到復雜的測試。你可以嘗試一下,然后再你的學(xué)術(shù)或 Kaggle ML 流程中添加更多測試。
目前,我正在試用模型版本化工具 DVC,我希望它能增加我的 ML 流程的復現率和代碼的可重用率。
我很少用鼠標。因此我有時(shí)候需要在頁(yè)面上寫(xiě)熱鍵,然后盡可能多地使用它們。
我不使用社交網(wǎng)絡(luò )。
我一天僅查收幾次郵件。
我甚至會(huì )在早上列一個(gè)當日任務(wù)清單,然后解決它們。我使用 Trello 來(lái)做這個(gè)。
我不會(huì )把一天的時(shí)間分割得很亂。很多任務(wù)需要集中精力,而總是切換焦點(diǎn)沒(méi)什么用。
以上大概就我的一些工作標準了。
Q:你如何跟上這個(gè)領(lǐng)域的最新研究?
A:「跟上」這個(gè)詞對我也不太準確,機器學(xué)習領(lǐng)域近來(lái)很活躍,有關(guān)的論文數量、比賽、博客和書(shū)籍非常多,不可能全部瀏覽。實(shí)際上,當我遇到一些問(wèn)題時(shí),我會(huì )把注意力放在最新的研究上,并深入挖掘。解決完這個(gè)問(wèn)題后,我再轉向另一個(gè)問(wèn)題。因此,我只對那些我親身經(jīng)歷過(guò)的領(lǐng)域了解較深。同時(shí),我對研究過(guò)的問(wèn)題都有較深的專(zhuān)業(yè)知識,這個(gè)問(wèn)題清單很長(cháng),而且還在持續增加。這個(gè)事實(shí)也讓我確信,將自己編寫(xiě)并保存在私人存儲庫中的經(jīng)驗和代碼將有助于我快速開(kāi)始任何新的 ML 相關(guān)任務(wù)。
此外,這還意味著(zhù)我對很多問(wèn)題的處理方式都有大概的了解,這樣我下次面對類(lèi)似的問(wèn)題時(shí)心里也有譜。
我還參加過(guò)像 NIPS、CVPR 這樣的人工智能會(huì )議,在這些大會(huì )上展示的研究成果能夠很好地代表我們當前的研究水平。
Q:四五年前,在非機器學(xué)習領(lǐng)域拿到一個(gè)博士學(xué)位(如物理學(xué))對雇主是有利的。但現在的情況好像變了,非機器學(xué)習領(lǐng)域的博士學(xué)位和機器學(xué)習的碩士學(xué)位相比,IT/ML 行業(yè)更愿意選后者擔任機器學(xué)習工程師/開(kāi)發(fā)者職位,至于研究崗我不太清楚。您獲得了物理學(xué)博士學(xué)位,然后轉到機器學(xué)習領(lǐng)域,我認為您的經(jīng)歷可能適合回答這個(gè)問(wèn)題。
如果獲得非機器學(xué)習博士想轉到機器學(xué)習行業(yè),您對此有何看法?這有助于獲取企業(yè)內的研究職位嗎?與機器學(xué)習相關(guān)碩士相比有優(yōu)勢嗎?
A:這個(gè)問(wèn)題比較困難,我不知道答案。
物理學(xué)是一門(mén)偉大的學(xué)科。即使回到過(guò)去,可以在物理學(xué)和計算機科學(xué)之間進(jìn)行選擇,即使知道我最終會(huì )轉到計算機科學(xué)領(lǐng)域,我仍然會(huì )選擇物理學(xué)。
當然,主要原因是我對物理學(xué)和自然科學(xué)比較感興趣。機器學(xué)習能夠講授浩翰多彩宇宙的運行原理嗎?不能,但是物理學(xué)可以。不止如此。我的轉型之路相對容易的原因之一是物理學(xué),這門(mén)學(xué)科給予我的不僅是量子力學(xué)、相對論等知識,還有數學(xué)、統計學(xué)、編程技巧,這些技能有利于向其他領(lǐng)域的轉換。
物理學(xué)教會(huì )你如何在嚴謹理論和實(shí)驗之間以結構化的方式進(jìn)行轉換,這對機器學(xué)習從業(yè)者而言也是一項必備技能。另外,自學(xué)集合不可能學(xué)習物理學(xué)或高等數學(xué)。這點(diǎn)也是我的公司信條,即深度學(xué)習的下一個(gè)大突破將在我們明白如何將高等數學(xué)應用到機器學(xué)習中的時(shí)候出現?,F在具備大一水平的數學(xué)知識在計算機視覺(jué)領(lǐng)域已經(jīng)足夠了。
所有這些都意味著(zhù)目前數學(xué)不是攔路虎,這也是掌握了數學(xué)/物理學(xué)/化學(xué)和其他 STEM 學(xué)科的額外知識對于解決大部分商業(yè)問(wèn)題幾乎無(wú)用的原因,也是這些學(xué)科的畢業(yè)生轉行的原因。他們擁有大量專(zhuān)門(mén)知識,有博士學(xué)位,在學(xué)界待了很多年,但無(wú)法得到有趣且高薪的工作。網(wǎng)絡(luò )上到處是這種類(lèi)型的博客文章。
另一方面,能寫(xiě)代碼在各個(gè)地方都是必要的,這也是潛在雇主在了解數學(xué)的人和能寫(xiě)代碼的人中間幾乎總是選擇后者的原因。
但我認為這種情況會(huì )改變的。不是現在,是未來(lái)的某個(gè)時(shí)間點(diǎn)。
你讀的論文、你上的課可能與你在行業(yè)中所需的技能并不直接相關(guān),注意到這一點(diǎn)很重要。這是對的,但無(wú)傷大雅。
通常,在業(yè)界作為數據科學(xué)家或軟件開(kāi)發(fā)者工作所需的技能可以通過(guò)自學(xué)學(xué)習,不能在大學(xué)里學(xué)到。人們在工業(yè)界學(xué)到的大部分事情可以通過(guò)在某家公司的全職工作來(lái)獲取。
此外,找工作的同時(shí)還要寫(xiě)理論物理學(xué)論文、研究數據科學(xué),這對我來(lái)說(shuō)壓力太大了。
當時(shí),我并未掌握所有必備知識,我也不理解硅谷的運作和他們對我的期望。我基本上是一張白紙,我做的唯一一件事是不斷地把簡(jiǎn)歷投給不同的公司,不斷地面試,從每次失敗中學(xué)習,然后再繼續,直到面試成功。
我記得有一次面試官問(wèn)我畢業(yè)論文主題是什么,我當時(shí)在研究量子蒙特卡羅(Quantum Monte Carlo),我如實(shí)回答了這個(gè)問(wèn)題,然后盡力解釋它的意思以及我們?yōu)槭裁葱枰?。面試官看?zhù)我,問(wèn)了一句話(huà):「這項技術(shù)如何幫助我們提高客戶(hù)參與度?」
我想說(shuō)對于非計算機科學(xué)專(zhuān)業(yè)的人來(lái)說(shuō),最好的方法是參加計算機科學(xué)系內部的數據科學(xué)(DS)相關(guān)課程。業(yè)余時(shí)間學(xué)習 DS / ML。幸運的是,有很多資源。在自己院系中找到一個(gè)想使用機器學(xué)習解決自己?jiǎn)?wèn)題的教授也是個(gè)好主意。申請技術(shù)公司的 ML 相關(guān)實(shí)習崗位,拿到實(shí)習崗位比獲得全職工作容易一些。
實(shí)習后轉為正式崗就很直接了。比如我的朋友胡文健,他和我同一個(gè)研究小組研究物理學(xué),他先在 Facebook 實(shí)習,后來(lái)得到了 Facebook AI Research 的研究科學(xué)家職位。
不要高估專(zhuān)業(yè)、大學(xué)對找工作的影響。企業(yè)雇傭你時(shí),主要是付錢(qián)讓你解決他們面臨的問(wèn)題。你的學(xué)位和專(zhuān)業(yè)只是他們用來(lái)估計你能力的東西。如果你的簡(jiǎn)歷中沒(méi)有他們想看到的內容,那很難通過(guò) HR 的簡(jiǎn)歷篩選,對找工作很重要的人際關(guān)系網(wǎng)也會(huì )減弱,但這仍然不應該影響你決定自己學(xué)什么專(zhuān)業(yè)。
我的想法可能有點(diǎn)天真,但我覺(jué)得人們選擇自己專(zhuān)業(yè)的標準,不應該是高薪,而是熱情(passion)。
Q:你覺(jué)得數據科學(xué)/ML 中有趣的問(wèn)題是什么?我的碩士學(xué)位完成了一半,但我不知道以后要從事 ML 哪方面的工作。我和認為 Algo 創(chuàng )建與擴展是最好領(lǐng)域的人交談過(guò)(對于 DS / ML 應用程序而言,更可能是庫**件和 chug)。對此你有什么看法?或者關(guān)于職業(yè)靈活性的建議?
A:我認為 DS/ML 中有趣的問(wèn)題與當今主流相去甚遠。研究主流問(wèn)題的人太多。將 ML 應用于信用評分、推薦系統和零售等我都覺(jué)得很無(wú)聊。如果你用 DS/ML 來(lái)解決那些數學(xué)、物理、生物、化學(xué)、歷史、考古、地理問(wèn)題或者那些人們很少應用 ML 的問(wèn)題,你可能會(huì )找到下一個(gè)屬于你的 Purple Cow。
至于職業(yè)選擇,與生物或物理不同,你在 DS/ML 中學(xué)到的技能很容易從一個(gè)領(lǐng)域轉到另一個(gè)領(lǐng)域。當然,開(kāi)發(fā)銀行或對沖基金交易的算法和開(kāi)發(fā)自動(dòng)駕駛汽車(chē)不是一回事,但差別也沒(méi)有那么大。只要你基礎牢固,很快就能掌握必要的技能。
Q:30 歲(有學(xué)習背景,但不是 Math/CS 方面)加入 ML 社區是否為時(shí)已晚?是否有可能趕上末班車(chē)?如果可以,你覺(jué)得最低要求是什么?
A:當然不晚。90% 的 ML 只需要技術(shù)大學(xué)大一的數學(xué)知識,不需要超深的數學(xué)知識。DS 中使用最廣泛的語(yǔ)言是 Python 和 R 語(yǔ)言,這兩種語(yǔ)言比較高級,因此你可以從它們入手,而不是在技術(shù)細節方面死磕。
我建議參加一些 DS 的在線(xiàn)課程,然后研究一些 Kaggle 問(wèn)題。當然,很多概念聽(tīng)起來(lái)都很新,但你只要保持自律和專(zhuān)注,慢慢就會(huì )懂了。
這兒有兩個(gè)關(guān)于年齡的例子:
Kaggle Grandmaster Evgeny Patekha 40 歲才開(kāi)始數據科學(xué)研究。
Kaggle Grandmaster Alexander Larko 55 歲才開(kāi)始參加 Kaggle。
Q:你認為技術(shù)領(lǐng)域的正規基礎教育對獲得數據科學(xué)和 Kaggle 比賽的成功是必要的嗎?在你的工作經(jīng)歷中有沒(méi)有遇到相反的例子?
A:我只能說(shuō)這些很有用,但并非必要。很多在 Kaggle 中獲得成功的人并沒(méi)有技術(shù)領(lǐng)域的基礎教育背景。典型的例子就是 Mikel Bober-Irizar,他是一名 Kaggle Grandmaster,但還在念高中……
不過(guò)你要記住的另一件事是:你在 Kaggle 中學(xué)到的技能只是你將來(lái)在 ML 業(yè)界或學(xué)界所需技能的一小部分。而那些在 Kaggle 中無(wú)法學(xué)到的技能,基礎教育可以為你提供。
不過(guò)話(huà)說(shuō)回來(lái),就算沒(méi)有高中學(xué)歷你也能擅長(cháng) Kaggle。
Q:你用了多長(cháng)時(shí)間學(xué)習數據科學(xué)/機器學(xué)習,才成為了 Kaggle 高手?
A:我是在 2015 年 1 月決定轉向數據科學(xué)的。在這之后,我開(kāi)始在 Coursera 上學(xué)習線(xiàn)上課程。在當年 2 月底,我知道了 Kaggle 的存在并注冊了自己的賬號,兩個(gè)月之后我獲得了自己的第一個(gè)銀牌。
Q:使用家用臺式機不用云服務(wù)在 Kaggle 比賽里能得高分嗎?
A:我不在比賽中使用云服務(wù),但我家里有兩臺比較強力的計算機:一臺有 4 塊 GPU,另一臺有兩塊。你可以在沒(méi)有強大深度學(xué)習機器的情況下獲得 Kaggle 比賽的好成績(jì),但是缺乏算力的限制會(huì )使你在單位時(shí)間內嘗試思路的數量——而思路的數量和最終的結果密切相關(guān)。所以如果你以 24/7 的投入訓練模型,你就需要投資購買(mǎi)一臺好機器。
在幾代更新之后,我的開(kāi)發(fā)硬件最終變成了這樣:一臺 4GPU 的機器用于高負載,另一臺雙卡的機器用于原型設計。
僅有一臺強大的計算機還是不夠的,你需要學(xué)一些編程技巧,來(lái)利用它的算力。
我從 Keras 轉到 PyTorch 的一個(gè)原因是當時(shí)后者的 DataLoader 更加強大。
我們看到 imgaug 太慢了,于是寫(xiě)了 albumentations,以利用 100% 的 CPU 算力,不過(guò)它沒(méi)法充分利用 GPU。
如果想加速硬盤(pán)上 jpeg 圖像的吞吐速度,我們不應該使用 PIL、skimageand 甚至 OpenCV,而是應該用 libjpeg-turbo 或 PyVips。
其他
Q:對于從 Kaggle 競賽開(kāi)始數據科學(xué)家生涯的人,你對他們有什么建議嗎?特別是那些首次參加競賽的菜鳥(niǎo),有什么最好的建議?
A:有很多方式來(lái)參加 Kaggle 競賽,但根據我的觀(guān)察經(jīng)驗,獲取所需知識的最高效方法是使用黑客的方法。
觀(guān)看一些包含 Python 編程基礎和機器學(xué)習的在線(xiàn)課程。
參加一個(gè) Kaggle 競賽。如果你可以寫(xiě)出一個(gè)從數據到提交的端到端流程,這很好。如果你是新手,這可能很難。在這種情況下,可以去論壇復制粘貼別人共享的 kernel。
在你的計算機上運行,生成一個(gè)提交,在排行榜上獲取名次。在這一階段,操作系統、驅動(dòng)程序、庫版本、I/O 等問(wèn)題可能會(huì )讓你覺(jué)得很痛苦。你要盡快習慣。如果你不能理解 kernel 里寫(xiě)的什么,沒(méi)關(guān)系,問(wèn)題不大。
調整一些參數,隨便調也沒(méi)關(guān)系,重新訓練你的模型,提交預測。希望某些修改可以讓你的排名提升。不要擔心,很多人都是這么做的。他們都在做不同的調整,你不需要對相關(guān)知識或原理有深刻或直觀(guān)的理解。
為了超越周?chē)恼{參俠,你要發(fā)展出一種直覺(jué),并獲取關(guān)于什么方案可行、什么方案不可行的基礎知識,從而可以更加智能和高效地探索可能方法的相空間。在這一步,你需要將學(xué)習作為實(shí)驗的一部分。從兩個(gè)方向學(xué)習,首先是像 mlcourse.ai、CS231n、數學(xué)、統計學(xué)、如何寫(xiě)更好的代碼等基礎。一般來(lái)說(shuō),自主學(xué)習很難,但從長(cháng)期來(lái)看,這很重要。其次你會(huì )在相關(guān)問(wèn)題的論壇上看到很多新術(shù)語(yǔ)。記得注意這些術(shù)語(yǔ)。嘗試激勵自己在排行榜中取得更好成績(jì)作為外部動(dòng)力來(lái)學(xué)習新事物。但不要在學(xué)習和實(shí)驗之間進(jìn)行選擇,同時(shí)做兩件事。機器學(xué)習是一門(mén)應用科學(xué)。
在競賽結束之后,雖然付出了很大的努力,但你也很可能在排行榜上取得很低的名次。這不奇怪。好好閱讀論壇的內容,看看 winner 分享的解決方案,嘗試找出比之前更好的解決方案。下一次當你看到相似的問(wèn)題時(shí),你的起點(diǎn)會(huì )高得多。
在多個(gè)競賽中重復該過(guò)程,然后到達 top。更重要的是,你將對很多問(wèn)題擁有好的解決方案,并且對于如何處理在競賽中遇到的機器學(xué)習挑戰能夠發(fā)展良好的直覺(jué)。
Q:作為物理學(xué)背景的人,當競賽更多的是過(guò)擬合 vs 具體任務(wù)上的實(shí)際泛化效果時(shí),你會(huì )覺(jué)得挫敗嗎?如果會(huì ),那你會(huì )怎么處理?
A:通常,你需要過(guò)擬合數據和指標,以獲取好的結果。這沒(méi)什么問(wèn)題。人們在 ImageNet 數據集上過(guò)擬合了很多年,訓練過(guò)程中仍然會(huì )出現很多新知識。但是你需要理解指標和數據的細微之處,這是知識的來(lái)源。只要競賽過(guò)程中能夠得到新知識,那過(guò)擬合不會(huì )讓我覺(jué)得很挫敗。你可能注意到了,當你擅長(cháng)一個(gè)問(wèn)題的流程和想法時(shí),這些可以作為你下一個(gè)問(wèn)題的可靠基線(xiàn)模型,這表明了一定的泛化性。
Q:你對 Kaggle 的數據泄露(如 Santander、Airship prediction 和 Google Analytics)有什么看法?在 Kaggle 比賽中使用泄露的數據是否合乎道德?
A:我承認組織比賽很難,所以當發(fā)現數據泄露時(shí),我不會(huì )指責組織者。而人們利用泄露的數據參加比賽,我也覺(jué)得 OK。我承認數據泄露阻礙了我參與一次挑戰,但這主要是因為我無(wú)法輕易地把獲得的知識擴展到其它挑戰。我仍然認為 Kaggle 管理員需要創(chuàng )建一份可能會(huì )泄露的數據清單,并在比賽前檢查數據以防止同樣的事件一次又一次發(fā)生。我相信他們正在為此努力。
Q:Kaggle 比賽對做一名 DL 工程師有多大用處?
A:這很難說(shuō)。Kaggle 在一些重要但非常狹窄的領(lǐng)域提升你的技能。這是一個(gè)非常重要的技能組合,對某些職位可能非常有用,但對另一些來(lái)說(shuō)則幫助不大。而對我從事過(guò)的工作,尤其是現在從事的自動(dòng)駕駛來(lái)說(shuō),Kaggle 技能是我從學(xué)界和其它知識來(lái)源中獲取的有力加分項。
不過(guò),要掌握 Kaggle 技能,光有扎實(shí)的基礎并不夠。很多東西你只能從業(yè)界學(xué)習。
雖然成為 Kaggle Master 對你的工作來(lái)說(shuō)不是必需的,也并不代表你會(huì )在工作中做得很好。但我相信,如果你是 Kaggle Master,你的簡(jiǎn)歷會(huì )更容易通過(guò) HR 的篩選,然后有機會(huì )進(jìn)入技術(shù)展示階段。
Q:成為 Kaggle Grandmaster 之后繼續參加比賽還有什么用處?已經(jīng)成為數據科學(xué)家之后繼續前進(jìn)的動(dòng)力是什么?
A:正如我前面所說(shuō)的,我現在不再參加 Kaggle 比賽了,但我開(kāi)始關(guān)注很多會(huì )議上出現的挑戰賽。我的團隊在 MICCAI 2017、CVPR 2018 和 MICCAI 2018 取得了不錯的成績(jì)。競賽通常包括漂亮、干凈的數據集,這些數據需要的清理工作最少,可以讓你少關(guān)注數據,多關(guān)注數值技術(shù)。這是你在工作中通常沒(méi)有的奢侈品,數據選擇過(guò)程通常是創(chuàng )建實(shí)用流程的最重要的組成部分。
Q:你對于本科生和研究生的學(xué)習和競爭力有什么看法?什么水平才能真正掌握數據科學(xué)?
A:我甚至不知道是什么決定了數據科學(xué)。這個(gè)問(wèn)題有很多回答的方式,但在這里我們的主題是 Kaggle Grandmaster,所以讓我們把第一個(gè)里程碑設置為「Kaggle Master」。這是相對直接的標準,一旦你開(kāi)始朝著(zhù)這個(gè)方面努力,你就會(huì )對這一領(lǐng)域有更多的了解。
Q:如果沒(méi)有數學(xué)/計算機科學(xué)或其他一些高級計算課程教育背景,你在 Kaggle(或者更廣泛地說(shuō)是數據科學(xué)領(lǐng)域)上可以走多遠?激情和求知欲能帶你走多遠?
如果以目標為導向并且愿意學(xué)習,你可以在 Kaggle 或其他任何數據科學(xué)領(lǐng)域獲得最高成績(jì)。最艱難的是邁出第一步。Just do it!最好的時(shí)間是此時(shí)此刻,因為明天,通常意味著(zhù)永不。
沒(méi)有人問(wèn)過(guò)我這個(gè)問(wèn)題:在一場(chǎng)特定的比賽中,你是如何找到幫助你提高成績(jì)的人的?我覺(jué)得這是一個(gè)目前在博客中還沒(méi)有看到過(guò)的重要話(huà)題。
最常見(jiàn)的方法:一些朋友、同事對這個(gè)比賽很有熱情,他們聊這個(gè)比賽,一起開(kāi)會(huì )、討論問(wèn)題并組隊。一些人想做些事情;但另外一些忙于其他活動(dòng)。這種團隊可以往前走一段,但走不遠。
對于我以及其他一些參賽者來(lái)說(shuō)更好的方式有以下幾種:
1. 寫(xiě)出你的流程或平臺上分享的重構流程。
2. 這個(gè)流程應該以適當的格式將輸入數據映射到提交的文件中,并生成交叉驗證分數。
3. 驗證交叉驗證分數的改進(jìn)與排行榜上的改進(jìn)相關(guān)。
4. 執行探索性數據分析,仔細瀏覽論壇,閱讀論文、書(shū)籍和之前類(lèi)似競賽的解決方案。獨立工作。
5. 在某個(gè)時(shí)間點(diǎn),比如競賽截止前 2-4 周,你會(huì )陷入困境。什么想法都沒(méi)法改進(jìn)你的排名。你嘗試了一切,這時(shí)你需要新的想法來(lái)源。
6. 這時(shí)你可以看下排行榜,與排名接近的積極參賽者進(jìn)行溝通。
7. 首先,你的預測平均值會(huì )帶來(lái)微小卻重要的提升。其次,很可能你的方法有一點(diǎn)不同,分享試過(guò)或沒(méi)試過(guò)的想法是有益的。第三,由于競賽最初是個(gè)人單獨參賽,因此所有參賽者都會(huì )看數據、寫(xiě)流程、將競賽的重要性置于其他活動(dòng)之上,以及受實(shí)時(shí)排行榜帶來(lái)的游戲效應的刺激。
但更重要的是,人們傾向于高估自己愿意花在競賽上的時(shí)間,低估獲取穩定端到端流程之前要面臨的問(wèn)題。用排行榜來(lái)創(chuàng )建團隊可以作為過(guò)濾器,確保你的潛在隊友和你達成共識。
在一些競賽中,領(lǐng)域知識對于性能結果非常重要。例如,表格數據(tabular data)和對應的特征工程或醫學(xué)成像,你可以考慮和具備深厚領(lǐng)域知識的人組隊,即使他/她沒(méi)有強大的數據科學(xué)背景,不過(guò)這種情況比較稀少。
另一方面,業(yè)界組建團隊的方式完全不同。使用 Kaggle 的方式在業(yè)界組隊是不明智的。
在這里,我要感謝所有曾經(jīng)與我組隊的人,他們在比賽中教會(huì )了我很多:
Artem Sanakoeu, Alexander Buslaev, Sergey Mushinskiy, Evgeny Nizhibitsky, Konstantin Lopuhin, Alexey Noskov, Artur Kuzin, Ruslan Baikulov, Pavel Nesterov, Arseny Kravchenko, Eugene Babakhin, Dmitry Pranchuk, Artur Fattakhov, Ilya Kibardin, Liam Damewood, Alexey Shvets, Anton Dobrenkii, Selim Seferbekov, Alexandr Kalinin, Alexander Rakhlin.
了
如何成為?Kaggle頂級大師?
Vladimir I. Iglovikov 是一名 Kaggle 頂級大師(Grandmaster),曾獲得過(guò) Carvana 圖像遮蔽挑戰的冠軍,以及 Dstl 衛星圖像特征檢測挑戰的第三名。他曾在 UC Davis 獲得過(guò)理論凝聚態(tài)物理學(xué)博士的學(xué)位,現在是一名 Lyft 的計算機視覺(jué)工程師,主要研究自動(dòng)駕駛。
最近,Vladimir 分享了自己成為 Kaggle 高手的經(jīng)驗。目前,Kaggle 注冊用戶(hù)數量已超 100 萬(wàn),其中只有 124 人擁有 Grandmaster 頭銜,如何成為全球排名前千分之一的數據科學(xué)家?讓我們看看他是怎么說(shuō)的。
我叫 Vladimir,本科畢業(yè)并獲得理論物理學(xué)位后搬到了硅谷,從事數據科學(xué)相關(guān)的工作。我當前在 Lyft 公司的自動(dòng)駕駛部門(mén)工作,研究與計算機視覺(jué)相關(guān)的應用。
過(guò)去幾年來(lái),我花了很多時(shí)間參加關(guān)于機器學(xué)習的比賽。這樣做是因為,一方面我覺(jué)得它本身很好玩,而另一方面,我覺(jué)得這是一種非常高效的數據科學(xué)技能提升方法。當然,不是所有的比賽都很容易,我也不是在每場(chǎng)比賽中都能獲得好成績(jì)。但時(shí)不時(shí)地參加這些比賽,讓我不斷地提高了自己的相關(guān)技能,甚至最終獲得了 Kaggle Grandmaster 的稱(chēng)號。
我要向 @Lasteg 表示感謝,是他提議我參加這期的 AMA(Ask Me Anything session)并在 Reddit、kaggle、science.d3.ru(in Russian)上收集問(wèn)題。他收集有很多問(wèn)題,我會(huì )盡我所能去回答,但沒(méi)辦法在本篇博客中解決所有問(wèn)題。如果你的疑問(wèn)未能在本文獲得解答,可以在評論中留言。
以下是我(或我的團隊)有幸躋身排行榜前列的一些深度學(xué)習挑戰:
在 Ultrasound Nerve Segmentation 中獲得第十名
在 Dstl Satellite Imagery Feature Detection 中獲得第三名
在 Safe passage: Detecting and classifying vehicles in aerial imagery 中獲得第二名
在 Kaggle: Planet: Understanding the Amazon from Space 中獲得第七名
在 MICCAI 2017: Gastrointestinal Image ANAlysis (GIANA) 中獲得第一名
在 MICCAI 2017: Robotic Instrument Segmentation 中獲得第一名
在 Kaggle: Carvana Image Masking Challenge 中獲得第一名
在 Kaggle: IEEE's Signal Processing Society—Camera Model Identification 中獲得第九名
在 CVPR 2018 Deepglobe. Road Extraction. 中獲得第二名
在 CVPR 2018 Deepglobe. Building Detection. 中獲得第二名
在 CVPR 2018 Deepglobe. Land Cover Classification. 中獲得第三名
在 MICCAI 2018: Gastrointestinal Image ANAlysis (GIANA) 中獲得第三名
Q:除了數據科學(xué)以外,您生活中喜歡做些什么?
A:當然,我喜歡徒步旅行、攀巖。如果你早上去 Mission Cliffs 攀巖館,見(jiàn)到我可以打個(gè)招呼。
我也喜歡跳舞,特別是 Bules Fusion。舊金山的 Misiion Fusion 和 South Bay Fusion 舞蹈產(chǎn)地是我經(jīng)常去的。
旅行對我來(lái)說(shuō)很重要。春天的時(shí)候我去了白俄羅斯、摩洛哥、約旦。九月,我在芬蘭、德國、奧地利呆了三周。當然,2018 Burning Man 是今年最爽的活動(dòng)。
Q:你如何在工作的同時(shí)花很多時(shí)間做 kaggle 呢?
A:對我來(lái)說(shuō),雖然沒(méi)有薪酬,但參加 Kaggle 比賽是我的第二職業(yè)。我這么做理由很充足?;钴S的 Kaggle 參與者追求領(lǐng)域的改變很常見(jiàn)。我也不例外。當我從學(xué)界轉向業(yè)界時(shí),我開(kāi)始參加比賽。我需要一個(gè)高效的方法來(lái)盡快熟悉 ML 需要解決的問(wèn)題,掌握那些工具,并將思維擴展機器學(xué)習的新領(lǐng)域。
后來(lái),當我在 Bidgely 開(kāi)始我的第一份工作之后,我參與的 Kaggle 賽事更多了。有段時(shí)間,我在研究信號處理任務(wù),同時(shí)幾乎將所有晚上的時(shí)間用來(lái)處理參加比賽用的表格數據。那段時(shí)間我的工作和生活有些失衡,但我獲得的知識卻是值得的。
再后來(lái),我做好準備換工作以后,加入了 TrueAccord,在那里我做了很多傳統的機器學(xué)習任務(wù)。但我不想停止對 Kaggle 的研究,所以我白天做的是傳統機器學(xué)習,晚上和周末研究深度學(xué)習。也因此,工作和生活更加無(wú)法保持平衡。但我學(xué)到了很多東西,獲得了很好的附加技能,成為了 Kaggle Master。當我加入 Lyft Level 5 時(shí),我知道所有這些努力都沒(méi)有白費,在這份工作里我將深度學(xué)習應用于自動(dòng)駕駛問(wèn)題上。
最終,我沒(méi)有全職做 Kaggle,但我仍在積極地學(xué)習。工作中有很多有趣的計算機視覺(jué)問(wèn)題,我正嘗試在 Kaggle 沒(méi)有涉足的領(lǐng)域里獲得更多的知識。我仍然時(shí)不時(shí)地向各種比賽提交參賽作品,但這主要是為了更好地理解其他參賽者正面臨的問(wèn)題和挑戰,這樣做反過(guò)來(lái)有助于我從論壇分享的信息中獲得很大的收益。
Q:幫助你提高工作效率的日常慣例是什么?你如何安排一天的行程?
A:首先,我不太確定自己是否高效,因為我總是在尋找新的辦法優(yōu)化工作方式。
需要解決的問(wèn)題和需要參與的活動(dòng)總是很多,但不是所有的都有用又好玩。所以我做什么事情都要優(yōu)先考慮。有兩本書(shū)對這個(gè)話(huà)題進(jìn)行了精彩的討論:《So Good They Can't Ignore You: Why Skills Trump Passion in the Quest for Work You Love》和《Deep Work: Rules for Focused Success in a Distracted World》。
工作日,我一般早上 6 點(diǎn)起床,然后去攀巖館。這樣做能幫助我保持身材并讓我一天都保持清醒。之后,我開(kāi)車(chē)去上班。我們的自動(dòng)駕駛工程中心位于 Palo Alto,這對我來(lái)說(shuō)有點(diǎn)憂(yōu)桑,因為我更喜歡住在市區。開(kāi)車(chē)很有趣,但通勤很煩。為了讓通勤時(shí)間更有效率,我會(huì )在車(chē)里聽(tīng)有聲讀物。開(kāi)車(chē)時(shí)當然沒(méi)法專(zhuān)心聽(tīng)書(shū),但在駕駛時(shí)聽(tīng)聽(tīng)這些文學(xué)、有關(guān)軟技能和商業(yè)的書(shū)總是不錯的。
我想好好把握工作和生活之間的平衡,但沒(méi)有做到。當然,我花了很多時(shí)間和朋友參加不同的活動(dòng),而且很多活動(dòng)是在舊金山。同時(shí),我仍需要學(xué)習;我還要保持機器學(xué)習的狀態(tài),不能把目光局限在工作中遇到的問(wèn)題上。所以我晚上有時(shí)候會(huì )閱讀技術(shù)文獻,或者為比賽、輔助項目和開(kāi)源項目編寫(xiě)代碼。
談到開(kāi)源項目,我想借此機會(huì )**一個(gè)圖像增強庫,該庫是由我和 Alexander Buslaev、Alex Parinov、Eugene Khvedchenia 一起基于我們有關(guān)視覺(jué)挑戰賽的研究創(chuàng )建的。
如果不闡述細節的話(huà),可能沒(méi)法說(shuō)清楚這個(gè)問(wèn)題:
我更喜歡 Ubuntu+i3 的電腦,而不是 MacBook,因為這樣能讓我的效率提升 10%。
我很少用 Jupyter notebook,僅用于 EDA 和可視化。幾乎所有的代碼我都是在 PyCharm 上寫(xiě)的,然后用 flake8 檢查,再傳到 GitHub 上。很多 ML 問(wèn)題都非常相似。找一個(gè)更好的代碼庫,而不是重復自己的代碼,然后思考如何最好地重構。這樣做雖然在開(kāi)始時(shí)進(jìn)展緩慢,但后面會(huì )加快你的進(jìn)步。
我正在嘗試編寫(xiě)單元測試。所有人都在討論單元測試在數據科學(xué)中的重要性,但很少有人花時(shí)間去寫(xiě)。Alex Parinov 寫(xiě)了一個(gè)很好的文檔(https://albumentations.readthedocs.io/en/latest/writing_tests.html),教你怎么從簡(jiǎn)單的測試做到復雜的測試。你可以嘗試一下,然后再你的學(xué)術(shù)或 Kaggle ML 流程中添加更多測試。
目前,我正在試用模型版本化工具 DVC,我希望它能增加我的 ML 流程的復現率和代碼的可重用率。
我很少用鼠標。因此我有時(shí)候需要在頁(yè)面上寫(xiě)熱鍵,然后盡可能多地使用它們。
我不使用社交網(wǎng)絡(luò )。
我一天僅查收幾次郵件。
我甚至會(huì )在早上列一個(gè)當日任務(wù)清單,然后解決它們。我使用 Trello 來(lái)做這個(gè)。
我不會(huì )把一天的時(shí)間分割得很亂。很多任務(wù)需要集中精力,而總是切換焦點(diǎn)沒(méi)什么用。
以上大概就我的一些工作標準了。
Q:你如何跟上這個(gè)領(lǐng)域的最新研究?
A:「跟上」這個(gè)詞對我也不太準確,機器學(xué)習領(lǐng)域近來(lái)很活躍,有關(guān)的論文數量、比賽、博客和書(shū)籍非常多,不可能全部瀏覽。實(shí)際上,當我遇到一些問(wèn)題時(shí),我會(huì )把注意力放在最新的研究上,并深入挖掘。解決完這個(gè)問(wèn)題后,我再轉向另一個(gè)問(wèn)題。因此,我只對那些我親身經(jīng)歷過(guò)的領(lǐng)域了解較深。同時(shí),我對研究過(guò)的問(wèn)題都有較深的專(zhuān)業(yè)知識,這個(gè)問(wèn)題清單很長(cháng),而且還在持續增加。這個(gè)事實(shí)也讓我確信,將自己編寫(xiě)并保存在私人存儲庫中的經(jīng)驗和代碼將有助于我快速開(kāi)始任何新的 ML 相關(guān)任務(wù)。
此外,這還意味著(zhù)我對很多問(wèn)題的處理方式都有大概的了解,這樣我下次面對類(lèi)似的問(wèn)題時(shí)心里也有譜。
我還參加過(guò)像 NIPS、CVPR 這樣的人工智能會(huì )議,在這些大會(huì )上展示的研究成果能夠很好地代表我們當前的研究水平。
Q:四五年前,在非機器學(xué)習領(lǐng)域拿到一個(gè)博士學(xué)位(如物理學(xué))對雇主是有利的。但現在的情況好像變了,非機器學(xué)習領(lǐng)域的博士學(xué)位和機器學(xué)習的碩士學(xué)位相比,IT/ML 行業(yè)更愿意選后者擔任機器學(xué)習工程師/開(kāi)發(fā)者職位,至于研究崗我不太清楚。您獲得了物理學(xué)博士學(xué)位,然后轉到機器學(xué)習領(lǐng)域,我認為您的經(jīng)歷可能適合回答這個(gè)問(wèn)題。
如果獲得非機器學(xué)習博士想轉到機器學(xué)習行業(yè),您對此有何看法?這有助于獲取企業(yè)內的研究職位嗎?與機器學(xué)習相關(guān)碩士相比有優(yōu)勢嗎?
A:這個(gè)問(wèn)題比較困難,我不知道答案。
物理學(xué)是一門(mén)偉大的學(xué)科。即使回到過(guò)去,可以在物理學(xué)和計算機科學(xué)之間進(jìn)行選擇,即使知道我最終會(huì )轉到計算機科學(xué)領(lǐng)域,我仍然會(huì )選擇物理學(xué)。
當然,主要原因是我對物理學(xué)和自然科學(xué)比較感興趣。機器學(xué)習能夠講授浩翰多彩宇宙的運行原理嗎?不能,但是物理學(xué)可以。不止如此。我的轉型之路相對容易的原因之一是物理學(xué),這門(mén)學(xué)科給予我的不僅是量子力學(xué)、相對論等知識,還有數學(xué)、統計學(xué)、編程技巧,這些技能有利于向其他領(lǐng)域的轉換。
物理學(xué)教會(huì )你如何在嚴謹理論和實(shí)驗之間以結構化的方式進(jìn)行轉換,這對機器學(xué)習從業(yè)者而言也是一項必備技能。另外,自學(xué)集合不可能學(xué)習物理學(xué)或高等數學(xué)。這點(diǎn)也是我的公司信條,即深度學(xué)習的下一個(gè)大突破將在我們明白如何將高等數學(xué)應用到機器學(xué)習中的時(shí)候出現?,F在具備大一水平的數學(xué)知識在計算機視覺(jué)領(lǐng)域已經(jīng)足夠了。
所有這些都意味著(zhù)目前數學(xué)不是攔路虎,這也是掌握了數學(xué)/物理學(xué)/化學(xué)和其他 STEM 學(xué)科的額外知識對于解決大部分商業(yè)問(wèn)題幾乎無(wú)用的原因,也是這些學(xué)科的畢業(yè)生轉行的原因。他們擁有大量專(zhuān)門(mén)知識,有博士學(xué)位,在學(xué)界待了很多年,但無(wú)法得到有趣且高薪的工作。網(wǎng)絡(luò )上到處是這種類(lèi)型的博客文章。
另一方面,能寫(xiě)代碼在各個(gè)地方都是必要的,這也是潛在雇主在了解數學(xué)的人和能寫(xiě)代碼的人中間幾乎總是選擇后者的原因。
但我認為這種情況會(huì )改變的。不是現在,是未來(lái)的某個(gè)時(shí)間點(diǎn)。
你讀的論文、你上的課可能與你在行業(yè)中所需的技能并不直接相關(guān),注意到這一點(diǎn)很重要。這是對的,但無(wú)傷大雅。
通常,在業(yè)界作為數據科學(xué)家或軟件開(kāi)發(fā)者工作所需的技能可以通過(guò)自學(xué)學(xué)習,不能在大學(xué)里學(xué)到。人們在工業(yè)界學(xué)到的大部分事情可以通過(guò)在某家公司的全職工作來(lái)獲取。
此外,找工作的同時(shí)還要寫(xiě)理論物理學(xué)論文、研究數據科學(xué),這對我來(lái)說(shuō)壓力太大了。
當時(shí),我并未掌握所有必備知識,我也不理解硅谷的運作和他們對我的期望。我基本上是一張白紙,我做的唯一一件事是不斷地把簡(jiǎn)歷投給不同的公司,不斷地面試,從每次失敗中學(xué)習,然后再繼續,直到面試成功。
我記得有一次面試官問(wèn)我畢業(yè)論文主題是什么,我當時(shí)在研究量子蒙特卡羅(Quantum Monte Carlo),我如實(shí)回答了這個(gè)問(wèn)題,然后盡力解釋它的意思以及我們?yōu)槭裁葱枰?。面試官看?zhù)我,問(wèn)了一句話(huà):「這項技術(shù)如何幫助我們提高客戶(hù)參與度?」
我想說(shuō)對于非計算機科學(xué)專(zhuān)業(yè)的人來(lái)說(shuō),最好的方法是參加計算機科學(xué)系內部的數據科學(xué)(DS)相關(guān)課程。業(yè)余時(shí)間學(xué)習 DS / ML。幸運的是,有很多資源。在自己院系中找到一個(gè)想使用機器學(xué)習解決自己?jiǎn)?wèn)題的教授也是個(gè)好主意。申請技術(shù)公司的 ML 相關(guān)實(shí)習崗位,拿到實(shí)習崗位比獲得全職工作容易一些。
實(shí)習后轉為正式崗就很直接了。比如我的朋友胡文健,他和我同一個(gè)研究小組研究物理學(xué),他先在 Facebook 實(shí)習,后來(lái)得到了 Facebook AI Research 的研究科學(xué)家職位。
不要高估專(zhuān)業(yè)、大學(xué)對找工作的影響。企業(yè)雇傭你時(shí),主要是付錢(qián)讓你解決他們面臨的問(wèn)題。你的學(xué)位和專(zhuān)業(yè)只是他們用來(lái)估計你能力的東西。如果你的簡(jiǎn)歷中沒(méi)有他們想看到的內容,那很難通過(guò) HR 的簡(jiǎn)歷篩選,對找工作很重要的人際關(guān)系網(wǎng)也會(huì )減弱,但這仍然不應該影響你決定自己學(xué)什么專(zhuān)業(yè)。
我的想法可能有點(diǎn)天真,但我覺(jué)得人們選擇自己專(zhuān)業(yè)的標準,不應該是高薪,而是熱情(passion)。
Q:你覺(jué)得數據科學(xué)/ML 中有趣的問(wèn)題是什么?我的碩士學(xué)位完成了一半,但我不知道以后要從事 ML 哪方面的工作。我和認為 Algo 創(chuàng )建與擴展是最好領(lǐng)域的人交談過(guò)(對于 DS / ML 應用程序而言,更可能是庫**件和 chug)。對此你有什么看法?或者關(guān)于職業(yè)靈活性的建議?
A:我認為 DS/ML 中有趣的問(wèn)題與當今主流相去甚遠。研究主流問(wèn)題的人太多。將 ML 應用于信用評分、推薦系統和零售等我都覺(jué)得很無(wú)聊。如果你用 DS/ML 來(lái)解決那些數學(xué)、物理、生物、化學(xué)、歷史、考古、地理問(wèn)題或者那些人們很少應用 ML 的問(wèn)題,你可能會(huì )找到下一個(gè)屬于你的 Purple Cow。
至于職業(yè)選擇,與生物或物理不同,你在 DS/ML 中學(xué)到的技能很容易從一個(gè)領(lǐng)域轉到另一個(gè)領(lǐng)域。當然,開(kāi)發(fā)銀行或對沖基金交易的算法和開(kāi)發(fā)自動(dòng)駕駛汽車(chē)不是一回事,但差別也沒(méi)有那么大。只要你基礎牢固,很快就能掌握必要的技能。
Q:30 歲(有學(xué)習背景,但不是 Math/CS 方面)加入 ML 社區是否為時(shí)已晚?是否有可能趕上末班車(chē)?如果可以,你覺(jué)得最低要求是什么?
A:當然不晚。90% 的 ML 只需要技術(shù)大學(xué)大一的數學(xué)知識,不需要超深的數學(xué)知識。DS 中使用最廣泛的語(yǔ)言是 Python 和 R 語(yǔ)言,這兩種語(yǔ)言比較高級,因此你可以從它們入手,而不是在技術(shù)細節方面死磕。
我建議參加一些 DS 的在線(xiàn)課程,然后研究一些 Kaggle 問(wèn)題。當然,很多概念聽(tīng)起來(lái)都很新,但你只要保持自律和專(zhuān)注,慢慢就會(huì )懂了。
這兒有兩個(gè)關(guān)于年齡的例子:
Kaggle Grandmaster Evgeny Patekha 40 歲才開(kāi)始數據科學(xué)研究。
Kaggle Grandmaster Alexander Larko 55 歲才開(kāi)始參加 Kaggle。
Q:你認為技術(shù)領(lǐng)域的正規基礎教育對獲得數據科學(xué)和 Kaggle 比賽的成功是必要的嗎?在你的工作經(jīng)歷中有沒(méi)有遇到相反的例子?
A:我只能說(shuō)這些很有用,但并非必要。很多在 Kaggle 中獲得成功的人并沒(méi)有技術(shù)領(lǐng)域的基礎教育背景。典型的例子就是 Mikel Bober-Irizar,他是一名 Kaggle Grandmaster,但還在念高中……
不過(guò)你要記住的另一件事是:你在 Kaggle 中學(xué)到的技能只是你將來(lái)在 ML 業(yè)界或學(xué)界所需技能的一小部分。而那些在 Kaggle 中無(wú)法學(xué)到的技能,基礎教育可以為你提供。
不過(guò)話(huà)說(shuō)回來(lái),就算沒(méi)有高中學(xué)歷你也能擅長(cháng) Kaggle。
Q:你用了多長(cháng)時(shí)間學(xué)習數據科學(xué)/機器學(xué)習,才成為了 Kaggle 高手?
A:我是在 2015 年 1 月決定轉向數據科學(xué)的。在這之后,我開(kāi)始在 Coursera 上學(xué)習線(xiàn)上課程。在當年 2 月底,我知道了 Kaggle 的存在并注冊了自己的賬號,兩個(gè)月之后我獲得了自己的第一個(gè)銀牌。
Q:使用家用臺式機不用云服務(wù)在 Kaggle 比賽里能得高分嗎?
A:我不在比賽中使用云服務(wù),但我家里有兩臺比較強力的計算機:一臺有 4 塊 GPU,另一臺有兩塊。你可以在沒(méi)有強大深度學(xué)習機器的情況下獲得 Kaggle 比賽的好成績(jì),但是缺乏算力的限制會(huì )使你在單位時(shí)間內嘗試思路的數量——而思路的數量和最終的結果密切相關(guān)。所以如果你以 24/7 的投入訓練模型,你就需要投資購買(mǎi)一臺好機器。
在幾代更新之后,我的開(kāi)發(fā)硬件最終變成了這樣:一臺 4GPU 的機器用于高負載,另一臺雙卡的機器用于原型設計。
僅有一臺強大的計算機還是不夠的,你需要學(xué)一些編程技巧,來(lái)利用它的算力。
我從 Keras 轉到 PyTorch 的一個(gè)原因是當時(shí)后者的 DataLoader 更加強大。
我們看到 imgaug 太慢了,于是寫(xiě)了 albumentations,以利用 100% 的 CPU 算力,不過(guò)它沒(méi)法充分利用 GPU。
如果想加速硬盤(pán)上 jpeg 圖像的吞吐速度,我們不應該使用 PIL、skimageand 甚至 OpenCV,而是應該用 libjpeg-turbo 或 PyVips。
其他
Q:對于從 Kaggle 競賽開(kāi)始數據科學(xué)家生涯的人,你對他們有什么建議嗎?特別是那些首次參加競賽的菜鳥(niǎo),有什么最好的建議?
A:有很多方式來(lái)參加 Kaggle 競賽,但根據我的觀(guān)察經(jīng)驗,獲取所需知識的最高效方法是使用黑客的方法。
觀(guān)看一些包含 Python 編程基礎和機器學(xué)習的在線(xiàn)課程。
參加一個(gè) Kaggle 競賽。如果你可以寫(xiě)出一個(gè)從數據到提交的端到端流程,這很好。如果你是新手,這可能很難。在這種情況下,可以去論壇復制粘貼別人共享的 kernel。
在你的計算機上運行,生成一個(gè)提交,在排行榜上獲取名次。在這一階段,操作系統、驅動(dòng)程序、庫版本、I/O 等問(wèn)題可能會(huì )讓你覺(jué)得很痛苦。你要盡快習慣。如果你不能理解 kernel 里寫(xiě)的什么,沒(méi)關(guān)系,問(wèn)題不大。
調整一些參數,隨便調也沒(méi)關(guān)系,重新訓練你的模型,提交預測。希望某些修改可以讓你的排名提升。不要擔心,很多人都是這么做的。他們都在做不同的調整,你不需要對相關(guān)知識或原理有深刻或直觀(guān)的理解。
為了超越周?chē)恼{參俠,你要發(fā)展出一種直覺(jué),并獲取關(guān)于什么方案可行、什么方案不可行的基礎知識,從而可以更加智能和高效地探索可能方法的相空間。在這一步,你需要將學(xué)習作為實(shí)驗的一部分。從兩個(gè)方向學(xué)習,首先是像 mlcourse.ai、CS231n、數學(xué)、統計學(xué)、如何寫(xiě)更好的代碼等基礎。一般來(lái)說(shuō),自主學(xué)習很難,但從長(cháng)期來(lái)看,這很重要。其次你會(huì )在相關(guān)問(wèn)題的論壇上看到很多新術(shù)語(yǔ)。記得注意這些術(shù)語(yǔ)。嘗試激勵自己在排行榜中取得更好成績(jì)作為外部動(dòng)力來(lái)學(xué)習新事物。但不要在學(xué)習和實(shí)驗之間進(jìn)行選擇,同時(shí)做兩件事。機器學(xué)習是一門(mén)應用科學(xué)。
在競賽結束之后,雖然付出了很大的努力,但你也很可能在排行榜上取得很低的名次。這不奇怪。好好閱讀論壇的內容,看看 winner 分享的解決方案,嘗試找出比之前更好的解決方案。下一次當你看到相似的問(wèn)題時(shí),你的起點(diǎn)會(huì )高得多。
在多個(gè)競賽中重復該過(guò)程,然后到達 top。更重要的是,你將對很多問(wèn)題擁有好的解決方案,并且對于如何處理在競賽中遇到的機器學(xué)習挑戰能夠發(fā)展良好的直覺(jué)。
Q:作為物理學(xué)背景的人,當競賽更多的是過(guò)擬合 vs 具體任務(wù)上的實(shí)際泛化效果時(shí),你會(huì )覺(jué)得挫敗嗎?如果會(huì ),那你會(huì )怎么處理?
A:通常,你需要過(guò)擬合數據和指標,以獲取好的結果。這沒(méi)什么問(wèn)題。人們在 ImageNet 數據集上過(guò)擬合了很多年,訓練過(guò)程中仍然會(huì )出現很多新知識。但是你需要理解指標和數據的細微之處,這是知識的來(lái)源。只要競賽過(guò)程中能夠得到新知識,那過(guò)擬合不會(huì )讓我覺(jué)得很挫敗。你可能注意到了,當你擅長(cháng)一個(gè)問(wèn)題的流程和想法時(shí),這些可以作為你下一個(gè)問(wèn)題的可靠基線(xiàn)模型,這表明了一定的泛化性。
Q:你對 Kaggle 的數據泄露(如 Santander、Airship prediction 和 Google Analytics)有什么看法?在 Kaggle 比賽中使用泄露的數據是否合乎道德?
A:我承認組織比賽很難,所以當發(fā)現數據泄露時(shí),我不會(huì )指責組織者。而人們利用泄露的數據參加比賽,我也覺(jué)得 OK。我承認數據泄露阻礙了我參與一次挑戰,但這主要是因為我無(wú)法輕易地把獲得的知識擴展到其它挑戰。我仍然認為 Kaggle 管理員需要創(chuàng )建一份可能會(huì )泄露的數據清單,并在比賽前檢查數據以防止同樣的事件一次又一次發(fā)生。我相信他們正在為此努力。
Q:Kaggle 比賽對做一名 DL 工程師有多大用處?
A:這很難說(shuō)。Kaggle 在一些重要但非常狹窄的領(lǐng)域提升你的技能。這是一個(gè)非常重要的技能組合,對某些職位可能非常有用,但對另一些來(lái)說(shuō)則幫助不大。而對我從事過(guò)的工作,尤其是現在從事的自動(dòng)駕駛來(lái)說(shuō),Kaggle 技能是我從學(xué)界和其它知識來(lái)源中獲取的有力加分項。
不過(guò),要掌握 Kaggle 技能,光有扎實(shí)的基礎并不夠。很多東西你只能從業(yè)界學(xué)習。
雖然成為 Kaggle Master 對你的工作來(lái)說(shuō)不是必需的,也并不代表你會(huì )在工作中做得很好。但我相信,如果你是 Kaggle Master,你的簡(jiǎn)歷會(huì )更容易通過(guò) HR 的篩選,然后有機會(huì )進(jìn)入技術(shù)展示階段。
Q:成為 Kaggle Grandmaster 之后繼續參加比賽還有什么用處?已經(jīng)成為數據科學(xué)家之后繼續前進(jìn)的動(dòng)力是什么?
A:正如我前面所說(shuō)的,我現在不再參加 Kaggle 比賽了,但我開(kāi)始關(guān)注很多會(huì )議上出現的挑戰賽。我的團隊在 MICCAI 2017、CVPR 2018 和 MICCAI 2018 取得了不錯的成績(jì)。競賽通常包括漂亮、干凈的數據集,這些數據需要的清理工作最少,可以讓你少關(guān)注數據,多關(guān)注數值技術(shù)。這是你在工作中通常沒(méi)有的奢侈品,數據選擇過(guò)程通常是創(chuàng )建實(shí)用流程的最重要的組成部分。
Q:你對于本科生和研究生的學(xué)習和競爭力有什么看法?什么水平才能真正掌握數據科學(xué)?
A:我甚至不知道是什么決定了數據科學(xué)。這個(gè)問(wèn)題有很多回答的方式,但在這里我們的主題是 Kaggle Grandmaster,所以讓我們把第一個(gè)里程碑設置為「Kaggle Master」。這是相對直接的標準,一旦你開(kāi)始朝著(zhù)這個(gè)方面努力,你就會(huì )對這一領(lǐng)域有更多的了解。
Q:如果沒(méi)有數學(xué)/計算機科學(xué)或其他一些高級計算課程教育背景,你在 Kaggle(或者更廣泛地說(shuō)是數據科學(xué)領(lǐng)域)上可以走多遠?激情和求知欲能帶你走多遠?
如果以目標為導向并且愿意學(xué)習,你可以在 Kaggle 或其他任何數據科學(xué)領(lǐng)域獲得最高成績(jì)。最艱難的是邁出第一步。Just do it!最好的時(shí)間是此時(shí)此刻,因為明天,通常意味著(zhù)永不。
沒(méi)有人問(wèn)過(guò)我這個(gè)問(wèn)題:在一場(chǎng)特定的比賽中,你是如何找到幫助你提高成績(jì)的人的?我覺(jué)得這是一個(gè)目前在博客中還沒(méi)有看到過(guò)的重要話(huà)題。
最常見(jiàn)的方法:一些朋友、同事對這個(gè)比賽很有熱情,他們聊這個(gè)比賽,一起開(kāi)會(huì )、討論問(wèn)題并組隊。一些人想做些事情;但另外一些忙于其他活動(dòng)。這種團隊可以往前走一段,但走不遠。
對于我以及其他一些參賽者來(lái)說(shuō)更好的方式有以下幾種:
1. 寫(xiě)出你的流程或平臺上分享的重構流程。
2. 這個(gè)流程應該以適當的格式將輸入數據映射到提交的文件中,并生成交叉驗證分數。
3. 驗證交叉驗證分數的改進(jìn)與排行榜上的改進(jìn)相關(guān)。
4. 執行探索性數據分析,仔細瀏覽論壇,閱讀論文、書(shū)籍和之前類(lèi)似競賽的解決方案。獨立工作。
5. 在某個(gè)時(shí)間點(diǎn),比如競賽截止前 2-4 周,你會(huì )陷入困境。什么想法都沒(méi)法改進(jìn)你的排名。你嘗試了一切,這時(shí)你需要新的想法來(lái)源。
6. 這時(shí)你可以看下排行榜,與排名接近的積極參賽者進(jìn)行溝通。
7. 首先,你的預測平均值會(huì )帶來(lái)微小卻重要的提升。其次,很可能你的方法有一點(diǎn)不同,分享試過(guò)或沒(méi)試過(guò)的想法是有益的。第三,由于競賽最初是個(gè)人單獨參賽,因此所有參賽者都會(huì )看數據、寫(xiě)流程、將競賽的重要性置于其他活動(dòng)之上,以及受實(shí)時(shí)排行榜帶來(lái)的游戲效應的刺激。
但更重要的是,人們傾向于高估自己愿意花在競賽上的時(shí)間,低估獲取穩定端到端流程之前要面臨的問(wèn)題。用排行榜來(lái)創(chuàng )建團隊可以作為過(guò)濾器,確保你的潛在隊友和你達成共識。
在一些競賽中,領(lǐng)域知識對于性能結果非常重要。例如,表格數據(tabular data)和對應的特征工程或醫學(xué)成像,你可以考慮和具備深厚領(lǐng)域知識的人組隊,即使他/她沒(méi)有強大的數據科學(xué)背景,不過(guò)這種情況比較稀少。
另一方面,業(yè)界組建團隊的方式完全不同。使用 Kaggle 的方式在業(yè)界組隊是不明智的。
下一次 Kaggle 比賽里見(jiàn)!
版權聲明: 本站僅提供信息存儲空間服務(wù),旨在傳遞更多信息,不擁有所有權,不承擔相關(guān)法律責任,不代表本網(wǎng)贊同其觀(guān)點(diǎn)和對其真實(shí)性負責。如因作品內容、版權和其它問(wèn)題需要同本網(wǎng)聯(lián)系的,請發(fā)送郵件至 舉報,一經(jīng)查實(shí),本站將立刻刪除。