大數(shù)據(jù)已經(jīng)成為這個(gè)時(shí)代的標(biāo)志,如何理解和運(yùn)用大數(shù)據(jù),也是我們這個(gè)時(shí)代的重中之重。今天,小編從“實(shí)戰(zhàn)”和“拓展”兩個(gè)方向,為各位推薦幾本書(shū),希望能夠有助于你在大數(shù)據(jù)方面的學(xué)習(xí)。實(shí)戰(zhàn)篇
《集體智慧編程》作者:[美]TOBY SEGARAN 翻譯:莫映 / 王開(kāi)福 本書(shū)由StuQ/InfoQ大數(shù)據(jù)專(zhuān)家交流群傾力推薦。本書(shū)以機(jī)器學(xué)習(xí)與計(jì)算統(tǒng)計(jì)為主題背景,專(zhuān)門(mén)講述如何挖掘和分析Web上的數(shù)據(jù)和資源,如何分析用戶(hù)體驗(yàn)、市場(chǎng)營(yíng)銷(xiāo)、個(gè)人品味等諸多信息,并得出有用的結(jié)論,通過(guò)復(fù)雜的算法來(lái)從Web網(wǎng)站獲取、收集并分析用戶(hù)的數(shù)據(jù)和反饋信息,以便創(chuàng)造新的用戶(hù)價(jià)值和商業(yè)價(jià)值。全書(shū)內(nèi)容翔實(shí),包括協(xié)作過(guò)濾技術(shù)(實(shí)現(xiàn)關(guān)聯(lián)產(chǎn)品推薦功能)、集群數(shù)據(jù)分析(在大規(guī)模數(shù)據(jù)集中發(fā)掘相似的數(shù)據(jù)子集)、搜索引擎核心技術(shù)(爬蟲(chóng)、索引、查詢(xún)引擎、PageRank算法等)、搜索海量信息并進(jìn)行分析統(tǒng)計(jì)得出結(jié)論的優(yōu)化算法、貝葉斯過(guò)濾技術(shù)(垃圾郵件過(guò)濾、文本過(guò)濾)、用決策樹(shù)技術(shù)實(shí)現(xiàn)預(yù)測(cè)和決策建模功能、社交網(wǎng)絡(luò)的信息匹配技術(shù)、機(jī)器學(xué)習(xí)和人工智能應(yīng)用等。本書(shū)是Web開(kāi)發(fā)者、架構(gòu)師、應(yīng)用工程師等的絕佳選擇。
《數(shù)據(jù)挖掘?qū)д摗?/b>作者: Pang-Ning Tan / Michael Steinbach / Vipin Kumar 翻譯:范明 / 范宏建 本書(shū)全面介紹了數(shù)據(jù)挖掘,涵蓋了五個(gè)主題:數(shù)據(jù)、分類(lèi)、關(guān)聯(lián)分析、聚類(lèi)和異常檢測(cè)。除異常檢測(cè)外,每個(gè)主題都有兩章。前一章涵蓋基本概念、代表性算法和評(píng)估技術(shù),而后一章討論高級(jí)概念和算法。這樣讀者在透徹地理解數(shù)據(jù)挖掘的基礎(chǔ)的同時(shí),還能夠了解更多重要的高級(jí)主題。
《Hadoop The Definitive Guide》作者: [美] Tom White本書(shū)是學(xué)習(xí)Hadoop的權(quán)威指南,是您縱情享用數(shù)據(jù)之美的得力助手。作為處理海量數(shù)據(jù)集的理想工具,Apache Hadoop架構(gòu)是MapReduce算法的一種開(kāi)源應(yīng)用,是Google(谷歌)開(kāi)創(chuàng)其帝國(guó)的重要基石。本書(shū)內(nèi)容豐富,展示了如何使用Hadoop構(gòu)建可靠、可伸縮的分布式系統(tǒng),程序員可從中探索如何分析海量數(shù)據(jù)集,管理員可以了解如何建立與運(yùn)行Hadoop集群。本書(shū)完全通過(guò)案例學(xué)習(xí)來(lái)展示如何用Hadoop解決特殊問(wèn)題,如果您擁有海量數(shù)據(jù),無(wú)論是GB級(jí)還是PB級(jí),Hadoop都是完美的選擇。本書(shū)是這方面最全面的參考。
《大數(shù)據(jù)技術(shù)叢書(shū)·Hadoop技術(shù)內(nèi)幕》作者:蔡斌,陳湘平,董西城全球首部Hadoop YARN專(zhuān)著,資深Hadoop技術(shù)專(zhuān)家根據(jù)最新版本撰寫(xiě),ChinaHadoop和51CTO等專(zhuān)業(yè)技術(shù)社區(qū)聯(lián)袂推薦!從應(yīng)用角度系統(tǒng)講解YARN的基本庫(kù)和組件用法、應(yīng)用程序設(shè)計(jì)方法、YARN上流行的各種計(jì)算框架,以及多個(gè)類(lèi)YARN的開(kāi)源資源管理系統(tǒng)。從源代碼角度深入分析YARN的設(shè)計(jì)理念與基本架構(gòu)、各個(gè)組件的實(shí)現(xiàn)原理,以及各種計(jì)算框架的實(shí)現(xiàn)細(xì)節(jié)。從源代碼角度深入分析MapReduce的設(shè)計(jì)理念,以及RPC框架、客戶(hù)端、JobTracker、TaskTracker和Task等運(yùn)行時(shí)環(huán)境的架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)原理。深入探討Hadoop性能優(yōu)化、多用戶(hù)作業(yè)調(diào)度器、安全機(jī)制、下一代MapReduce框架等高級(jí)主題。
《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》作者:Peter Harrington翻譯:李銳/李鵬/曲亞?wèn)|/王斌機(jī)器學(xué)習(xí)是人工智能研究領(lǐng)域中一個(gè)極其重要的研究方向,在現(xiàn)今的大數(shù)據(jù)時(shí)代背景下,捕獲數(shù)據(jù)并從中萃取有價(jià)值的信息或模式,成為各行業(yè)求生存、謀發(fā)展的決定性手段,這使得這一過(guò)去為分析師和數(shù)學(xué)家所專(zhuān)屬的研究領(lǐng)域越來(lái)越為人們所矚目。本書(shū)第一部分主要介紹機(jī)器學(xué)習(xí)基礎(chǔ),以及如何利用算法進(jìn)行分類(lèi),并逐步介紹了多種經(jīng)典的監(jiān)督學(xué)習(xí)算法,如k近鄰算法、樸素貝葉斯算法、Logistic回歸算法、支持向量機(jī)、AdaBoost集成方法、基于樹(shù)的回歸算法和分類(lèi)回歸樹(shù)(CART)算法等。第三部分則重點(diǎn)介紹無(wú)監(jiān)督學(xué)習(xí)及其一些主要算法:k均值聚類(lèi)算法、Apriori算法、FP-Growth算法。第四部分介紹了機(jī)器學(xué)習(xí)算法的一些附屬工具。全書(shū)通過(guò)精心編排的實(shí)例,切入日常工作任務(wù),摒棄學(xué)術(shù)化語(yǔ)言,利用高效的可復(fù)用Python代碼來(lái)闡釋如何處理統(tǒng)計(jì)數(shù)據(jù),進(jìn)行數(shù)據(jù)分析及可視化。通過(guò)各種實(shí)例,讀者可從中學(xué)會(huì)機(jī)器學(xué)習(xí)的核心算法,并能將其運(yùn)用于一些策略性任務(wù)中,如分類(lèi)、預(yù)測(cè)、推薦。另外,還可用它們來(lái)實(shí)現(xiàn)一些更高級(jí)的功能,如匯總和簡(jiǎn)化等。
《大規(guī)模分布式存儲(chǔ)系統(tǒng)》作者:楊傳輝《大規(guī)模分布式存儲(chǔ)系統(tǒng):原理解析與架構(gòu)實(shí)戰(zhàn)》是分布式系統(tǒng)領(lǐng)域的經(jīng)典著作,由阿里巴巴高級(jí)技術(shù)專(zhuān)家“阿里日照”(OceanBase核心開(kāi)發(fā)人員)撰寫(xiě),陽(yáng)振坤、章文嵩、楊衛(wèi)華、汪源、余鋒(褚霸)、賴(lài)春波等來(lái)自阿里、新浪、網(wǎng)易和百度的資深技術(shù)專(zhuān)家聯(lián)袂推薦。理論方面,不僅講解了大規(guī)模分布式存儲(chǔ)系統(tǒng)的核心技術(shù)和基本原理,而且對(duì)谷歌、亞馬遜、微軟和阿里巴巴等國(guó)際型大互聯(lián)網(wǎng)公司的大規(guī)模分布式存儲(chǔ)系統(tǒng)進(jìn)行了分析;實(shí)戰(zhàn)方面,首先通過(guò)對(duì)阿里巴巴的分布式數(shù)據(jù)庫(kù)OceanBase的實(shí)現(xiàn)細(xì)節(jié)的深入剖析完整地展示了大規(guī)模分布式存儲(chǔ)系統(tǒng)的架構(gòu)與設(shè)計(jì)過(guò)程,然后講解了大規(guī)模分布式存儲(chǔ)技術(shù)在云計(jì)算和大數(shù)據(jù)領(lǐng)域的實(shí)踐與應(yīng)用?!洞笠?guī)模分布式存儲(chǔ)系統(tǒng):原理解析與架構(gòu)實(shí)戰(zhàn)》內(nèi)容分為四個(gè)部分:基礎(chǔ)篇——分布式存儲(chǔ)系統(tǒng)的基礎(chǔ)知識(shí),包含單機(jī)存儲(chǔ)系統(tǒng)的知識(shí),如數(shù)據(jù)模型、事務(wù)與并發(fā)控制、故障恢復(fù)、存儲(chǔ)引擎、壓縮/解壓縮等;分布式系統(tǒng)的數(shù)據(jù)分布、復(fù)制、一致性、容錯(cuò)、可擴(kuò)展性等。范型篇——介紹谷歌、亞馬遜、微軟、阿里巴巴等著名互聯(lián)網(wǎng)公司的大規(guī)模分布式存儲(chǔ)系統(tǒng)架構(gòu),涉及分布式文件系統(tǒng)、分布式鍵值系統(tǒng)、分布式表格系統(tǒng)以及分布式數(shù)據(jù)庫(kù)技術(shù)等。實(shí)踐篇——以阿里巴巴的分布式數(shù)據(jù)庫(kù)OceanBase為例,詳細(xì)介紹分布式數(shù)據(jù)庫(kù)內(nèi)部實(shí)現(xiàn),以及實(shí)踐過(guò)程中的經(jīng)驗(yàn)。專(zhuān)題篇——介紹分布式系統(tǒng)的主要應(yīng)用:云存儲(chǔ)和大數(shù)據(jù),這些是近年來(lái)的熱門(mén)領(lǐng)域,本書(shū)介紹了云存儲(chǔ)平臺(tái)、技術(shù)與安全,以及大數(shù)據(jù)的概念、流式計(jì)算、實(shí)時(shí)分析等。拓展篇
《大數(shù)據(jù)時(shí)代》作者:[英]維克托·邁爾-舍恩伯格,[英]肯尼思·庫(kù)克耶翻譯:盛楊燕,周濤不用說(shuō)了,肯定是這本書(shū)。讀完這本書(shū),要求你形成大數(shù)據(jù)的概念,即知道這么幾點(diǎn):1、絕不是有很多數(shù)據(jù)就叫大數(shù)據(jù);2、大數(shù)據(jù)是一種數(shù)據(jù)分析方式,與傳統(tǒng)數(shù)據(jù)分析方式有著本質(zhì)上的不同;3、大數(shù)據(jù)的特點(diǎn)是“關(guān)注相關(guān)性,不關(guān)注因果”,這是大數(shù)據(jù)最核心的東西,一定要真正理解,并牢牢記住,不然你就很容易被別人忽悠;4、大數(shù)據(jù)采用的是統(tǒng)計(jì)的方法;5、大數(shù)據(jù)主要是結(jié)合人工智能進(jìn)行機(jī)器的自動(dòng)數(shù)據(jù)挖掘;6、大數(shù)據(jù)主要是用來(lái)作預(yù)測(cè)的。而不是象一般的數(shù)據(jù)分析,只是分析出歷史情況和現(xiàn)狀,未來(lái)還是要靠人去預(yù)測(cè),大數(shù)據(jù)則是直接告訴你未來(lái)的結(jié)果。
《失控》作者:[美]凱文·凱利翻譯:東西文庫(kù)為什么是這本書(shū)呢?學(xué)完初級(jí)階段要記住的幾件事還沒(méi)忘吧?對(duì),用統(tǒng)計(jì)的方法,而不是因果的方法,預(yù)測(cè)未來(lái)。在對(duì)預(yù)測(cè)機(jī)制進(jìn)行剖析的時(shí)候,法默最喜歡用這個(gè)例子來(lái)進(jìn)行說(shuō)明:「來(lái),接著!」他說(shuō)著就朝你扔過(guò)來(lái)一個(gè)棒球。你抓住了球?!改阒滥闶窃趺唇幼∵@個(gè)球的嗎?」,他問(wèn)道?!竿ㄟ^(guò)預(yù)測(cè)?!褂胒=ma(公式)來(lái)預(yù)測(cè),或者說(shuō)線(xiàn)性預(yù)測(cè),就是通過(guò)因果推理來(lái)進(jìn)行預(yù)測(cè),即根據(jù)球的質(zhì)量、加速度等等因素,找出這個(gè)球?yàn)槭裁磿?huì)從那個(gè)地方飛到這個(gè)地方的原因;而“歸納”即是“統(tǒng)計(jì)”的意思,或者說(shuō)是較粗略的統(tǒng)計(jì),歸納是不問(wèn)原因的,接住這個(gè)球就完了,管它是什么原因。你想成為大數(shù)據(jù)高手,你想用統(tǒng)計(jì)的方法來(lái)對(duì)某些東西進(jìn)行預(yù)測(cè)? 好了,現(xiàn)在你來(lái)告訴我,還有什么理由不去好好讀這本書(shū)?
《爆發(fā)》作者: [美] 艾伯特-拉斯洛·巴拉巴西 翻譯:馬慧本書(shū)是一本超越《黑天鵝》的驚世之作。如果說(shuō)塔勒布認(rèn)為人類(lèi)行為是隨機(jī)的,都是小概率事件,是不可以預(yù)測(cè)的;那么全球復(fù)雜網(wǎng)絡(luò)權(quán)威Barabasi則認(rèn)為,人類(lèi)行為93%是可以預(yù)測(cè)的。Barabasi的研究是在人類(lèi)生活數(shù)字化的大數(shù)據(jù)時(shí)代基礎(chǔ)上進(jìn)行的,移動(dòng)電話(huà)、網(wǎng)絡(luò)以及電子郵件使人類(lèi) 行為變得更加容易量化,將我們的社會(huì)變成了一個(gè)巨大的數(shù)據(jù)庫(kù)。他認(rèn)為,人類(lèi)正處在一個(gè)聚合點(diǎn)上,在這里數(shù)據(jù)、科學(xué)以及技術(shù)都聯(lián)合起來(lái)共同對(duì)抗那個(gè)最大的謎題——我們的未來(lái)。在本書(shū)中,Barabasi揭開(kāi)人類(lèi)行為背后隱藏的模式“爆發(fā)”,提出人類(lèi)日常行為模式不是隨機(jī)的,而是具有“爆發(fā)性”的。爆發(fā)揭開(kāi)了人類(lèi)行為中令人驚訝的深層次的秩序,使得人類(lèi)變得比預(yù)期中更容易預(yù)測(cè)得多。爆發(fā)模式的揭示,其影響力將與20世紀(jì)初期的物理學(xué)或者基因革命的影響力不相上下。
《數(shù)學(xué)之美》作者:吳軍幾年前,“數(shù)學(xué)之美”系列文章原刊載于谷歌黑板報(bào),獲得上百萬(wàn)次點(diǎn)擊,得到讀者高度評(píng)價(jià)。讀者說(shuō),讀了“數(shù)學(xué)之美”,才發(fā)現(xiàn)大學(xué)時(shí)學(xué)的數(shù)學(xué)知識(shí),比如馬爾可夫鏈、矩陣計(jì)算,甚至余弦函數(shù)原來(lái)都如此親切,并且栩栩如生,才發(fā)現(xiàn)自然語(yǔ)言和信息處理這么有趣。今年,作者吳軍博士幾乎把所有文章都重寫(xiě)了一遍,為的是把高深的數(shù)學(xué)原理講得更加通俗易懂,讓非專(zhuān)業(yè)讀者也能領(lǐng)略數(shù)學(xué)的魅力。讀者通過(guò)具體的例子學(xué)到的是思考問(wèn)題的方式 —— 如何化繁為簡(jiǎn),如何用數(shù)學(xué)去解決工程問(wèn)題,如何跳出固有思維不斷去思考創(chuàng)新。
《復(fù)雜性》作者:[美]尼古拉斯·雷舍爾翻譯:吳彤你接觸到了一件事,“復(fù)雜性”,知道了事情復(fù)雜到一定程度,就不可能用尋找因果的方法去進(jìn)行預(yù)測(cè)。那么到底什么是復(fù)雜性,它的本質(zhì)和原理是什么?想成為大數(shù)據(jù)高手,你不能對(duì)此一無(wú)所知,因?yàn)槟銓⒁惠呑优c復(fù)雜甚至是極其復(fù)雜的事情打交道。推薦這本書(shū)還有個(gè)原因。大家都知道大數(shù)據(jù)是研究數(shù)據(jù)的相關(guān)性,即找出數(shù)據(jù)之間的關(guān)系。當(dāng)我經(jīng)歷了15年統(tǒng)計(jì)學(xué)人工智能數(shù)據(jù)相關(guān)性的探索和研究,感覺(jué)已經(jīng)研究得差不多了,但又覺(jué)得要解決所有的問(wèn)題還有不小的距離,這時(shí)就感到很迷茫,不知下一步的研究該往何方去,有種路越走越窄的感覺(jué),又有一種達(dá)到頂峰的幻覺(jué),直到看到這本書(shū)中的一句話(huà):“可以考慮它們的關(guān)系,再考慮這些關(guān)系中的關(guān)系,如此下去?!贝蠹仪f(wàn)不要小看這句話(huà)中的“如此下去”幾個(gè)字,他指明了一個(gè)無(wú)窮疊代,即 “關(guān)系的關(guān)系的……關(guān)系”,而智能將在這里涌現(xiàn),解決復(fù)雜性問(wèn)題預(yù)測(cè)的關(guān)鍵很可能就在這里,這句話(huà)打開(kāi)了一個(gè)非常廣闊的前景,將象宇宙一樣沒(méi)有窮盡。
《量子物理史話(huà)》作者:曹天元你一定有疑問(wèn),“這本書(shū)就能讓我改變世界觀?”那么我們就來(lái)看看書(shū)中說(shuō)些什么吧:量子世界的本質(zhì)是“隨機(jī)性”。傳統(tǒng)觀念中的嚴(yán)格因果關(guān)系在量子世界是不存在的,必須以一種統(tǒng)計(jì)性的解釋來(lái)取而代之,波函數(shù)ψ就是一種統(tǒng)計(jì),它的平方代表了粒子在某處出現(xiàn)的概率。當(dāng)我們說(shuō)“電子出現(xiàn)在x處”時(shí),我們并不知道這個(gè)事件的“原因”是什么,它是一個(gè)完全隨機(jī)的過(guò)程,沒(méi)有因果關(guān)系。因果性必須死,因?yàn)槲锢韺W(xué)需要生!停止?fàn)幷摪?,上帝真的擲骰子!隨機(jī)性是世界的基石,當(dāng)電子出現(xiàn)在這里時(shí),它是一個(gè)隨機(jī)的過(guò)程,并不需要有誰(shuí)給它加上難以忍受的條條框框?!y(tǒng)計(jì)規(guī)律則把微觀上的無(wú)法無(wú)天抹平成為宏觀上的井井有條?!浴读孔游锢硎吩?huà)》“統(tǒng)計(jì)規(guī)律則把微觀上的無(wú)法無(wú)天抹平成為宏觀上的井井有條”,這句話(huà)實(shí)際上就是表明,統(tǒng)計(jì)方法可以使極其復(fù)雜的隨機(jī)事件成為可預(yù)測(cè)。我認(rèn)為,社會(huì)、市場(chǎng)、股票等等與量子世界有著很多相似之處。由于量子理論實(shí)際上是從最本質(zhì)上去研究我們存在于其中的這個(gè)世界,因此正如書(shū)中的一句話(huà):“這個(gè)世界的本質(zhì):它本就是統(tǒng)計(jì)性的!
《統(tǒng)計(jì)自然語(yǔ)言處理基礎(chǔ)》作者:[美]Christopher D. Manning[德]hinrich Schutze翻譯:苑春法 李慶中 王昀 李偉 曹德芳等你可能有一個(gè)疑問(wèn),為什么是“語(yǔ)言”,這有兩個(gè)原因:第一,在計(jì)算機(jī)專(zhuān)業(yè),數(shù)據(jù)并不僅僅是指數(shù)字,文字、圖片、聲音、視頻等都叫數(shù)據(jù);第二,語(yǔ)言比數(shù)字難很多,如果你能處理語(yǔ)言,那處理純數(shù)字就容易很多。你可能還有一個(gè)疑問(wèn),統(tǒng)計(jì)自然語(yǔ)言處理與一般的自然語(yǔ)言處理有什么本質(zhì)不同之處?統(tǒng)計(jì)自然語(yǔ)言處理是更接近自然的自然語(yǔ)言處理方式(繞口令?),也就是說(shuō)更接近我們?nèi)说奶幚矸绞?,甚至可以說(shuō)就是人或自然的處理方式,只是人的大腦處理方式更復(fù)雜而已,但本質(zhì)是一樣的。讀完了這本書(shū),不代表你就成為大數(shù)據(jù)高手了,實(shí)際上它只是為你打下基礎(chǔ)知識(shí),真正掌握大數(shù)據(jù)的方法,需要你在這個(gè)基礎(chǔ)上去探索或者說(shuō)悟出來(lái)。