顯示具有 資料科學 標籤的文章。 顯示所有文章
顯示具有 資料科學 標籤的文章。 顯示所有文章

2021年7月23日 星期五

提供數據與接收數據的後端工具-初探Node.js與RESTful API

  能心平氣和的工作,應該是職場上最基本的需求之一吧!前一陣子在不適合自己的職場環境待了三個月,在試用期的最後一週提出離職,卻也發現原來自己多麼不喜歡那份工作:才三個月就讓人每天鬱鬱寡歡,知識技能也無成長,更領著感到「雞肋」的薪資,以及天天忍受塞車通勤的鬱悶。離職之後反而過得充實,一邊求職一邊充電,要更謹慎地做出職涯規劃。

  轉職,真的是段讓人感到焦慮的過程,但是藉由觀察求職市場上的職缺,我們可以更清楚地了解資訊工作的趨勢為何。由於自己是資料科學相關背景的資訊學習者,因此求職初期,以「資料分析師」與「資料工程師」作為目標,然而透過每日檢視人力銀行的職缺配對信,我發現了「後端」、「DevOps」、「SRE」相關的工作反而會主動找上門,而且這些職缺與數據工作都有或多或少的關係,因此此篇學習筆記,我將整理這段求職期,自學Node.js實作RESTful API的相關內容。

  當工作中需要收集資料時,API往往是我們重要的幫手,例如我之前寫的文章「News API新聞擷取的好幫手 - 使用Python」;但是大家有沒有想過,自己也會碰到需要提供他人資料的狀況,這種時候我們就需要有實作API的概念囉!但是為何在資料科學領域,甚至是前陣子我參加的「巨量資料分析就業養成班(BDSE)」,都沒有API相關的課程教學呢?主要原因是實作API的過程,屬於後端與資料庫的領域,這次我所學習的Node.js,是使用JavaScript而非過往用習慣的Python,因此多數資料科學學習者應該沒接觸過這部分。

  目前我的部落格沒有JavaScript的基礎教學,事實上我的JavaScript能力也是前陣子在BDSE課程才建立的,加上ECMAScript近來每年都釋出新的撰寫規範,有鑑於更新相當快速,因此我也暫不打算將JavaScript的基礎寫法重新整理為網誌文章。

  為了快速養成求職需要的資訊技能,我讀了@andy6804tw的「無到有,打造一個漂亮乾淨俐落的 RESTful API」並將其內容整理如下,這系列文章淺顯易懂地列舉了眾多好用的套件,並給出了簡單的實作範例,還包含簡單的JavaScript基礎教學,但是我在修Bug(原因為這是2017年的文章,部分套件已更換撰寫方式)的時候,發現這系列文章關於RESTful API的程式碼已無法執行,故另外找了腳印哥的「Node.js RESTful Web API 範例 for MySQL」這篇文章繼續研讀實作,才終於實驗成功。

  程式碼的部分是兩位原作者撰寫、整理的,我僅做整理微調,是站在巨人的肩膀才得以完成Node.jsRESTful API的初探,若大家想要將範例的MySQL/ Maria DB改成其它資料庫如PostgreSQL等,就得再額外花時間研究相應資料庫套件的用法囉。

2019年11月14日 星期四

SQL商業資料分析術學習筆記

  有鑑於工作上的需求,閱讀這本由加嵜長門、田宮直人著作,朱浚賢翻譯的《SQL商業資料分析術》,除了因應系統管理員的職務所需,更因應自己對於資料科學的學習需求,閱讀之後個人認為這本書並不是針對初學者所設計,而是一本針對不同資料庫所彙總的大百科,書裡面針對同一種查詢需求,分別列出在PostgreSQLApache HiveAmazon RedshiftGoogle BigQuerySparkSQL資料庫系統上面,應該如何撰寫語法。

  恰巧適逢自己轉職的需求,需要熟悉PostgreSQL資料庫系統,故本學習筆記僅記錄PostgreSQL的語法,並僅收錄「第三章:使用SQL整理數據」以及「第四章:營收狀態相關數據的彙總、分析」的說明範例,其餘後續章節探討的議題如使用者行為、網站指標、精確度、進階數據活用術等,則因其聚焦於某特定需求,加上鮮少使用新的語法,故決定不整理、不收錄至此筆記,俟未來有使用需求,才會再重新借閱、閱讀此書。

2019年10月23日 星期三

不懂程式也能學會的大數據分析術學習筆記

  如同書名,這本由黃柏崴、李童宇所著作的《不懂程式也能學會的大數據分析術》,非常適合沒有任何資料科學背景或經驗的朋友來閱讀,而即便是有經驗的朋友,也能夠透過這本書的分析思維,全盤檢視以往進行資料分析時,是否能針對專案問題,設計出良好的商業目標與資料分析目標,並在專案反覆蒐集資料與調整目標、調整模型的最後,做出適當的評估與說明。

  擔任研究助理的工作當中,接觸與使用過Tableau以及PolyAnalyst,儘管這些商業套裝軟體不需要使用者有編程的經驗,但是若沒有資料分析的知識與經驗,一般人依舊無法單純透過玩玩看、按按看的方法來了解這些軟體的操作方式與運作精隨,此外這些軟體通常價格不斐,不是一般家庭可以負擔的,因此適用性與普及性還不夠好,所以還是建議使用Python按部就班來學習資料分析較恰當。

  儘管商業套裝軟體有上述的缺點,但是以資料分析流程的整體性來說,我們能夠透過軟體中視覺化的流程圖,以及可任意調整的資料探索方式,來做更完善的分析,這方面是使用Python自己來編寫程式無法做到的,因此多數的商業套裝軟體皆支援程式語言操作的方式,來讓自己的軟體更有彈性操作空間。

  本書使用的是擁有免費開放原始碼版本的RapidMiner,沒有限制使用日期,唯有在資料量大、特殊分析需求等情形時,才需要付費升級軟體的功能,這方面對於學習者而言是一大福音,但是學習RapidMiner與學習其它商業套裝軟體相同,軟體中許多的工具與參數設定,仍需要花費大量時間查閱說明文件與實際試驗,以及需要補足資料分析相關知識才比較容易上手。

2019年8月18日 星期日

Access 2016資料庫系統概論與實務學習筆記

  雖然目前的工作內容包含系統管理員的工作,但是自己對於資料庫相關技術與知識並非因此充足,有鑑於目前的自己僅會使用簡單的SQL語法與PythonPandas套件,決定先從Microsoft Office系列的Access著手,以初學者的姿態學習最簡單好用的資料庫工具。這本由王仲麒著作的《Access 2016資料庫系統概論與實務》,會是一本很好的入門書,可以讓讀者掌握好Access的功能架構,並透過範例的說明來學習資料庫系統的規劃。

2019年6月21日 星期五

自製基本的文章分類程式 - 使用Python

  在版主的現職工作中,文章分類的需求越來越高,且索取分類資訊的頻率越來越頻繁,因此必須從以往仰賴特定領域專業人士進行分類,轉變為使用機器學習技術替人們做預先分類的工作,如此一來可以降低人工分類的負擔、改善人工分類準則的不穩定性,且大幅縮減分類所需的時間與金錢成本。

  本篇文章接續〈自製直覺的文章分類程式- 使用Python〉這篇文章的精神,將原本使用集合(Set)進行分類的邏輯大幅強化,改為使用基本的機器學習演算法進行實作,並降低對迴圈的依賴,以提升程式的效率、可讀性,與可維護性,並期許版主自己能夠繼續提升使用這些程式工具的純熟程度。

2019年6月4日 星期二

Python資料科學學習手冊學習筆記 (5) Scikit-Learn - 非監督式學習相關演算法

  不同於先前介紹NumPyPandasMatplotlib等套件時較為混亂的編排,這本由Jake VanderPlas著作,何敏煌譯著的《Python資料科學學習手冊》(Python Data Science Handbook: Essential Tools for Working with Data),在引領讀者探索機器學習領域時,使用口語化、系統化的方式進行說明,如果您對機器學習沒有基礎概念,可以考慮從本書讀起,但是先決條件是必須先熟悉NumPyPandasMatplotlib等套件。

  本書的機器學習篇幅全數在第五章,以Scikit-Learn套件實作並介紹:一、機器學習基本術語和概念;二、常見演算法的原理;三、透過各式應用範例,討論如何選擇使用不同的演算法,與各式功能的調整、判斷。讀完此章節之後,對於簡單的資料集,應該有基本的判斷與處理能力,但對於現實應用,則仍有更多的問題有待解決,需要精進技能並結合更多工具才行。

  距離上一次張貼資料科學相關網誌已有好幾個月的時間,除了本人生活忙碌,更主要的原因是機器學習對於非資訊、統計相關背景的人來說,是一門不容易駕馭的知識技術,面對如此陡峭的學習曲線,需要投資不少時間與心力理解其中的繁瑣細節,不過所幸本書對於機器學習章節的編排,讓我於研讀的過程,有如初學Python程式語言一般,能夠循序漸進地駕馭這門學問。

Python資料科學學習手冊學習筆記 (4) Scikit-Learn - 監督式學習相關演算法

  不同於先前介紹NumPyPandasMatplotlib等套件時較為混亂的編排,這本由Jake VanderPlas著作,何敏煌譯著的《Python資料科學學習手冊》(Python Data Science Handbook: Essential Tools for Working with Data),在引領讀者探索機器學習領域時,使用口語化、系統化的方式進行說明,如果您對機器學習沒有基礎概念,可以考慮從本書讀起,但是先決條件是必須先熟悉NumPyPandasMatplotlib等套件。

  本書的機器學習篇幅全數在第五章,以Scikit-Learn套件實作並介紹:一、機器學習基本術語和概念;二、常見演算法的原理;三、透過各式應用範例,討論如何選擇使用不同的演算法,與各式功能的調整、判斷。讀完此章節之後,對於簡單的資料集,應該有基本的判斷與處理能力,但對於現實應用,則仍有更多的問題有待解決,需要精進技能並結合更多工具才行。

  距離上一次張貼資料科學相關網誌已有好幾個月的時間,除了本人生活忙碌,更主要的原因是機器學習對於非資訊、統計相關背景的人來說,是一門不容易駕馭的知識技術,面對如此陡峭的學習曲線,需要投資不少時間與心力理解其中的繁瑣細節,不過所幸本書對於機器學習章節的編排,讓我於研讀的過程,有如初學Python程式語言一般,能夠循序漸進地駕馭這門學問。

Python資料科學學習手冊學習筆記 (3) Scikit-Learn - 基礎操作概念

  不同於先前介紹NumPyPandasMatplotlib等套件時較為混亂的編排,這本由Jake VanderPlas著作,何敏煌譯著的《Python資料科學學習手冊》(Python Data Science Handbook: Essential Tools for Working with Data),在引領讀者探索機器學習領域時,使用口語化、系統化的方式進行說明,如果您對機器學習沒有基礎概念,可以考慮從本書讀起,但是先決條件是必須先熟悉NumPyPandasMatplotlib等套件。

  本書的機器學習篇幅全數在第五章,以Scikit-Learn套件實作並介紹:一、機器學習基本術語和概念;二、常見演算法的原理;三、透過各式應用範例,討論如何選擇使用不同的演算法,與各式功能的調整、判斷。讀完此章節之後,對於簡單的資料集,應該有基本的判斷與處理能力,但對於現實應用,則仍有更多的問題有待解決,需要精進技能並結合更多工具才行。

  距離上一次張貼資料科學相關網誌已有好幾個月的時間,除了本人生活忙碌,更主要的原因是機器學習對於非資訊、統計相關背景的人來說,是一門不容易駕馭的知識技術,面對如此陡峭的學習曲線,需要投資不少時間與心力理解其中的繁瑣細節,不過所幸本書對於機器學習章節的編排,讓我於研讀的過程,有如初學Python程式語言一般,能夠循序漸進地駕馭這門學問。

2019年1月18日 星期五

Python資料科學學習手冊學習筆記 (2) Matplotlib

  學習了這麼多基礎的Python語言操作,並且學會了基礎的網路擷取技術,但是直到開始閱讀這本書之前,都不算步入資料科學的領域,而是徘徊於基礎的程式語言世界而已,不過儘管如此,應用基礎程式語言替我們帶來的電腦自動化操作,已確實為我們擺脫無聊工作的枷鎖。

  工作上或生活中,難免需要處理多欄位表格資料的清理、篩選、串接、合併、聚合等資訊方面的操作,進而繪製圖表以利掌握數據的整體樣貌,而部落格版主我亦於工作上碰到這方面的問題:使用傳統的程式迴圈雖然也能解決資料處理的問題,但隨著大數據時代的來臨,傳統的程式迴圈顯得極度缺乏效率,版主我曾寫了簡單的三層迴圈以處理工作上臨時性的資料需求,僅僅八千餘筆的資料卻讓該三層迴圈跑了約五分鐘之久才產出結果,萬一程式運作過程出現任何問題,豈不是要重新再耗費一段五分鐘時間?更不用說處理數萬筆、數十萬筆,甚至是真正的大數據時,將耗費極大的時間與運算資源。

  資料科學正是因應大數據與機器學習的崛起,而不斷發光發熱的一門顯學,這本由Jake VanderPlas著作,何敏煌譯著的《Python資料科學學習手冊》(Python Data Science Handbook: Essential Tools for Working with Data),是入門資料科學的良好讀物,作者詳盡說明了NumPyPandasMatplotlibScikit-Learn四大資料科學相關之Python套件的操作方法,並透過各式範例展現這些套件工具的靈活應用性與高效率運算能力。

  本書適合已擁有基礎Python能力的人閱讀,且閱讀本書時可能需要自行整理本書重點,因為本書將各套件功能詳盡說明,編排時不免顯得些許混雜,若沒有自行梳理程式邏輯的習慣,閱讀起來可能會覺得混亂,而難以駕馭本書所介紹的各項功能強大且好用的程式工具。

2019年1月17日 星期四

Python資料科學學習手冊學習筆記 (1) NumPy & Pandas

  學習了這麼多基礎的Python語言操作,並且學會了基礎的網路擷取技術,但是直到開始閱讀這本書之前,都不算步入資料科學的領域,而是徘徊於基礎的程式語言世界而已,不過儘管如此,應用基礎程式語言替我們帶來的電腦自動化操作,已確實為我們擺脫無聊工作的枷鎖。

  工作上或生活中,難免需要處理多欄位表格資料的清理、篩選、串接、合併、聚合等資訊方面的操作,進而繪製圖表以利掌握數據的整體樣貌,而部落格版主我亦於工作上碰到這方面的問題:使用傳統的程式迴圈雖然也能解決資料處理的問題,但隨著大數據時代的來臨,傳統的程式迴圈顯得極度缺乏效率,版主我曾寫了簡單的三層迴圈以處理工作上臨時性的資料需求,僅僅八千餘筆的資料卻讓該三層迴圈跑了約五分鐘之久才產出結果,萬一程式運作過程出現任何問題,豈不是要重新再耗費一段五分鐘時間?更不用說處理數萬筆、數十萬筆,甚至是真正的大數據時,將耗費極大的時間與運算資源。

  資料科學正是因應大數據與機器學習的崛起,而不斷發光發熱的一門顯學,這本由Jake VanderPlas著作,何敏煌譯著的《Python資料科學學習手冊》(Python Data Science Handbook: Essential Tools for Working with Data),是入門資料科學的良好讀物,作者詳盡說明了NumPyPandasMatplotlibScikit-Learn四大資料科學相關之Python套件的操作方法,並透過各式範例展現這些套件工具的靈活應用性與高效率運算能力。

  本書適合已擁有基礎Python能力的人閱讀,且閱讀本書時可能需要自行整理本書重點,因為本書將各套件功能詳盡說明,編排時不免顯得些許混雜,若沒有自行梳理程式邏輯的習慣,閱讀起來可能會覺得混亂,而難以駕馭本書所介紹的各項功能強大且好用的程式工具。

2018年10月21日 星期日

Deep Learning-用Python進行深度學習的基礎理論實作學習筆記

  這本由斎藤康毅著作,吳嘉芳翻譯的深度學習書,是為了湊齊購書免運而額外購買的。個人認為這本書不適合一般人閱讀,除了需要有Python語言的基礎知識,也需要有高中數學的能力(需要用到矩陣運算、微分等技巧,相信很多人的高中數學已經全部還給老師了),否則讀起來將會非常吃力;但若您是資訊工程師,或是擁有基本Python語言與高中數學概念的一般人士,皆會因為這本書,徹底了解深度學習,儘管本書以Python語言實作的內容皆為積木般的小規模試驗,難以大規模應用,但藉由這類組裝積木的過程,相當有助於我們了解深度學習技術的內涵,值得推薦。

2018年9月5日 星期三

自製直覺的文章分類程式 - 使用Python

  擔任研究助理的工作當中,主要任務之一是對資料庫資料進行撈取與分類,撈取的過程就是單純地以關鍵字進行搜尋,然而分類的過程就不容易了,必須自行設定合理的分類架構與分類說明,並實際將這些已撈取的資料分類,若該筆資料可同時歸類在不同類別,亦可重複分類。

  資料分類的過程極其耗時費力又無意義,但是似乎又難以將這樣重複單調的任務標準化、程式化,於是只好先硬著頭皮以人工進行資料分類,觀察以人工分類時可以歸納出怎樣的分類邏輯。這些資料為中文的文章,包含年分、標題、關鍵詞、摘要等眾多欄位,起初分類時,會依自己的經驗,閱讀所有欄位後判斷資料性質再進行分類,但是這樣的做法耗時費力,分類準則變得更加主觀,又容易隨著自己「心中的那把尺」改變而影響分類結果,因此在分類的過程中自己也掙扎了許久。

  其實若要做到非主觀的分類,最後還是得回到「關鍵字」,例如專題主題為「雲端運算」,分類架構包含「財稅」、「警政」、「教育」、「交通」等類別,我們在閱讀資料文章的時候,只要看到「車載」這個關鍵字,就幾乎可以不加思索地將該筆資料歸類在「交通」類別,而只要看到「治安」這個關鍵字,也幾乎可以直接將該筆資料歸類在「警政」類別,因此我們可以發現,資料分類的任務是有跡可循的,我們能夠將之自動化。

  一般來說,文章分類程式會以機器學習、支援向量機(Support Vector Machine, SVM)等方式來製作,因為諸如「車載」、「治安」這類關鍵字不勝枚舉,難以全盤掌握,直接讓程式以機率統計的方式來處理比較好。

2018年8月25日 星期六

News API新聞擷取的好幫手 - 使用Python

  工作上被指派為某些特定的專案(如巨量資料、雲端運算等)收集相關新聞,並更新至公司的網頁系統平台上,然而查找新聞的任務是一件極其耗時費力又無太大意義的工作,因此決定使用Python網站擷取的技術,讓機器人來幫我們收集、整理資料成Excel檔,屆時只要按個按鈕,將Excel檔批次上傳即可;然而當我們實際爬取網頁資料時,才發現各式資料被套疊的格式不一致、資料被層層保護與變造,以及JavaScript與網頁跳轉等的問題,幾乎要逼迫我們放棄使用程式技術來幫我們完成工作,接受土法煉鋼地以人工方式一筆一筆查找新聞資料。

  往往在遇到困難的時候,換個思考方向即可找到更好的解決方案,因此不要埋頭苦幹完成任務,畢竟自己沒有好的編程能力,沒有必要硬是使用目前僅有的技術而顯得黔驢技窮。

  當網站擷取變得越來越困難,專業化的應用服務也會越來越興盛,尤其是新聞擷取這種常見的資訊需求,一定也有API等整理好的資源可以使用,因此我找到了News API,可以完美地幫我們完成收集新聞的任務。News API本身也是透過網站擷取來收集新聞,目前已收集超過30000個出處、54個國家,我們可以查看新聞出處,了解News API已將所有新聞爬得又深又廣,亦不會胡亂擷取內容真實性有疑慮的八卦小報新聞。

2018年8月24日 星期五

網站擷取-使用Python學習筆記 (2) 進階Scraping

  我給予《網站擷取-使用Python(Web Scraping With Python: Collecting More Data from the Modern Web)這本書極高的評價,這本由Ryan Mitchell著作的書籍將「網站擷取」這件事做了全面又淺顯易懂的解釋,從應對各種網站環境的爬蟲技巧,到法律上可能碰到的問題,本書作者給了簡單清楚的原型作法與案例說明,讓您可以擁有良好的網站擷取概觀。

  本書於2018年再推出第二版書籍,將第一版書籍過時的程式碼更新,並添加新的章節,然而本學習筆記僅為第一版書籍的內容,詳細資訊可參考本書作者的GitHub

  資訊領域的發展一日千里,網站擷取這門技術可以說是走在技術最前端,無論是資料保護、偵測機器人Bot、維護伺服器Server資源,還是各種巧取資料的特殊技巧,彼此是競爭的關係,每分每秒總是有人在嘗試各種手段進行資料收集與被收集的攻防戰,因此這些技術極容易過時,儘管如此,本書作者提供了許多良好的編程與解決問題的觀念與想法,能夠讓我們在技術快速更迭之下,有所依循。

  本書建議有基礎Python能力的朋友閱讀,而我是在閱讀《Python自動化的樂趣-搞定重複瑣碎&單調無聊的工作》(Automate the Boring Stuff with Python: Practical Programming for Total Beginners)這本由Al Sweigart著作的書籍之後,發覺這兩本書的內容可以順利銜接,在《Python自動化的樂趣》一書介紹的多數套件模組,在《網站擷取》一書中也都將繼續使用。

網站擷取-使用Python學習筆記 (1) 建構Scraper

  我給予《網站擷取-使用Python(Web Scraping With Python: Collecting More Data from the Modern Web)這本書極高的評價,這本由Ryan Mitchell著作的書籍將「網站擷取」這件事做了全面又淺顯易懂的解釋,從應對各種網站環境的爬蟲技巧,到法律上可能碰到的問題,本書作者給了簡單清楚的原型作法與案例說明,讓您可以擁有良好的網站擷取概觀。

  本書於2018年再推出第二版書籍,將第一版書籍過時的程式碼更新,並添加新的章節,然而本學習筆記僅為第一版書籍的內容,詳細資訊可參考本書作者的GitHub

  資訊領域的發展一日千里,網站擷取這門技術可以說是走在技術最前端,無論是資料保護、偵測機器人Bot、維護伺服器Server資源,還是各種巧取資料的特殊技巧,彼此是競爭的關係,每分每秒總是有人在嘗試各種手段進行資料收集與被收集的攻防戰,因此這些技術極容易過時,儘管如此,本書作者提供了許多良好的編程與解決問題的觀念與想法,能夠讓我們在技術快速更迭之下,有所依循。

  本書建議有基礎Python能力的朋友閱讀,而我是在閱讀《Python自動化的樂趣-搞定重複瑣碎&單調無聊的工作》(Automate the Boring Stuff with Python: Practical Programming for Total Beginners)這本由Al Sweigart著作的書籍之後,發覺這兩本書的內容可以順利銜接,在《Python自動化的樂趣》一書介紹的多數套件模組,在《網站擷取》一書中也都將繼續使用。

2018年8月1日 星期三

從第一份工作初次接觸資料科學 之後...

  我的第一份工作從事研究助理,除了偶爾有自己管理的資訊平台事務需要處理,其餘多數的工作內容盡是些單調、無聊、制式化、無發展性的交辦事項,在偶然接觸Python之後,閱讀由Al Sweigart著的《Python自動化的樂趣-搞定重複瑣碎&單調無聊的工作》,這本書告訴我,原來上級指派給我的交辦事項,多數是可以透過簡單的程式,快速且精準地完成工作內容,而我也實際透過撰寫簡單的程式語言,幫自己節省了數個月的工作時間,從此以後,我再也不相信「工作埋頭苦幹,贏得上司青睞」的那套想法。

  這裡我想要再次呼應我在〈網誌序〉提到的重點-「知道」本身的巨大力量。已經知道程式語言的人,無法揣摩不知道程式語言者,是如何看待學習與應用程式語言這件事。對於初學者而言,可能因為撰寫程式的成就而帶來自信,可能因為資訊領域的浩瀚而帶來恐慌,可能因為學習過程的障礙而選擇退出,也可能因為漫長的學習過程而陷入迷思;但對於資訊專業人員與相關科系出身的人們而言,身處在程式資訊的生態系中,早已「知道」怎麼接觸、學習與應用新技術,進而替自己樹立更高的專業門檻。

2018年1月30日 星期二

Python與R講座筆記

  本篇網誌為筆者參加PythonR相關講座時記錄的講座筆記資料,用以協助自己了解資料科學相關技術與職涯發展契機。

  終身學習總是必要的,尤其是當生活與工作處於重建期的時候,更應該自我充實,讓自己未來的生活與工作能變得更好;由於工作的緣故而接觸資料科學,了解資料科學是一門綜合統計、資訊與專業領域知識的學科,對於大學畢業於科技應用與人力資源發展學系,研究所畢業於企業管理學系碩士班的我而言,會進入資料科學領域,也只是為了以聰明、自動化的方法,處理一些瑣碎、無聊、無意義的工作任務,過去的學科背景並未讓我在學習資料技術上帶來任何優勢;有鑑於目前正在改造生活,經過長考之後,決心也對工作進行改造,讓現在的自己徹底進入生活與工作的重建期。

  PythonR是進入資料科學領域的基本程式技能,也是對初學者極為友善的程式語言,儘管如此,沒有知識、技能與人脈,從零開始,是段艱辛與漫長的旅途,在獲得專業職涯教練的建議,並深思《100歲的人生戰略》與《做自己的生命設計師》這兩本書帶來的啟示之後,才鼓起勇氣從頭打造符合自己人生觀與工作觀的實作技能,替未來的職涯發展奠定基礎。

2017年10月30日 星期一

從第一份工作初次接觸資料科學

  身為一名國立名校企管碩士(MBA),畢業、役畢後選擇的第一份工作卻是定期契約工作,以追求工作挑戰、薪資的企管碩士文化來說,這個選擇是下下之策,然而考量現階段自己沒錢(缺乏有形資產)、沒專業技能(缺乏生產資產)、沒健康身體(缺乏活力資產),以及沒社會人脈(缺乏轉型資產)等「四缺」情形,似乎只能接受這份薪水尚可,唯一好處是工時標準、穩定,每日或多或少有可支配時間的工作。

  由於上述「四缺」,只能透過這份定期契約工作,保留「時間」規劃並重建生活,而重建生活是一條漫長又不確定的過程,各方面的調整都必須接受無數挫敗的考驗,因此繼有形資產、活力資產之後,提出現階段重建生產資產的重要方針:從零開始,學習資料科學相關技能。

  因為工作的緣故,初次接觸資料科學並學習相關技能,對於非資訊、工程相關背景的我而言,需要大量資源、消息來認識這個領域,下列網站、社群與課程連結是我整理出來,學習資料科學相關技能時重要的參考資料,這些資訊會不定時整理更新,其中課程或書籍等學習資源多數需要付費。

網站
社群
2.      資料科學好好玩
3.      104玩數據

課程
4.      TibaMe

工具
2.      Project Jupyter