機器學習與數據科學的理論與應用 [2-3-3]
#大數據 #數據科學 #計算機應用 #機器學習
教授簡介
任職學校
麻省理工學院(Massachusetts Institute of Technology),簡稱“麻省理工”(MIT),位於美國麻塞諸瑟州波士頓區劍橋市,是世界著名私立研究型大學。
麻省理工素以頂尖的工程學和計算機科學而著名,擁有麻省理工人工智慧實驗室(MITCSAIL)、林肯實驗室(MIT Lincoln Lab)和麻省理工學院媒體實驗室(MIT Media Lab),其研究人員發明了萬維網、GNU 系統、Emacs 編輯器、RSA 演算法等等。
麻省理工的計算機工程、電機工程等諸多工程學領域在 2019-2020 年世界大學學術排名中位列世界前五,與斯坦福大學、加州大學伯克利分校一同被稱為工程科技界的學術領袖。
截止至 2019 年 10 月,麻省理工學院的校友、教職工及研究人員中,共產生了 97 位諾貝爾獎得主(世界第五)、8 位菲爾茲獎得主(世界第八)以及 26 位圖靈獎得主(世界第二)。
課程介紹
職場社交網站LinkedIn發佈報告,列出了美國增長最快的工作職缺,排在前兩位的是機器學習和數據科學。在排名前十的職缺中,有四個都與數據科學有關,而且其中三個都位列前五。
為什麼數據科學、機器學習職缺增長得如此之快呢?
數據科學涉及統計學、資訊學、計算、通訊、社會學、管理等多個知識領域的融會貫通,故數據科學的理論是以這些學科的理論為基礎。目前數據科學所涉及的數據分析技術包括:統計學、計算機科學、機器學習、數據可視化等多方面。
機器學習是數據科學的重要組成部分,也是人工智慧的一個重要分支,機器學習演算法的主要目標是對數據進行分析得出規律,利用規律對未知的數據進行預測。可以看到,機器學習演算法的目標是從數據中挖掘或者統計出有用的信息、知識乃至智慧。
機器學習領域中的深度學習技術能有效地分析處理大數據,近些年深度學習技術的興起,使得機器學習作為數據科學中的一種技術,得到了更多的關注。
課程選擇
☰ 人工智慧:機器學習和深度學習
在本課程中,學員將與教授一起了解機器學習和數據科學的基礎理論和方法,探討機器學習和數據科學在業界和學界的最新動態及應用。
還將討論以深度學習為例的改變了機器學習領域的新技術。學生還將接觸到現實世界中的問題,在這些問題中,將使用機器學習或深度學習中的各種工具給出和分析樣本數據,以及用Python及其中的深度學習框架實現所學演算法的實踐。
本方向研究涵蓋:
1.機器學習基礎知識
2.神經網路
3.用Python機器學習
4.深入學習
5.深度學習的應用
6.機器學習中的生成模型
☰ 數據科學:數據處理與統計分析研究
數據呈現是所有數據分析的基礎,好的數據特徵呈現可以使得整個分析獲得更好的結果,這部分重點回顧了基於深度學習的特徵呈現方法以及國內外進展情況。
大數據不僅僅是體量大,還存在複雜的結構,多源異構屬於複雜數據中的一種,隨著數據採集設備的發展,通常一個目標存在多種呈現,即構成目標的多模態(多視圖)呈現。這部分重點給出多模態分類器學習、多模態子空間學習和多模態相似性度量等相關工作的研究進展。
互動式大數據是由多個行為實體共同作用產生的。在該方面,本文將主要從強化學習和多 agent 博弈等方面對相關研究進行介紹。
本方向研究涵蓋:
1.大數據
2.數據挖掘大數據
3.可視化大數據
4.數據科學方法
5.大數據的機器學習
6.儲存大數據
☰ 計算機科學:Python在網路爬蟲、機器學習及數據可視化中的應用
從Python程式設計的基礎理論知識入手,循序漸進學習Python的專案開發,並通過引入實際案例的學習,幫助學生更好的系統性學習Python,做到理論與實踐相結合,方法與應用相結合。本課程除要求學生掌握Python語言的運用,更重要的是要求學生擁有分析問題、解決問題的能力和學以致用的思想,為更深入地學習和今後的實踐打下良好的基礎。
了解機器學習的基本概念;了解機器學習的分類,包括監督學習、非監督學習、半監督學習和強化學習;了解對於多分類任務常用的評價指標;了解卷積神經網路的概念和深度神經網路的基本元件。
了解MATLAB和Python在數據分析與可視化上各自的特點;了解NumPy的使用方法;了解Pandas的使用方法;了解Matplotlib的使用方法;了解SciPy與SymPy這兩種函式庫。
☰ 計算機應用:人工智慧演算法在物理領域中的具體應用
學生需要通過閱讀相關文獻對人工智慧的實例進行深入學習,分析其應用背景的特點與人工智慧在該領域應用的主要難點。通過比較既有研究在該方面的成果,分析不同下降演算法對於人工智慧在該問題上的學習效率與學習強度的影響。
查找人工智慧實例;分析人工智慧演算法結構;分析人工智慧如何處理特定領域的問題。