
课程简介
「TechX 数据科学入门」将帮助探索者从数据的视角,更好地理解如今各种令人眼花缭乱的新奇技术,了解数据正在如何改变我们的社会与世界。本课程由项目驱动,将设置 5 – 6 个有难度梯度的行业实操项目,并在实施项目过程中介绍线性代数、概率与统计等相关数学基础,以及 Python 科学计算、数据结构等行业实用编程技能与知识。通过这一课程,探索者将入门数据科学,学习数据清洗、数据模式、数据可视化、机器学习算法等相关技术,并将所学知识与技能运用于各类项目开发及其他数据科学分析当中。
课程预计成果
通过这一课程,探索者将入门数据科学,学习数据清洗、数据模式、数据可视化、机器学习算法等相关技术,亲手体验并设计建模,并将所学知识与技能运用于各类项目开发及其他数据科学分析当中。
课程大纲
第一天 课程介绍+基础概念
- 数据科学基本概念
- 发展历史与现状
- 对科学研究的影响和意义
- 课程安排介绍
- 基础知识,包括名词解释、基本流程、常用工具、数据类型
第二天 数据预处理 一
- 大数据核心概念与意义
- 常见数据结构
- 数据评估与清洗
- 数据整理与集成
第三天 数据预处理 二
- 数据转换
- 常见分布 上
- 数据归约
- 数据绘图
第四天 数据分析
- 数据分析介绍
- 数据可视化
- 常见分布 下
第五天 数据挖掘与建模 上
- 数据挖掘
- 数据建模介绍
- 回归模型
- 基础概率论、朴素贝叶斯和进阶贝叶斯
- 数学哲学(概率论相关)
- 分类模型
第六天 数据挖掘与建模 下
- 聚类模型
- 经典算法 上
- 集成模型
第七天 深度学习数学基础
- 中阶线性代数
- 多元微积分
- 降维算法 PCA
第八天 深度学习与神经网络基本概念
- 人工智能基本概念
- 神经网络基本概念
- 深度学习基本概念
- 深度学习、神经科学与认知科学
第九天 经典算法与文献查阅
- 经典算法 下
- 如何查阅与阅读论文并演讲
- 尝试自主查阅最新算法并演讲
前置要求
无硬性要求,但如果探索者已初步掌握线性代数、统计学、概率论、基础 Python 编程等知识更佳。
导师简介
麻省理工学院 UV 新型智慧城市项目任职中国地区执行主席和首席信息科学技术主席,微软认证培训教师,哈尔滨工业大学人工智能研究院任职特任助理研究员。现任 X ACADEMY 2023 TechX 筹备人、导师。研究方向为计算机视觉(多目标跟踪、人体姿态估计、多模态)、机器人、智慧城市。曾开设多门面向本科生、研究生的计算机基础、计算机编程、数据科学入门、人工智能基础、进阶计算机视觉等课程。
学术助教

蒋峻涛
2023
届
纽约大学电子工程专业硕士
MICCAI2022 青光眼 OCT 图像分析与层分割挑战赛奖项获得者,「Vision Meets Algae」藻类图像目标检测系列赛事负责人

李雨菲
2021、2023
届
罗切斯特大学
计算机科学专业;曾在罗切斯特大学 HCI Lab 做过 NADBenchmark 网站开发项目,在 Sage Publishing 参与开发过文章分类的机器模型项目

田朗
2022、2023
届
香港中文大学(深圳)
数据科学专业、校数据科学学院担任研究助理,研究机器学习求解 MIP 问题的学习优化方法

王韩婕
2023
届
香港中文大学(深圳)
统计专业金融方向;曾在某量化机构实习做期货的跨期交易,目前在某会计事务所实习。