第一节课
课程介绍
机器学习的应用,生产,推荐,预测,无人车
工作流程:问题,收集数据,训练,部署,监控
预测值叫回归
问题:将问题变成机器学习问题,缺高质量数据,训练模型贵,长期监控模型,公平性问题(由数据引发的)
将人分类(四类):领域专家,数据科学家,机器学习专家,sde(训练模型)
第二节课
数据的获取
找已经有的数据集,数据的采集
常见的数据集怎么来到,mnlist,imagenet,audioset(网上爬)
paperwithcodes论文实现方法kaggle竞赛的数据google dateset
学术数据集,竞赛数据集,原始数据集
数据融合
不同表的数据给他融合起来,数据库的join(连接)
找朱列,处理缺失值,解决重复,
生成数据集
gans生成网站,数据增强(旋转,加噪)(文本的翻译再翻译回来)
第四节课
数据标注
是否有足够多的标注—(有一点)半监督学习—(是否有钱—众包)—(啥都没有)弱监督学习
半监督学习,一些小的标注数据,与大的无标注数据。一些假设,聚类的假设,流形假设(降维)
自学习:小标号数据训练,给大无标号数据标号,不断循环 (置信度)
众包:imagenet,任务比较简单,成本,质量的控制
主动学习:每次给最重要的数据去标记(通过QBC投票)
弱监督学习:半自动生成标号,数据编程(总结规律给你结论)