-
课前准备:
- 安装好WSL,具体可以看微软的官方教程,记得先更新系统到最新
- 安装Visual Studio Code,可以直接通过Win10/11的应用商店安装
-
获取数据的途径
- 他人整理,是否知情同意:
- 公开数据集(拥有者/整理者主动提供):
- 一份非常全面的开源数据集
- 20个安全可靠的免费数据源
- 机器学习数据集
- 中文自然语言处理数据集
- NLP民工的乐园: 几乎最全的中文NLP资源库
- 史上最大规模1.4亿中文知识图谱开源下载
- 维基百科:会定时将语料库打包发布
- GDELT
- 数据交易(提供方未必合法拥有处置权):
- 市场推动:主流的数据供应商
- 政府主导:上海数据交易所等
- 法外之地:暗网交易、恶意泄露等
- 公开数据集(拥有者/整理者主动提供):
- 自行获取
- 是否知情同意:
- API调用(平台提供接口,需求方调用,遵循规则):
- Open API是一种市场策略,不同平台开放程度差异巨大。
- 可以参阅我的硕士论文
- 海量的公共、免费API 聚合列表
- Awesome APIs:另一份列表且有中文说明
- 爬虫获取(需求方主动设法获取):
- 政府网站:往往疏于防范
- 商业网站:一般会有反爬机制
- API调用(平台提供接口,需求方调用,遵循规则):
- 具体如何实现:
- 使用现成的软件工具:不懂代码也能爬取数据?试试这几个工具
- 编写或改写程序代码:善用Google、GitHub和Stack Overflow
- 是否知情同意:
- 他人整理,是否知情同意:
-
数据存在的形式
- 非结构化和半结构化,需要额外处理
- 结构化
- 文本形式
- 带分隔符的纯文本,可以理解为表格结构
- Json等key/value结构的文本
- 数据库或其导出形式
- 传统SQL
- 流行的NoSQL
- 文本形式
-
数据的质量:参考《数据变现》第10章:数据开发,有条不紊
-
数据的规模,决定了处理手段
- 百M及以下:Windows下常用工具能打开处理的
- G级别:Linux下的文本处理工具、单机专用软件能处理的
- 百G级别以上:专用的大数据甚至是分布式的大数据处理工具
-
实际案例
- NED资助情况数据获取和处理
- 美国政府网站公布的希拉里邮件原件获取
- 某通用学术数据库的查询结果获取
- 某专业知识数据库的查询结果获取
- 境内某社交平台特定用户的信息和发言获取
- 境外某社交平台特定用户的发言获取
-
技能要求:可以系统学习本站另外一门课程《网络传播技术与应用》
- 终端仿真器的使用
- http协议常识
- Html/CSS/JS等前端开发常识
- RESTfull API等数据交换方式
- 理解程序、软件和服务
- 爬虫相关知识:推荐崔庆才老师
- 文本数据处理常识
- 数据库基本知识
- 大数据处理常识
计算传播学