02.数据获取和处理常识 - 一点微小的工作

课前准备：
- 安装好WSL，具体可以看微软的官方教程，记得先更新系统到最新
- 安装Visual Studio Code，可以直接通过Win10/11的应用商店安装
获取数据的途径
- 他人整理，是否知情同意：
  - 公开数据集（拥有者/整理者主动提供）：
    - 一份非常全面的开源数据集
    - 20个安全可靠的免费数据源
    - 机器学习数据集
    - 中文自然语言处理数据集
    - NLP民工的乐园: 几乎最全的中文NLP资源库
    - 史上最大规模1.4亿中文知识图谱开源下载
    - 维基百科：会定时将语料库打包发布
      - 数据处理教程
      - 数据下载地址
    - GDELT
  - 数据交易（提供方未必合法拥有处置权）：
    - 市场推动：主流的数据供应商
    - 政府主导：上海数据交易所等
    - 法外之地：暗网交易、恶意泄露等
- 自行获取
  - 是否知情同意：
    - API调用（平台提供接口，需求方调用，遵循规则）：
      - Open API是一种市场策略，不同平台开放程度差异巨大。
      - 可以参阅我的硕士论文
      - 海量的公共、免费API 聚合列表
      - Awesome APIs：另一份列表且有中文说明
    - 爬虫获取（需求方主动设法获取）：
      - 政府网站：往往疏于防范
      - 商业网站：一般会有反爬机制
  - 具体如何实现：
    - 使用现成的软件工具：不懂代码也能爬取数据？试试这几个工具
    - 编写或改写程序代码：善用Google、GitHub和Stack Overflow
数据存在的形式
- 非结构化和半结构化，需要额外处理
- 结构化
  - 文本形式
    - 带分隔符的纯文本，可以理解为表格结构
    - Json等key/value结构的文本
  - 数据库或其导出形式
    - 传统SQL
    - 流行的NoSQL
数据的质量：参考《数据变现》第10章：数据开发，有条不紊
数据的规模，决定了处理手段
- 百M及以下：Windows下常用工具能打开处理的
- G级别：Linux下的文本处理工具、单机专用软件能处理的
- 百G级别以上：专用的大数据甚至是分布式的大数据处理工具
实际案例
- NED资助情况数据获取和处理
- 美国政府网站公布的希拉里邮件原件获取
- 某通用学术数据库的查询结果获取
- 某专业知识数据库的查询结果获取
- 境内某社交平台特定用户的信息和发言获取
- 境外某社交平台特定用户的发言获取
技能要求：可以系统学习本站另外一门课程《网络传播技术与应用》
- 终端仿真器的使用
- http协议常识
- Html/CSS/JS等前端开发常识
- RESTfull API等数据交换方式
- 理解程序、软件和服务
- 爬虫相关知识：推荐崔庆才老师
- 文本数据处理常识
- 数据库基本知识
- 大数据处理常识