计算传播学

02.数据获取和处理常识

· 更新于 2022年10月27日

  • 课前准备:

    • 安装好WSL,具体可以看微软的官方教程,记得先更新系统到最新
    • 安装Visual Studio Code,可以直接通过Win10/11的应用商店安装
  • 获取数据的途径

  • 数据存在的形式

    • 非结构化和半结构化,需要额外处理
    • 结构化
      • 文本形式
        • 带分隔符的纯文本,可以理解为表格结构
        • Json等key/value结构的文本
      • 数据库或其导出形式
        • 传统SQL
        • 流行的NoSQL
  • 数据的质量:参考《数据变现》第10章:数据开发,有条不紊

  • 数据的规模,决定了处理手段

    • 百M及以下:Windows下常用工具能打开处理的
    • G级别:Linux下的文本处理工具、单机专用软件能处理的
    • 百G级别以上:专用的大数据甚至是分布式的大数据处理工具
  • 实际案例

    • NED资助情况数据获取和处理
    • 美国政府网站公布的希拉里邮件原件获取
    • 某通用学术数据库的查询结果获取
    • 某专业知识数据库的查询结果获取
    • 境内某社交平台特定用户的信息和发言获取
    • 境外某社交平台特定用户的发言获取
  • 技能要求:可以系统学习本站另外一门课程《网络传播技术与应用》

    • 终端仿真器的使用
    • http协议常识
    • Html/CSS/JS等前端开发常识
    • RESTfull API等数据交换方式
    • 理解程序、软件和服务
    • 爬虫相关知识:推荐崔庆才老师
    • 文本数据处理常识
    • 数据库基本知识
    • 大数据处理常识