张宏程

笔记


day9

数据采集

常用的采集方式 1.socket 技术 2.curl采集 3.Querylist 采集 4.file_get_contents

数据采集的步骤

  1. 确定采集的网址
  2. 执行采集
  3. 采集要确定两个方面

  4. 要采集的 网站是否做了防采集
  5. 采集的网址是否需要 进行模拟登录

curl 的特征 模拟浏览器 让对方的服务器感觉是浏览器打开的 伪装浏览器 模拟登录 模拟文本框输入的过程 模拟 cokie

数据采集

图片处理

file_get_contents 获取图片资源

file_put_contents 保存本地

页面列表

ITEM_HTML