点开工具、字典、anything


默认页面

<h4>名称</h4> <p>小板凳群相册 (小程序)</p> <h4>视频数据格式</h4> <p>对于视频,我们这边需要爬取以下几个属性:</p> <ul> <li>标题 (如果没有就对视频地址做 Md5,作为唯一标识,保证不重复即可) </li> <li>分享图 (三张,可以都一样)</li> <li>视频 url (如果是 m3u8, 需要用工具转化为 mp4)</li> </ul> <p>保存需要增加如下信息</p> <ul> <li>爬虫源唯一标识 c_type_id</li> </ul> <h4>需要请求的后端接口</h4> <h5>1. 判断标题是否存在</h5> <p>url : <a href="http://ydadmindev3.heywoodsminiprogram.com/articles/check_article_name">http://ydadmindev3.heywoodsminiprogram.com/articles/check_article_name</a> (测试) url : <a href="http://ydadmin.heywoodsminiprogram.com">http://ydadmin.heywoodsminiprogram.com</a> (正式)</p> <p>请求参数 'title': title</p> <h5>2. 请求上传凭证,执行上传</h5> <p>url : <a href="https://devali-service.heywoodsminiprogram.com/api/backstage/vod/upload_auth_without_sign">https://devali-service.heywoodsminiprogram.com/api/backstage/vod/upload_auth_without_sign</a> (测试) url : <a href="https://aliservice.heywoodsminiprogram.com/">https://aliservice.heywoodsminiprogram.com/</a> (正式)</p> <p>请求参数 ,在头部加上 access-key-id = test_ak 详细见:<a href="https://www.showdoc.cc/344608763388140?page_id=2201529503595178">https://www.showdoc.cc/344608763388140?page_id=2201529503595178</a></p> <h5>3. 保存接口</h5> <p>接口:<a href="http://ydadmindev3.heywoodsminiprogram.com/crawler_data/submit">http://ydadmindev3.heywoodsminiprogram.com/crawler_data/submit</a> url : <a href="http://ydadmin.heywoodsminiprogram.com">http://ydadmin.heywoodsminiprogram.com</a> (正式)</p> <p>具体参数 <a href="https://www.showdoc.cc/48641121738702?page_id=1267000968414179">https://www.showdoc.cc/48641121738702?page_id=1267000968414179</a> 视频保存的参数:</p> <pre><code> ['c_id'] // 该文章在爬虫源那边的唯一标识 ["title"] // 标题 ["share_title"] // 和上面一直即可 ["share_thumb"] // 分享图 ["cover_thumb"] // 分享图 ["recommend_thumb"] // 分享图 ["call_json"] = json.dumps(deal_data) // 对原先的爬虫内容进行json,方便后面排查 ['article_type'] = 2 // 2 代表视频类型 ['c_type_id'] = 唯一标识,新的爬虫源需要先到后台设置 ["url"] = '' // 视频的url ['file_id'] = '获取凭证拿到的video_id' ['bg_img'] = '' // 视频类型的为空即可 ["descr"] = '' // 视频类型的为空即可 ["column_name"] = '' // 视频类型的为空即可</code></pre> <p>图文的保存的参数:</p> <pre><code> ['c_id'] // 该文章在爬虫源那边的唯一标识 ["title"] // 标题 ["descr"] // 爬虫的html文本内容 ["share_title"] // 和上面一直即可 ["share_thumb"] // 分享图 ["cover_thumb"] // 分享图 ["recommend_thumb"] // 分享图 ["column_name"] = 这个随便取个名字 “公众号” ['article_type'] = 1 // 类型是 1 ["call_json"] // 对原先的爬虫内容进行json,方便后面排查 ["url"] = "" // 文章类型的不用穿 </code></pre> <h4>详细步骤</h4> <ol> <li>爬取信息,保存成一定格式的文件 </li> <li>根据信息下载视频,图片 </li> <li>将图片视频上传到云上面 </li> <li>保存数据库信息</li> </ol>

页面列表

ITEM_HTML