点开工具、字典、anything

默认页面

<h4>名称</h4> <p>小板凳群相册（小程序）</p> <h4>视频数据格式</h4> <p>对于视频，我们这边需要爬取以下几个属性：</p> <ul> <li>标题（如果没有就对视频地址做 Md5,作为唯一标识，保证不重复即可） </li> <li>分享图（三张，可以都一样）</li> <li>视频 url （如果是 m3u8, 需要用工具转化为 mp4）</li> </ul> <p>保存需要增加如下信息</p> <ul> <li>爬虫源唯一标识 c_type_id</li> </ul> <h4>需要请求的后端接口</h4> <h5>1. 判断标题是否存在</h5> <p>url : <a href="http://ydadmindev3.heywoodsminiprogram.com/articles/check_article_name">http://ydadmindev3.heywoodsminiprogram.com/articles/check_article_name</a> （测试） url : <a href="http://ydadmin.heywoodsminiprogram.com">http://ydadmin.heywoodsminiprogram.com</a> （正式）</p> <p>请求参数 'title': title</p> <h5>2. 请求上传凭证，执行上传</h5> <p>url : <a href="https://devali-service.heywoodsminiprogram.com/api/backstage/vod/upload_auth_without_sign">https://devali-service.heywoodsminiprogram.com/api/backstage/vod/upload_auth_without_sign</a> (测试) url : <a href="https://aliservice.heywoodsminiprogram.com/">https://aliservice.heywoodsminiprogram.com/</a> （正式）</p> <p>请求参数，在头部加上 access-key-id = test_ak 详细见:<a href="https://www.showdoc.cc/344608763388140?page_id=2201529503595178">https://www.showdoc.cc/344608763388140?page_id=2201529503595178</a></p> <h5>3. 保存接口</h5> <p>接口：<a href="http://ydadmindev3.heywoodsminiprogram.com/crawler_data/submit">http://ydadmindev3.heywoodsminiprogram.com/crawler_data/submit</a> url : <a href="http://ydadmin.heywoodsminiprogram.com">http://ydadmin.heywoodsminiprogram.com</a> （正式）</p> <p>具体参数 <a href="https://www.showdoc.cc/48641121738702?page_id=1267000968414179">https://www.showdoc.cc/48641121738702?page_id=1267000968414179</a> 视频保存的参数：</p> <pre><code> ['c_id'] // 该文章在爬虫源那边的唯一标识 ["title"] // 标题 ["share_title"] // 和上面一直即可 ["share_thumb"] // 分享图 ["cover_thumb"] // 分享图 ["recommend_thumb"] // 分享图 ["call_json"] = json.dumps(deal_data) // 对原先的爬虫内容进行json，方便后面排查 ['article_type'] = 2 // 2 代表视频类型 ['c_type_id'] = 唯一标识，新的爬虫源需要先到后台设置 ["url"] = '' // 视频的url ['file_id'] = '获取凭证拿到的video_id' ['bg_img'] = '' // 视频类型的为空即可 ["descr"] = '' // 视频类型的为空即可 ["column_name"] = '' // 视频类型的为空即可</code></pre> <p>图文的保存的参数：</p> <pre><code> ['c_id'] // 该文章在爬虫源那边的唯一标识 ["title"] // 标题 ["descr"] // 爬虫的html文本内容 ["share_title"] // 和上面一直即可 ["share_thumb"] // 分享图 ["cover_thumb"] // 分享图 ["recommend_thumb"] // 分享图 ["column_name"] = 这个随便取个名字 “公众号” ['article_type'] = 1 // 类型是 1 ["call_json"] // 对原先的爬虫内容进行json，方便后面排查 ["url"] = "" // 文章类型的不用穿 </code></pre> <h4>详细步骤</h4> <ol> <li>爬取信息，保存成一定格式的文件 </li> <li>根据信息下载视频，图片 </li> <li>将图片视频上传到云上面 </li> <li>保存数据库信息</li> </ol>

页面列表