默认页面
<h4>名称</h4>
<p>小板凳群相册 (小程序)</p>
<h4>视频数据格式</h4>
<p>对于视频,我们这边需要爬取以下几个属性:</p>
<ul>
<li>标题 (如果没有就对视频地址做 Md5,作为唯一标识,保证不重复即可) </li>
<li>分享图 (三张,可以都一样)</li>
<li>视频 url (如果是 m3u8, 需要用工具转化为 mp4)</li>
</ul>
<p>保存需要增加如下信息</p>
<ul>
<li>爬虫源唯一标识 c_type_id</li>
</ul>
<h4>需要请求的后端接口</h4>
<h5>1. 判断标题是否存在</h5>
<p>url : <a href="http://ydadmindev3.heywoodsminiprogram.com/articles/check_article_name">http://ydadmindev3.heywoodsminiprogram.com/articles/check_article_name</a> (测试)
url : <a href="http://ydadmin.heywoodsminiprogram.com">http://ydadmin.heywoodsminiprogram.com</a> (正式)</p>
<p>请求参数 'title': title</p>
<h5>2. 请求上传凭证,执行上传</h5>
<p>url : <a href="https://devali-service.heywoodsminiprogram.com/api/backstage/vod/upload_auth_without_sign">https://devali-service.heywoodsminiprogram.com/api/backstage/vod/upload_auth_without_sign</a> (测试)
url : <a href="https://aliservice.heywoodsminiprogram.com/">https://aliservice.heywoodsminiprogram.com/</a> (正式)</p>
<p>请求参数 ,在头部加上 access-key-id = test_ak
详细见:<a href="https://www.showdoc.cc/344608763388140?page_id=2201529503595178">https://www.showdoc.cc/344608763388140?page_id=2201529503595178</a></p>
<h5>3. 保存接口</h5>
<p>接口:<a href="http://ydadmindev3.heywoodsminiprogram.com/crawler_data/submit">http://ydadmindev3.heywoodsminiprogram.com/crawler_data/submit</a>
url : <a href="http://ydadmin.heywoodsminiprogram.com">http://ydadmin.heywoodsminiprogram.com</a> (正式)</p>
<p>具体参数
<a href="https://www.showdoc.cc/48641121738702?page_id=1267000968414179">https://www.showdoc.cc/48641121738702?page_id=1267000968414179</a>
视频保存的参数:</p>
<pre><code> ['c_id'] // 该文章在爬虫源那边的唯一标识
["title"] // 标题
["share_title"] // 和上面一直即可
["share_thumb"] // 分享图
["cover_thumb"] // 分享图
["recommend_thumb"] // 分享图
["call_json"] = json.dumps(deal_data) // 对原先的爬虫内容进行json,方便后面排查
['article_type'] = 2 // 2 代表视频类型
['c_type_id'] = 唯一标识,新的爬虫源需要先到后台设置
["url"] = '' // 视频的url
['file_id'] = '获取凭证拿到的video_id'
['bg_img'] = '' // 视频类型的为空即可
["descr"] = '' // 视频类型的为空即可
["column_name"] = '' // 视频类型的为空即可</code></pre>
<p>图文的保存的参数:</p>
<pre><code> ['c_id'] // 该文章在爬虫源那边的唯一标识
["title"] // 标题
["descr"] // 爬虫的html文本内容
["share_title"] // 和上面一直即可
["share_thumb"] // 分享图
["cover_thumb"] // 分享图
["recommend_thumb"] // 分享图
["column_name"] = 这个随便取个名字 “公众号”
['article_type'] = 1 // 类型是 1
["call_json"] // 对原先的爬虫内容进行json,方便后面排查
["url"] = "" // 文章类型的不用穿
</code></pre>
<h4>详细步骤</h4>
<ol>
<li>爬取信息,保存成一定格式的文件 </li>
<li>根据信息下载视频,图片 </li>
<li>将图片视频上传到云上面 </li>
<li>保存数据库信息</li>
</ol>