需要把淘宝买家数据采集订单抓取出来,求助大神

  • 好的火星老师,我已经添加你頭像旁边的微信了39元能学习您录制的课程,还有您一年的答疑解惑的 确超值。有时候遇到一个问题在网上搜半天都找不到靠谱答案,免费的东西其实更贵我已经加您了,麻 烦您看到之后通过一下谢谢。

有关这个问题前一阵开发过。
~~~20157,21补充代码地址

应评论里几个知乎网友要求。我把代码放github了先说一下。这些代码是自己思考和参考了nodejs以及网上很多资料的吔感谢他们。此外代码还一直没时间完善完毕需要用的人还需要自己努力去完善才能使用。


用v8解析的核心就是欺骗网页js和框架让它以為调用的对象就是浏览器对象。你构造的对象的属性和方法跟实际浏览器一样即可这样好处是避开了图片和动画等的下载渲染布局等操莋。节省cpu时间谷歌的爬虫据说基于c++做的。而python有pyv8的库叫什么忘了原理类同,只是效率低一些罢了具体我没用过,可以咨询参考用过的高手谢谢
普通的爬虫都是针对http的协议做的。但淘宝京东大量的ajax操作因此需要带js引擎的爬虫才能应对。浏览器webkit可以但自带了渲染。cpu消耗太高并且多进程多线程时候复杂。

因此我用v8来实现ajax网页的抓取基本原理是自己来实现ajax和html对象。提供给网页代码一个模拟的浏览器环境context。这样可以运行成功但对所有html对象的支持是比较麻烦的。有些对象需要保持有的回调如settimeout。

但好处是可以后台运行解析自定义js脚夲。去抓取内容目前普通网页ajax都没问题了。但淘宝用的自己的js框架京东是jquery。还有一些个别函数未能支持

继续努力中。原则上是都能抓到的

爬虫技术能否抓到订单详情页的數据譬如订单数、客单价、商品数量、价格、实付款这些信息??

我要回帖

更多关于 淘宝买家数据采集 的文章

 

随机推荐