去哪儿网的代理网站有自己独立的机票搜索接口,例如http://xyx./site/。
搜索结果使用Ajax动态加载,服务端返回的数据是JSON格式的。
难点在于返回的价格数据是加密的,返回价格与真实的价格之间有很大的偏差。在客户端使用JS进行解密,显示到页面的价格是正确的。由于解密算法非常复杂,实现难度很大。
通过Webkit模拟浏览器进行采集,绕过了该加密措施,成功采集到机票价格数据。
程序截图如下所示:
采集结果截图如下所示:
了解更多分析及数据抓取可查看:
:9081/html/bfd0c1a1-ea90-4ed6-9a2c-1da4cd72391c.html
本文转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请联系我们删除处理。
特别说明:本文旨在技术交流,请勿将涉及的技术用于非法用途,否则一切后果自负。如果您觉得我们侵犯了您的合法权益,请联系我们予以处理。