爬取豆瓣影评信息并形成词云图 - 源码家

爬取豆瓣影评信息并形成词云图
源码实例 JAVA
简介：爬取豆瓣影评信息并形成词云图

收藏

价格：
￥
22 99999 4.0折 ~~￥5.00~~ 查看会员价格
一键分享：
扫描二维码，分享到微信打开微信
使用"扫一扫"
再点击微信界面右上角三个点标志
分享到微信朋友和朋友圈。

开发语言
Java
源码大小
0.03M
源码类别
Web服务/SOAP/RPC
文件格式
.zip

+-

立即购买加入购物车

联系掌柜
梦团素材
我的店铺
商家信誉：
商家认证：
认证类型：
个人
QQ 号码：
580260036
微信号码：
点击查看微信

商品详情
累计评价 0
商品问答
交易规则

开发语言：
Java
源码大小：
0.03M
源码类别：
Web服务/SOAP/RPC
文件格式：
.zip

源码介绍

【源码简介】

通过Jsoup爬取电影影评数据，将爬取的数据通过Ikanalyzer进行自然语言处理进行分词，将分词的数据通过MapReduc进行数据清洗达到kumo做词云图形化展示所要求的数据格式。从而实现从数据爬取-数据分析-数据可视化的整体流程。

【源码截图】

【核心源码】

public class movieJsoup {

public static void main(String[] args) throws IOException {

int num=0;

//爬取数据存储到本地的地址

File fileName=new File("D:\\MovieData\\data.txt");

BufferedWriter out=new BufferedWriter(new FileWriter(fileName));

//爬取数据的url地址

for (int i = 0; i < 25; i ) {

//爬取数据的url地址

String url="https://movie.douban.com/subject/33456512/commentsstart=" num "&limit=20&status=P&sort=new_score";

Connection connection= Jsoup.connect(url);

Document document=connection.userAgent("浏览器的User-Agent ")

.cookie("Cookie","填你自己的")

.timeout(6000)

.ignoreContentType(true)

.get();

//获取span标签中class等于short的内容

Elements elements=document.select("span[class=short]");

for (Element e:elements){

out.write(e.toString().replaceAll("</[^>] >","") "\r\n");

}

num =20;

}

out.flush();

out.close();

}

}

商品评价

描述相符
5
发货速度
5
服务态度
5
综合评分
5
写评价赚积分

查看全部评价

商品问答

提交咨询问题共有0条问答 / 点击查看更多>>

交易规则

交易流程
发货方式
1、自动：在上方保障服务中标有自动发货的商品，拍下后，将会自动收到来自卖家的商品获取（下载）链接；
2、手动：未标有自动发货的的商品，拍下后，卖家会收到邮件、短信提醒，也可通过QQ或订单中的电话联系对方。
交易周期
1、源码默认交易周期：自动发货商品为1天，手动发货商品为3天，买家有1次额外延长3天交易周期的权利；
2、若上述交易周期双方依然无法完成交易，任意一方可发起追加周期（1~7天）的请求，对方同意即可延长。
退款说明
1、描述：源码描述(含标题)与实际源码不一致的（例：描述PHP实际为ASP、描述的功能实际缺少、版本不符等）；
2、演示：有演示站时，与实际源码小于95%一致的（但描述中有"不保证完全一样、有变化的可能性"类似显著声明的除外）；
3、发货：手动发货源码，在卖家未发货前，已申请退款的；
4、安装：免费提供安装服务的源码但卖家不履行的；
5、收费：额外收取其他费用的（但描述中有显著声明或双方交易前有商定的除外）；
6、其他：如质量方面的硬性常规问题等。
注：经核实符合上述任一，均支持退款，但卖家予以积极解决问题则除外。
1注意事项
1、源码家会对双方交易的过程及交易商品的快照进行永久存档，以确保交易的真实、有效、安全！
2、源码家无法对如“永久包更新”、“永久技术支持”等类似交易之后的商家承诺做担保，请买家自行鉴别；
3、在源码同时有网站演示与图片演示，且站演与图演不一致时，默认按图演作为纠纷评判依据（特别声明或有商定除外）；
4、在没有"无任何正当退款依据"的前提下，商品写有"一旦售出，概不支持退款"等类似的声明，视为无效声明；
5、在未拍下前，双方在QQ上所商定的交易内容，亦可成为纠纷评判依据（商定与描述冲突时，商定为准）；
6、因聊天记录可作为纠纷评判依据，故双方联系时，只与对方在互站上所留的QQ、手机号沟通，以防对方不承认自我承诺。
7、虽然交易产生纠纷的几率很小，但一定要保留如聊天记录、手机短信等这样的重要信息，以防产生纠纷时便于互站介入快速处理。
互站声明
1、源码家作为第三方中介平台，依据交易合同（商品描述、交易前商定的内容）来保障交易的安全及买卖双方的权益；
2、非平台线上交易的项目，出现任何后果均与互站无关；无论卖家以何理由要求线下交易的，请联系管理举报。

展开