• 开发语言:
  • Java
  • 源码大小:
  • 0.03M
  • 源码类别:
  • Web服务/SOAP/RPC
  • 文件格式:
  • .zip

源码介绍

【源码简介】

通过Jsoup爬取电影影评数据,将爬取的数据通过Ikanalyzer进行自然语言处理进行分词,将分词的数据通过MapReduc进行数据清洗达到kumo做词云图形化展示所要求的数据格式。从而实现从数据爬取-数据分析-数据可视化的整体流程。

【源码截图】

【核心源码】

public class movieJsoup {

    public static void main(String[] args) throws IOException {

        int num=0;

        //爬取数据存储到本地的地址

        File fileName=new File("D:\\MovieData\\data.txt");

        BufferedWriter out=new BufferedWriter(new FileWriter(fileName));

        //爬取数据的url地址

        for (int i = 0; i < 25; i ) {

            //爬取数据的url地址

            String url="https://movie.douban.com/subject/33456512/commentsstart=" num "&limit=20&status=P&sort=new_score";

            Connection connection= Jsoup.connect(url);

            Document document=connection.userAgent("浏览器的User-Agent ")

                    .cookie("Cookie","填你自己的")

                    .timeout(6000)

                    .ignoreContentType(true)

                    .get();

            //获取span标签中class等于short的内容

            Elements elements=document.select("span[class=short]");

            for (Element e:elements){

                out.write(e.toString().replaceAll("</[^>] >","") "\r\n");

            }

            num =20;

        }

        out.flush();

        out.close();

    }

}

  • 商品评价
  • 交易规则