抽取的html文件有些空格字符无法去除

    xiaoxiao2021-03-26  30

    通过ASCII码判断,其他字符也可以用次方法

    //判断字符是否是HTML空格 ASCII码为160 public static boolean isHtmlSpace(char c){ if ((int)c==160) return true; return false; } //简单处理从网页上抓取的小说 public static String novelContentProcessor(String string){ String result = ""; char [] chars = string.toCharArray(); for (int i=0;i<chars.length;i++) if (CharUtil.isHtmlSpace(chars[i])) chars[i] = ' '; //HTML空格全部替换为普通空格 String newString = new String(chars); String [] sentences = newString.split(" "); for (String sen : sentences){ if (!sen.isEmpty()){ sen.trim(); result += " "+sen +"\r\n" ; } } return result+"\r\n";

    转载请注明原文地址: https://ju.6miu.com/read-662547.html

    最新回复(0)