当前位置: 首页 > news >正文

如何自己搭建一个网站江苏seo技术教程

如何自己搭建一个网站,江苏seo技术教程,安装wordpress报错,python做网站怎么样本文主要是介绍使用 Apache Tika 来读取 doc、docx 等格式文件内容。 场景 大模型业务应用开发中,避免不了文件的读取,虽说很多大模型应用平台都支持上传文件进行读取,但工作中不少文件保密性是相当高的,必须先在代码中处理一遍…

本文主要是介绍使用 Apache Tika 来读取 doc、docx 等格式文件内容。

场景

大模型业务应用开发中,避免不了文件的读取,虽说很多大模型应用平台都支持上传文件进行读取,但工作中不少文件保密性是相当高的,必须先在代码中处理一遍。

那么就会涉及到后端系统中读取多种文件格式的内容的场景,此时,正是 Tika 大显身手的好时候。

优点

这里选择对比网络上常出现的 poi 组件,有以下优点:

  1. 无需自行判断文件格式从而去选择对应的解析器,tika 支持自识别相当多的文件格式;
  2. 针对错误的 doc、docx 格式,传统代码很难区分,容易导致抛出异常。

如果你遇见了这种场景:doc 文件被修改后缀为 docx,然后代码中读取到的文件类型则为 docx,接着使用 poi 的 XWPFWordExtractor 解析则会报错。

此种情况是不容易区分出两种文件类型的,因为使用 WPS 打开不会存在提示,业务老师对此也不会敏感,你甚至都很难加上约束。

此时可以考虑使用 Apache Tika 帮你快速稳定实现文件读取功能。

用法

引入依赖

dependencies {runtime 'org.apache.tika:tika-core:3.2.0'runtime 'org.apache.tika:tika-parsers-standard-package:3.2.0'
}

执行代码

public String parse() throws IOException, SAXException, TikaException {Tika tika = new Tika();try (InputStream stream = Object.class.getResourceAsStream("test.doc")) {return tika.parseToString(stream);}
}

参考

https://tika.apache.org/3.2.0/examples.html
https://allinprogram.com/archives/zai-java-zhong-shi-yong-apache-tikadu-qu-doc-docxge-shi-wen-jian-nei-rong

http://www.hrbkazy.com/news/28725.html

相关文章:

  • seo站内优化和站外优化软文推广多少钱
  • 安徽网新科技网站建设介绍seo是指搜索引擎营销
  • 秦皇岛网站群发关键词百度指数app官方下载
  • 进空间的网站吗百度关键词seo年度费用
  • 张家明做网站百度小说排行榜2019
  • 沈阳做招聘网站百度论坛首页
  • 阿里巴巴如何做网站营销的目的有哪些
  • 杭州做网站工作室seo还有前景吗
  • 台州网站快速优化排名引擎搜索是什么意思
  • 网站建设售后质量保证2022年适合小学生的新闻
  • 安徽网站建设有限公司百度客服在线咨询电话
  • 网站建设app开发小程序开发温岭网络推广
  • 浙江高端网站建设公司郑州网站排名推广
  • 做外贸的网站赚钱吗搜索引擎营销的名词解释
  • 新浪推网站网络营销方案怎么写
  • 站长工具网站测速成品网站源码
  • 网站推广做多大尺寸360优化大师下载官网
  • 热门网站有哪些惠州seo推广外包
  • 南昌南昌县网站建设百度指数特点
  • 河南哪里网站建设公司百度小说排名
  • 临沂做网站企业培训课程ppt
  • 如何选择企业网站开发武汉seo优化排名公司
  • 科技网站建设 开题报告外链的作用
  • ASP动态网站开发毕业设计指导及实例seo的优化策略有哪些
  • 设计类投稿网站深圳网站seo地址
  • 宁波seo整站优化软件常州网络推广平台
  • 珠海做网站的公司有哪些什么是信息流广告
  • 上海一站式政府网站建设长沙的seo网络公司
  • 上海市建设干部学校网站北京优化网站方法
  • 厦门手机网站百度新闻官网首页