hwplib icon indicating copy to clipboard operation
hwplib copied to clipboard

안녕하세요. 혹시 Apache Tika 프로젝트에 integrate 가능할까요??

Open kyoungseok-joo opened this issue 5 years ago • 2 comments

여러 포멧의 문서파일들에 대한 형식추출 및 본문추출을 개발하기 위해 라이브러리를 찾던중에 Apache Tika 프로젝트를 발견해서 사용중에 있습니다. 대부분의 문서 포멧이 지원하나, 한글 문서는 지원을 안하더라고요. hwp-v3, hwp-v5 는 위에 https://issues.apache.org/jira/browse/TIKA-1728 이슈로 인하여 타 라이브러리를 통해서 detect만 가능한 상황입니다.

아무래도 한글파일(hwp)을 사용하는 나라가 거의 없다보니, 지원이 안되고 있는거 같습니다. 혹시 Apache Tika 에 hwp 파일 관련 parser 로 추가되도록 지원 가능할까요??

https://issues.apache.org/jira/browse/TIKA-1731?focusedCommentId=16840414&page=com.atlassian.jira.plugin.system.issuetabpanels%3Acomment-tabpanel#comment-16840414

위 이슈 댓글보시고 가능하실때 검토 부탁드립니다. 감사합니다!

kyoungseok-joo avatar May 16 '19 05:05 kyoungseok-joo

네.. 좋은 의견 감사합니다. 검토해보고.. 반영해보도록 노력하겠습니다. 제가 회사일이 많아서.. 아마도 연말 쯤에.. 시간이 나지 않을까.. 생각됩니다.

neolord0 avatar May 16 '19 23:05 neolord0

안녕하세요.

저는 개방형 OS인 하모니카OS에서 한글 사용자들의 업무 환경을 개선하고자 다양한 문서들의 원문 검색 엔진을 만들어 하모니카 OS에 배포하며, Apache Tika에 반영을 하여 누구나 사용할 수 있도록 오픈소스로 운영할 계획을 가지고 프로젝트를 운영하던중 Apache Tika에서 한글(hwp)에 관련되 이슈를 발견하였고 Apache Tika 이슈에서 kyoungseok-joo님이 올리신 해당 글을 발견하였습니다. 저 또한 neolord0님의 한글 라이브러리를 Apache Tika에 hwp parser로 추가되도록 동참을 하고 싶습니다.

감사합니다.

gon1942 avatar May 23 '19 01:05 gon1942