hwplib
hwplib copied to clipboard
안녕하세요. 혹시 Apache Tika 프로젝트에 integrate 가능할까요??
여러 포멧의 문서파일들에 대한 형식추출 및 본문추출을 개발하기 위해 라이브러리를 찾던중에 Apache Tika 프로젝트를 발견해서 사용중에 있습니다. 대부분의 문서 포멧이 지원하나, 한글 문서는 지원을 안하더라고요. hwp-v3, hwp-v5 는 위에 https://issues.apache.org/jira/browse/TIKA-1728 이슈로 인하여 타 라이브러리를 통해서 detect만 가능한 상황입니다.
아무래도 한글파일(hwp)을 사용하는 나라가 거의 없다보니, 지원이 안되고 있는거 같습니다. 혹시 Apache Tika 에 hwp 파일 관련 parser 로 추가되도록 지원 가능할까요??
https://issues.apache.org/jira/browse/TIKA-1731?focusedCommentId=16840414&page=com.atlassian.jira.plugin.system.issuetabpanels%3Acomment-tabpanel#comment-16840414
위 이슈 댓글보시고 가능하실때 검토 부탁드립니다. 감사합니다!
네.. 좋은 의견 감사합니다. 검토해보고.. 반영해보도록 노력하겠습니다. 제가 회사일이 많아서.. 아마도 연말 쯤에.. 시간이 나지 않을까.. 생각됩니다.
안녕하세요.
저는 개방형 OS인 하모니카OS에서 한글 사용자들의 업무 환경을 개선하고자 다양한 문서들의 원문 검색 엔진을 만들어 하모니카 OS에 배포하며, Apache Tika에 반영을 하여 누구나 사용할 수 있도록 오픈소스로 운영할 계획을 가지고 프로젝트를 운영하던중 Apache Tika에서 한글(hwp)에 관련되 이슈를 발견하였고 Apache Tika 이슈에서 kyoungseok-joo님이 올리신 해당 글을 발견하였습니다. 저 또한 neolord0님의 한글 라이브러리를 Apache Tika에 hwp parser로 추가되도록 동참을 하고 싶습니다.
감사합니다.