NamuwikiExtractor
NamuwikiExtractor copied to clipboard
나무위키덤프에서 정제된 텍스트를 얻기 위한 NamuwikiExtractor
Namuwiki Extractor
파이썬으로 나무위키 JSON 덤프 데이터 파싱하기 이용하여 만든 Namuwiki Extractor
개선사항
- 명령형으로 사용가능하게 변경
- 색상코드 제외 정규식 추가
- kss를 이용한 문장 나누기 추가
사용법
0. 패키지 설치
ijson
kss<2
namu-wiki-extractor
1. 나무위기 덤프 다운로드
나무위키 덤프 다운로드 페이지에서 나무위키 덤프 다운로드
2. Namuwiki Extrator 다운로드
nawnoes/NamuwikiExtractor 에서 NamuwikiExtractor.py
다운로드.
3. 명령어 실행
NamuwikiExtractor.py
경로에서 아래 명령어 실행.
python3 NamuwikiExtractor.py --dump_path "[나무위키 덤프 경로]" --output_file "[출력 파일경로]"
사용예
python3 NamuwikiExtractor.py --dump_path "/Volumes/My Passport for Mac/00_nlp/나무위키/docData200302.json" --output_file "./namuwiki.txt"
4. 파일 생성
위에 인자로 사용한 출력 파일경로
에 아래와 같이 나무위키 텍스트 파일 생성