2021-1/Expert

LDA | 5개 키워드 추출

이망고_ 2021. 10. 29. 21:48

문제 1

키워드 5개를 추출해야 하는데 각 논문에서 5개가 가능하다

이것을 통합해서 키워드를 5개 추출하려고 하는데..

 

설계

1. 하나로 만든 스트링을

그 전체 논문을 하나의 스트링으로 만들기

2. 어떤 기법을 찾아서 랭킹을 매겨서 5개의 키워드만 추출할 수 있도록 하는 방법

 

문제 2

1. 한국어 불용어 제거 -> ko

2. 토픽모델링 해서 그 사람을 대표하는 단어는 형용사와 단어가 비포함되는가? 그렇다면 '명사' 기준으로 해서 하기.. (전에 박사님이랑 상의

http://semanticweb.kaist.ac.kr/hannanum/

코리안 스톱워드 제거 1. 한나눔 2. konlpy 라이브러리 이용