본문 바로가기
엑셈 경쟁력/Knock, Knock! KNIME

KNIME | KNIME을 활용한 텍스트 분석

by EXEM 2023. 6. 29.

이번 Part에서는 KNIME으로 텍스트 분석에 대해 알아보려고 해요!

 


Part. 1 KNIME이라고 들어봤어요? (링크)

Part. 2 데이터 처리는 알겠는데 전처리는 뭐예요? (링크)

Part. 3 잘 안 보이니까 시각화 해주세요! (링크)

Part. 4 KNIME을 활용한 이미지 분석 (링크)

Part. 5 KNIME을 활용한 텍스트 분석 


Q1. 텍스트 분석이라는 것이 무엇인가요?

 

A1.

비정형 텍스트 데이터를 통해 인사이트를 도출하기 위한 분석작업이에요. 특정 상품의 리뷰를 분석할 수 있고, 문서의 카테고리를 분류할 수 있어요. 또한, ChatGPT같은 AI 챗봇도 텍스트 분석의 한 종류예요.

 

  • 워드클라우드

 

  • 기사 분류 

 

Q2. 텍스트 분석은 어떤식으로 진행이 되나요??

 

A2.

텍스트 분석도 앞서 다루었던 part들과 비슷하게 진행해요. 먼저, 데이터를 수집하고, 전처리(토큰화, 품사 태깅, 불용어 제거 등)를 통해 분석하기 좋은 형태로 가공해요. 이후에 보기 쉽게 ‘워드클라우드’ 이미지처럼 시각화 하는 순서로 진행이 되기도 하고, 때에 따라서는 모델을 만들어 학습을 시킨 뒤 시각화(ex. 기사 분류)를 하기도 해요!

 

Q3. 시각화와 분석까지… 당연히 KNIME으로 가능하겠죠?

 

A3.

네! 아래에서 예시를 보여드릴게요! 뉴욕타임즈 사이트의 피드를 워드 클라우드로 시각화하는 워크플로우예요.

 

  • 전체 프로세스

 

한 단계씩 살펴볼게요!

 

1) 데이터 수집

 

 

뉴욕타임즈의 데이터를 문서로 변환하는 작업이에요. 내부를 확인해보면 아래의 테이블이 생성됨을 확인할 수 있어요.

 

 

2) 전처리(태그 추출)

 

 

이 단계에서는 해당 기사의 타이틀의 태그(이 워크플로우에서는 사람, 기관, 지역)를 추출해서 따로 저장하고 있어요. 데이터는 아래의 테이블처럼 저장을 해요.

 

 

 

3) 학습(Bag of Word / TF)

 

 

이 부분에서는 한 문서에서 특정 단어가 얼마나 자주 등장했는지를 파악하고, 이를 저장해요. 그리고나서 다음단계로 넘어간 뒤 시각화를 시도하면 돼요. 아래의 그림을 보면 특정 단어의 빈도수를 세어 저장하고 있어요. 이 빈도수에 따라 아래의 시각화 단계에서 가중치가 달라질 거예요.

 

 

 

4) 시각화(태그 클라우드)

 

 

이 과정에서는 위의 단계에서 저장했던 단어 등장 빈도수를 기반으로 빈도수가 많으면 중요한 단어라고 생각해서 사이즈를 크게, 굵기도 굵게 표현해주고 있어요. 아래의 결과를 확인해 볼게요.

 

 

 

 

 

2023년 6월 8일 기준으로 확인한 결과에요. 러시아와, 드니프로 강이 자주 등장한것으로 나오네요. 드니프로 강은 우크라이나와 러시아를 지나는 강이에요. 아직 우크라이나와 러시아가 전쟁상황이 끝나지 않아서 등장한 것 같아요. 또한, 해리왕자와 그의 변호사인 데이빗 셔본도 자주 등장하는 단어인가봐요! 이렇게 특징별로 같은 색상으로 묶이는것도 신기하지 않나요?! 학습 및 준비단계에서 더 고도화를 시킨다면 같이 등장하는 단어에 대한 내용들을 더 중점적으로 확인할 수 있어요.

 

지금까지 따라하기 어렵지 않은 내용들을 다루어 봤어요. 이상 텍스트 분석에 대한 내용을 마칠게요!

 

'Knock, Knock! KNIME' 시리즈는 Part5를 끝으로 마치겠습니다. Part 1~5 전체 다시 보기를 추천드려요! 앞으로 궁금하거나 자세하게 알고 싶은 내용은 OWLEYE(링크)를 통해 문의하시면 더욱 자세히 말씀드릴게요.

 

 

 

* 데이터 셋 출처:

https://dacon.io/competitions/official/235891/overview/description

https://www.kaggle.com/datasets/therohk/million-headlines 

https://hub.knime.com/knime/spaces/Examples/latest/08_Other_Analytics_Types/01_Text_Processing/06_NY_Times_RSS_Feed_Tag_Cloud~4lxOOVgkJfmbIsz8

 

 

 

 

 

 

글 | 빅데이터 분석팀 김지호, 신혜지

 

 

 

댓글