Datoz

File

File upload Web crawling

Precondition

date

column

Include

Exclude

Datatable

Dictionary edit

Add

Delete

Tokenization

Time-series chart

date category

Download

Wordcloud
barchart

font size

Datatable

LDA(Latent Dirichlet Allocation)

추출한 문서에 담긴 단어들의 주제(토픽)을 추출하는 기법.

단순 주제만 분류해주는 것이 아니라 주제에 포함되는 키워드들을 보여주기 때문에 그 키워드들로 해당 주제를 해석하고 정의할 수 있음.

Number of Topics

[토픽 선정지표]

위의 패널에 있는 Arun2010과 CaoJuan2009는 작을수록

아래의 Griffiths2004와 Deveaud2014는 클수록 최적의 값으로 해석

(단, 네 값의 측도가 모두 최적이 되는 상황이 없으므로

해석의 용이성을 감안하여 토픽의 개수를 선정)

Download

Number of terms to display

SNA(Social Network Analysis)

단어 자체의 속성에 중점을 둔 기존의 통계적인 연구방법과는 달리, 단어 간의 상호 관계에 초점을 맞춘 분석.

단어 간의 연관 관계를 노드(node), 그 사이의 관계를 선(edge)로 모형화하여 표현.

SNA

support

N-Gram

통계학 기반의 언어 모델 중 하나로, 문장 내 앞서 등장한 단어를 기반으로 이어서 등장할 적절한 단어를 예측하는 분석.

n개의 연속적인 단어의 나열을 하나의 묶음(=token)으로 간주.

동시 출현 빈도가 높은 단어들이 중심이 되어 네트워크 형태로 표현.

단어들 간의 연관(동시 출현 빈도)이 높을 경우 같은 색상으로 표현되며 개별 단어의 빈도가 높을수록 노드의 크기가 커짐

frequency filter

Datatable

Download

N-gram (3 words)

Barchart
Graph

동시 출현 빈도가 높은 단어들이 중심이 되어 네트워크 형태로 표현.

단어들 간의 연관(동시 출현 빈도)이 높을 경우 같은 색상으로 표현되며 개별 단어의 빈도가 높을수록 노드의 크기가 커짐

frequency filter

Datatable

Download