언어를 분석할때, stopwords 라는 용어가 나오다.
stopwords 또는 불용어 란, 우리가 언어를 분석할 때, 의미가 있는 단어와, 의미가 없는 단어나 조사 등이 있다.
이렇게 의미가 없는 것들을 stopwords 라고 한다.
예를 들어서, 다음 문장이 있으면,
"Family is not an important thing. It's everything."
Family, important, thing, everything 은 의미가 있다고 보고,
나머지 아래 같은 것들은 의미가 없다고 판단하여 stopwords 로 정의한다.
{'a', 'about', 'above', 'after', 'again', 'against', 'all', 'also', 'am', 'an', 'and', 'any', 'are', "aren't", 'as', 'at', 'be', 'because', 'been', 'before', 'being', 'below', 'between', 'both', 'but', 'by', 'can', "can't", 'cannot', 'com', 'could', "couldn't", 'did', "didn't", 'do', 'does', "doesn't", 'doing', "don't", 'down', 'during', 'each', 'else', 'ever', 'few', 'for', 'from', 'further', 'get', 'had', "hadn't", 'has', "hasn't", 'have', "haven't", 'having', 'he', "he'd", "he'll", "he's", 'her', 'here', "here's", 'hers', 'herself', 'him', 'himself', 'his', 'how', "how's", 'however', 'http', 'i', "i'd", "i'll", "i'm", "i've", 'if', 'in', 'into', 'is', "isn't", 'it', "it's", 'its', 'itself', 'just', 'k', "let's", 'like', 'me', 'more', 'most', "mustn't", 'my', 'myself', 'no', 'nor', 'not', 'of', 'off', 'on', 'once', 'only', 'or', 'other', 'otherwise', 'ought', 'our', 'ours', 'ourselves', 'out', 'over', 'own', 'r', 'said', 'same', 'shall', "shan't", 'she', "she'd", "she'll", "she's", 'should', "shouldn't", 'since', 'so', 'some', 'such', 'than', 'that', "that's", 'the', 'their', 'theirs', 'them', 'themselves', 'then', 'there', "there's", 'these', 'they', "they'd", "they'll", "they're", "they've", 'this', 'those', 'through', 'to', 'too', 'under', 'until', 'up', 'very', 'was', "wasn't", 'we', "we'd", "we'll", "we're", "we've", 'were', "weren't", 'what', "what's", 'when', "when's", 'where', "where's", 'which', 'while', 'who', "who's", 'whom', 'why', "why's", 'with', "won't", 'would', "wouldn't", 'www', 'you', "you'd", "you'll", "you're", "you've", 'your', 'yours', 'yourself', 'yourselves'}
단, 불용어 ( Stopwords )는 그때 그때, 사람이 판단하여, 불용어 리스트에, 원하는 단어를 추가하거나 제거하면서 사용하면 된다.
'Python' 카테고리의 다른 글
파이썬 문자열 함수 - upper, lower, title, split 문자열 분리하기 (0) | 2019.09.26 |
---|---|
Python Strings - 파이썬 문자열 만들기 (0) | 2019.09.26 |
파이썬 사용자에게 입력받기, User Input (0) | 2019.09.16 |
파이썬 화면 출력, print() 함수 (0) | 2019.09.16 |
파이썬 변수, 값 할당 (0) | 2019.09.16 |