1. 컴퓨터가 보는 문자
컴퓨터는 보통 ASCII TABLE을 이용해 문자를 저장한다.
유니코드, UTF-8 encoding등으로 문자를 표현하고 저장한다 ( 한글은 유니코드 , UTF-8에 포함 )
ASCII는 8-bit으로 되어있어서 0~127까지 표현가능
2. 컴퓨터가 보는 단어
3.
4. 말뭉치 Corpus
-특정 목적을 가진 언어의 표본, 분석의 용이성을 위해 형태소 분석이 포함되기도 한다.
언어학 연구에 쓰이는 확률/통계적인 자료이며, 딥러닝에도 유용하게 쓰인다
5. Word2Vec
'머신러닝-딥러닝 > study' 카테고리의 다른 글
1. 머신러닝,딥러닝 개요 (0) | 2021.04.29 |
---|---|
(ch.1) Image Classification - GoogLENet (0) | 2020.12.30 |
(ch.4) 자연어처리란? (Natural Language Processing) (0) | 2020.12.29 |
(ch.1) Image Classification - ZFNet, NIN (0) | 2020.12.28 |
(ch.2) Object Detection 이란? : R-CNN, Fast R-CNN, Faster R-CNN (0) | 2020.12.24 |