1. 자연어란?
- 일상 생활에서 쓰이는 언어를 자연어라고 한다. 일상적인 언어
표준어가 아닌 방언들도 자연어에 포함이 됨
2. 자연여처리 NLP (Natural Language Processing)
: NLP는 자연어의 의미를 분석하여 컴퓨터가 처리하도록 하는 일을 한다
하루에 발생하는 빅데이터의 양이 수백테라바이트라고 이야기 한다. 그 빅데이터를 실제로 잘 다루기 위해서는 딥러닝 알고리즘만 좋은 알고리즘을 쓰고, 굉장히 발전된 아주 큰 딥러닝 모델을 사용한다고 해서 해결이 되지않고 빅데이터를 다루기 위해서는 컴퓨터 과학(Computer Science)적인 진보된 구현, 하드웨어를 어떻게 더 효율적으로 쓸 것이냐, 어떻게 네트워크 아키텍쳐를 잘 쓸것이냐, 어떻게 Parallel 아키텍쳐 (병렬 컴퓨터)를 잘 쓸 것이냐 이런것들도 굉장히 중요한 축을 가지게 됨.
언어학 적인 지식도 잘 활용이 되야함 . 사람이 어떻게 인지하는지 어떻게 받아들일 수 있는지
ex) 챗봇, 클린봇(악성댓글감지), 개인 비서 서비스(구글, 아마존, 클로바 등등)
4. 의외로 NLP가 아닌것
1) 자동음성인식 : 단순히 음성시그널을 인식을 해서 이게 어떤 문자에 해당하는지 SPEECH TO TEXT를 할 뿐이다.
2) 광학문자인식 : 그림으로 써있는걸 단순히 TEXT로 변환
다만 최근에는 음성인식, 문자인식 + NLP 기술 이런식으로 결합하는 경우가 있음.
NLP의 어려움
복잡성
-코피루왁은 친환경적인가?
사전지식이 필요하겠지, 코피루왁이 뭔지 이거랑 친환경적인거랑 무슨 관계가 있는지
애매함
-너 진짜 잘났다
빈정거리는건지, 칭찬인지는 앞 뒤 문맥을 보면서 파악해야됨
다중모드로 해석
의존성
-나는 과일이 먹고파
여기서 무슨과일을 먹고싶은지, 어떤 맛의 과일을 좋아하는지 다 다를거야
로봇이 있다면 로봇은 어떤 과일을 좋아하냐고 물어봐야됨. 이는 상호작용으로 해결된다.
3.머신러닝 vs 딥러닝
머신러닝은 : feature engineering부분 (사람이 직접 다 언어학적인 지식을 가지고, 분석 했어야 했음), regression, classification 이런 파트에서만 머신러닝이 기용 (보통 SVM이 많이 사용),
딥러닝 : 언어학 측은 최소화하고 상당부분 언어학적인 부분을 Data-Driven으로 (호퍼스 형태의 데이타, 레이블 데이터 )처리를 하게 함. 기존에 언어학으로만 알 수 없었던 insight들을 알 수 있다.
'머신러닝-딥러닝 > study' 카테고리의 다른 글
(ch.1) Image Classification - GoogLENet (0) | 2020.12.30 |
---|---|
(ch.4) 자연어처리 - 단어를 숫자로 표현 (0) | 2020.12.30 |
(ch.1) Image Classification - ZFNet, NIN (0) | 2020.12.28 |
(ch.2) Object Detection 이란? : R-CNN, Fast R-CNN, Faster R-CNN (0) | 2020.12.24 |
(ch.1) Deep Learning Classification 과 CNN의 배경 (0) | 2020.12.24 |