본문 바로가기
머신러닝-딥러닝/study

(ch.4) 자연어처리란? (Natural Language Processing)

by 복복씨 2020. 12. 29.

1. 자연어란?

- 일상 생활에서 쓰이는 언어를 자연어라고 한다. 일상적인 언어

   표준어가 아닌 방언들도 자연어에 포함이 됨

 

 

2. 자연여처리 NLP (Natural Language Processing)

: NLP는 자연어의 의미를 분석하여 컴퓨터가 처리하도록 하는 일을 한다

 

하루에 발생하는 빅데이터의 양이 수백테라바이트라고 이야기 한다. 그 빅데이터를 실제로 잘 다루기 위해서는 딥러닝 알고리즘만 좋은 알고리즘을 쓰고, 굉장히 발전된 아주 큰 딥러닝 모델을 사용한다고 해서 해결이 되지않고 빅데이터를 다루기 위해서는 컴퓨터 과학(Computer Science)적인 진보된 구현, 하드웨어를 어떻게 더 효율적으로 쓸 것이냐, 어떻게 네트워크 아키텍쳐를 잘 쓸것이냐, 어떻게 Parallel 아키텍쳐 (병렬 컴퓨터)를 잘 쓸 것이냐 이런것들도 굉장히 중요한 축을 가지게 됨.

 

언어학 적인 지식도 잘 활용이 되야함 . 사람이 어떻게 인지하는지 어떻게 받아들일 수 있는지

 

 

ex) 챗봇, 클린봇(악성댓글감지), 개인 비서 서비스(구글, 아마존, 클로바 등등)

 

4. 의외로 NLP가 아닌것

1) 자동음성인식 : 단순히 음성시그널을 인식을 해서 이게 어떤 문자에 해당하는지 SPEECH TO TEXT를 할 뿐이다.

2) 광학문자인식 : 그림으로 써있는걸 단순히 TEXT로 변환

 

다만 최근에는 음성인식, 문자인식 + NLP 기술 이런식으로 결합하는 경우가 있음.

 

NLP의 어려움

복잡성

-코피루왁은 친환경적인가?

사전지식이 필요하겠지, 코피루왁이 뭔지 이거랑 친환경적인거랑 무슨 관계가 있는지

 

애매함

-너 진짜 잘났다

빈정거리는건지, 칭찬인지는 앞 뒤 문맥을 보면서 파악해야됨

다중모드로 해석

 

의존성

-나는 과일이 먹고파

여기서 무슨과일을 먹고싶은지, 어떤 맛의 과일을 좋아하는지 다 다를거야

로봇이 있다면 로봇은 어떤 과일을 좋아하냐고 물어봐야됨. 이는 상호작용으로 해결된다.

 

 

3.머신러닝 vs 딥러닝

머신러닝은 :  feature engineering부분 (사람이 직접 다 언어학적인 지식을 가지고, 분석 했어야 했음), regression, classification 이런 파트에서만 머신러닝이 기용 (보통 SVM이 많이 사용),

 

딥러닝 :  언어학 측은 최소화하고 상당부분 언어학적인 부분을 Data-Driven으로 (호퍼스 형태의 데이타, 레이블 데이터 )처리를 하게 함. 기존에 언어학으로만 알 수 없었던 insight들을 알 수 있다.