머신러닝

머신러닝 개요

앜지 2024. 3. 10. 21:27

AI(인공지능): Any type of machine with intelligence.그러니까 지능을 가진 아무런 기기(i.e., the machine is capable of solving a specific problem)

Machine Learning(머신러닝): 컴퓨터 사람처럼 학습할수 있도록 하는 알고리즘과 기술

Deep Learning(딥러닝): 인공신경망을 사용하는 특정 유형의 머신러닝이다.

인공지능-> 머신러닝-> 딥러닝 갈수록 점점 더 세부적인 내용인거지

그래서 머신러닝과 딥러닝을 비교를 하자면 딥 러닝 이전의 대부분의 머신러닝 기법은 유의미한 특징을 인간이 정의하여 사용하는데 집중을 했는 반면에 딥 러닝은 유의미한 특징을 스스로 추출 할 수 있는 능력을 동시에 학습을 한다.

-AI and Data

현재에 머신러닝이 이렇게 발전을 할수가 있었던데에는 벤치마크 데이터셋이 큰 역할을 하였다.

벤치마크 데이터셋: 공통된 기준으로 인공지능 정확도를 평가하고 경쟁할 수 있는 큰 데이터셋으로 공통된 기준으로 성능을 측정하므로, 다양한 연구원들이 참여하여 경쟁적으로 모델 성능개선에 도움이 된다.

대표적으로는 Imagenet이 있다.

 

이미지넷의 데이터셋을 사용해서 이미지 분류 성능은 엄청나게 향상되었다.

이미지넷 벤치마크로 인한 정확도 개선

그림을 본다면 점점 layer의 수가 늘어나면서 error rate가 감소하여 정확도가 엄청나게 올라가고 있다.

물론 해외에만 이런 벤치마크 데이터셋이 존재하지는 않고 한국에도 다양한 공개 데이터셋이 존재한다.

이를 제공해주는 사이트도 AI Hub라고 있다.

https://aihub.or.kr/

 

AI-Hub

[영상이미지] 음식 이미지 및 영양정보 텍스트 #음식종류 # 음식 양 # 칼로리 # 한식 # 이미지 조회수 37,546 관심등록 129 다운수 5,850

aihub.or.kr

AI Hub에서는 모델학습에 필요한 다양한 데이터셋을 제공한다.

하지만 이런 머신러닝에도 문제가 존재한다.

 

- 데이터셋 편향 문제: 데이터셋의 데이터가 한 쪽으로 편향된 문제인데 예시로 NAS(National Audubon Society)에서는 해변에 서식하는 갈색 펠리컨과 검은 집게 제비의 개체수를 파악하기 위해 머신 러닝을 활용하려 했지만 학습을 시키는데 사용된 사진들이 사람이 지상에서 촬영한 사진이었기 때문에 실패를 하였다.

이렇게 데이터가 부족하거나 한쪽으로 편향되어 있다면 학습에 문제가 생길수가 있다.

 

-Data Scarcity Problem

:재난상황 데이터같은 경우에는 ImageNet기준 전체 데이터가 1400만장 존재하는 반면에 재난상황에 대한 데이터는 수천,수만장이 존재하기 때문에 모델 학습이 힘들다고 볼수가 있다. 그래서 이런경우 소수의 데이터셋으로 학습이 가능한 AI가 필요하다.

이 Data Scarcity Problem을 해결하기 위해서는 다양한 방법이 존재한다.

  •  Domain Adaptation: 대규모 데이터 사용이 가능한 도메인(Source)에서 기반 지식을 학습을 해서 학습된 지식을 목표 도메인(Target)의 지식 학습에 이용하는 방법이다.

GTA에서 운전을 하는 것을 학습하여 실생활에 적용을 한 연구를 Domain Adaptation이라고 할수 있다.

  • Transfer Learning :다른 Task를 위해 잘 만들어진 모델을 활용하여 새로운 Task에 적용하는 방법이다. Task 사이의 비슷한 특성이 있을 경우 사용을 고려한다.

클래식 피아노를 연주하는 법을 이용하여 재즈 피아노를 연주하는 법을 조금 더 수월하게 배울수가 있다.

  • Meta Learning : 다양한 Task에 대해 잘 동작하는 Parameter를 학습하여, 필요시 소수의 특정 Task 데이터셋 만으로도 빠르게 학습을 한다.

- Data Security:

Adversarial Attack(적대적 공격)- 입력 데이터를 공격하여 AI의 판단 결과에 영향을 주는 공격이다.데이터에 사람이 인지할 수 없는 미세한 변화 (Perturbation)를 주입 하여 AI는 이에 크게 영향을 받아 잘못된 판단을 내린다.

원 데이터에 공격을 통해서 완전히 다른 판단을 내리도록 한다.

'머신러닝' 카테고리의 다른 글

Linear Regression(2)  (0) 2024.04.01
Linear Regression(1)  (0) 2024.03.25
Mathematics for Machine Learning(2)  (0) 2024.03.25
Mathematics for Machine Learning(1)  (0) 2024.03.23
머신러닝의 종류  (0) 2024.03.10