일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 완주하지못한선수
- 셀레니움
- 오라클
- h2 데이타베이스
- 알고리즘
- 차원증가
- 파이썬
- conda remove
- 컬렉션 프레임웍
- 스프링 부트3
- streamlit
- db
- GIT
- openai
- WinError5
- Java
- oracle
- 컬렉션 인터페이스
- REST API
- 사이킷런 회귀
- 머신러닝
- 프로그래머스
- Selenium
- 자바 로그 레벨
- Python
- 자바 열거형
- 스프링 부트
- 사이킷런
- URI 원칙
- 쓰레드 풀
- Today
- Total
목록ML (11)
노트 :
1. 정확도(Accuracy) 혼동 행렬을 알기 위해서는 정확도에 대해 알아야 한다. 정확도는 예측 데이터가 얼마나 정확하게 예측했는 지 나타내는 지표이다.계산법은 아래와 같다. 정확도는 개념과 사용법이 단순하므로 편하게 사용할 수 있다. 그러나 이진 분류 모델의 데이터의 구성에 따라 정확도가 정확하지 않은 지표가 될 수 있다. 예를 들어보자. 코로나 바이러스에 걸린 환자(positive, 1)와 걸리지 않은 정상인(negative, 0)으로 이루어진 데이터가 있다. 새로운 환자의 코로나 바이러스 감염 여부를 확인하고자 할 때, 분류 모델이 예측을 계속해서 '0'으로만 내려도 정확도가 높을 것이다. 여러 변수를 고려하여 정밀 예측을 한 분류 모델보다 정확도가 더 높을 수 있는 이상한 상황이 발생할 수도 ..
1. 회귀(Regression) : 영국의 통계학자 갈톤(Galton)이 유전적 특성을 연구하면서 체계화함. 부모와 자식의 키의 상관관계를 들여다 보면 부모의 키가 모두 클 때 자식의 키가 크긴 하지만 부모를 능가할 정도로 크지 않고, 부모의 키가 모두 작을 때 그 자식의 키가 작기는 하지만 부모보다는 큰 경향성을 띔. 즉, 사람의 키는 평균 키로 회귀하려는 경향을 가지고 있으며, 회귀 분석은 이러한 자연법칙을 적용하여 데이터의 값이 평균과 같은 일정한 값으로 돌아가려는 점에 착안하여 분석을 진행함 회귀분석: 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링 2. 선형회귀 : 실제값과 예측값의 차이(오류)를 최소화하는 직선형 회귀선을 최적화하는 방식 3. 머신러닝에서의 회귀예측의 목표 : 주..
머신러닝을 위한 대표적인 인코딩 방식에는 2가지가 있다. ① 레이블 인코딩(Label Encoding) : 카테고리 피처를 숫자 값으로 변환 ② 원-핫 인코딩(One Hot Encoding) : 피처의 개수만큼 칼럼을 만들어 고유값에 해당하는 칼럼에만 1을 표시하고 나머지 칼럼에는 0을 표시 1. 레이블 인코딩 (1) 방식 카테고리 피처인 제품분류를 0~5에 이르는 숫자 값으로 변환한다. (2) 코드 사이킷런의 LabelEncoder 클래스를 임포트한 후, LabelEncoder 객체를 생성한다. 이후 fit()과 transform()의 인자에 리스트로 된 피처를 넣어서 변환한다. 결과값인 label을 출력해보면 ndarray인 [1, 3, 5, 4, 2, 0, 1, 5]가 출력된다. 해당 피처가 어떤 ..
피처스케일링(Feature Scaling)이란 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업이다. 대표적인 방법으로 표준화(Standardization)과 정규화(Normalization)가 있다. 1. 표준화(Standardization) 1) 정의: 데이터의 피처 각각을 평균이 0이고 분산이 1인 가우시안 정규 분포를 가진 값으로 변환하는 것 2) 표준화 식 2. 정규화(Normalization) 1) 정의: 서로 다른 피처의 크기를 통일하기 위해 크기를 변환해주는 것(개별 데이터의 크기를 모두 똑같은 단위로 변경함) 2) 정규화 식
먼저 numpy와 matplotlib 라이브러리를 임포트한다. import numpy as np import matplotlib.pyplot as plt 각각의 함수를 구현한다. 1. 계단함수 1) 정의: 0을 경계로 출력이 0에서 1(또는 1에서 0)으로 바뀌는 함수로, 그래프의 결과가 계단처럼 생김 2) 코드 def step_function(x): return np.array(x > 0, dtype = np.int) x = np.arange(-5.0, 5.0, 0.1) #-5.0에서 5.0 전까지 0.1간격의 넘파이 배열 생성 y = step_function(x) plt.plot(x, y) plt.ylim(-0.1, 1.1) #y축의 범위 지정 plt.show() 3) 실행결과 2. 시그모이드(Sig..
gradio를 이용해 웹앱을 만들어 보았다. 다음은 gradio 공식 홈페이지에 있는 gradio 관련 설명이다. 머신러닝 모델, API, 데이터 작업을 다른 사람들에게 공유할 수 있는 최고의 방법 중 하나라고 한다. What Does Gradio Do? One of the best ways to share your machine learning model, API, or data science workflow with others is to create an interactive app that allows your users or colleagues to try out the demo in their browsers. Gradio allows you to build demos and share the..
DALL-E 2를 이용해 보았다. 런칭때부터 화제였던 서비스라 이런저런 많은 얘기를 듣고 사례를 보았지만, 실제로 사용해 보는 건 처음이다. https://openai.com/product/dall-e-2 DALL·E 2 DALL·E 2 is an AI system that can create realistic images and art from a description in natural language. openai.com 홈페이지에 접속해서 "Try DALL·E" 버튼을 누르면 된다. 기존에 Chat-GPT 이용으로 openAI 사이트에 가입이 되어있어 따로 가입은 필요없었다. 이용이 처음이라면, 사이트에 가입하거나 구글계정으로 로그인 가능하다. 처음에 50개의 무료 크레딧을 주고, 해당 크레딧을 ..
OpenAI에서 만든 ChatGPT. 간단한 대화를 나누어 보았다. 일상적인 대화를 해보면, 자신은 AI 기반 모델이므로, 경험, 감정을 느낄 수 없다는 일률적인 답변을 기본으로 깔고 대답한다. 스캐터랩의 '이루다'와는 확실히 다른 느낌. 더불어, 실시간 정보나 위치기반 정보에 대해서는 답변을 주지 못한다. 조금 답답한 느낌도 든다. 그러나 계속 대화해보면 ChatGPT의 놀라운 능력을 확인할 수 있다. 처음 ChatGPT에 접속하면 팝업창이 뜨면서 GPT가 할 수 있는 일과 목표에 대해 알려준다. 거기 보면 ChatGPT가 지난 대화를 기억할 수 있다고 되어있는데, 이 기술이 GPT와의 대화를 더욱 자연스럽게 만들어 준다. 영화를 추천해 달라는 나의 말에, 우선 정보부터 수집해서 카테고리화 한다ㅎㅎㅎ ..
파이썬 머신러닝 라이브러리 중 가장 대중적인 라이브러리인 사이킷런. 쉬운 인터페이스와 오랫동안 사용되어 안정성이 검증된 라이브러리이다. 사이킷런에 구현되어 있는 분류 클래스와 회귀 클래스는 아래와 같다. 사이킷런의 주요 모듈을 간략하게 정리하면 아래와 같다. 이것 말고도 더 많은 모듈이 있어서 차차 배워 갈 예정.
유명한 유투버 나도코딩님의 인공지능 고구마 판별기 영상을 보고 나도 인공지능 귤 판별기 영상을 만들어 보았다. 순서는 다음과 같다. 1. 학습데이터 구축하기 한국지능정보사회진흥원에서 제공하는 AI-Hub 데이터 이용하기! (www.aihub.or.kr) 사이트 내에서 원하는 이미지를 검색하면 아래와 같이 이미지가 나온다. 원하는 이미지만 선택해서 [선택다운로드]를 누르면 완료. 다운로드 된 폴더를 보니, 폴더 안에 라벨과 원천으로 내부 폴더가 따로 존재한다. 라벨 폴더 안에는 json형태의 파일이(이미지에 대한 메타데이터 인듯), 원천 폴더 안에는 jpg 이미지가 들어가 있다. AI 학습을 위한 공공데이터가 이렇게나 잘 구축되어 있다니, 놀라운 일이다. 무엇보다 이런 양질의 데이터를 무료로 공개해주다니,..