공부/파이썬 Python65 Python으로 전처리 파이프라인 설계하기 Python으로 전처리 파이프라인 설계하기 파이프라인 이란 파이프라인(영어: pipeline)은 한 데이터 처리 단계의 출력이 다음 단계의 입력으로 이어지는 형태로 연결된 구조를 가리킨다. 이렇게 연결된 데이터 처리 단계는 한 여러 단계가 서로 동시에, 또는 병렬적으로 수행될 수 있어 효율성의 향상을 꾀할 수 있다. 각 단계 사이의 입출력을 중계하기 위해 버퍼가 사용될 수 있다. 이번 포스트에서는 간단히 데이터 셋을 로드하고 난 이후에 자동적으로 전처리가 가능한 간단한 전처리 파이프라인 (preprocessing pipeline)을 작성해 볼 예정입니다. 라이브러리 1 2 3 4 import pandas as pd from sklearn.imput import SimpleImputer from sklea.. 2022. 3. 22. 카운터와 딕셔너리의 차이 in Python 카운터와 딕셔너리의 차이 in Python 예제 01) - 딕셔너리와 랜덤 함수를 이용하여 딕셔너리의 밸류 생성하기 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 import random from collections import Counter obj_list = ["A", "B", "C", "D", "E"] dct = {} for obj in obj_list: dct[obj] = 0 for _ in range(100): recv_obj = random.choice(obj_list) dct[recv_obj] = dct[recv_obj] + 1 print(dct) #### Result #### {'A': 21, 'B': 19, 'C': 21, 'D': 18, 'E':.. 2022. 3. 20. 다항식 회귀 (Polynomial Regression)이란 다항식 회귀 (Polynomial Regression)이란 다항식 회귀 분석은 관계를 n차 다항식으로 추정하는 다중 선형 회귀 분석의 특수한 경우로 알려진 선형 회귀 분석의 한 형태입니다. 다항식 회귀 분석에서는 특이치에 민감하므로 하나 또는 두 개의 특이치가 있는 경우에도 성능에 좋지 않은 영향을 미칠 수 있습니다. Linear Regression 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 import numpy as np import matplotlib.pyplot as plt from sklearn.linear_model import LinearRegression X = np.random.rand(100, 1) y = 4 + 5 * X + np.random.randn(10.. 2022. 3. 19. 칼로리 트래커 / 대시보드 (1) 칼로리 트래커 / 대시보드 (1) Introduction 하루 하루 섭취한 음식을 등록할 때 마다 동기적으로 변하는 대시보드가 있다면 누적 칼로리, 하루 칼로리량을 관리하고 한 눈에 확인하기에 간편할 것 같습니다. Full Code 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 from dataclasses import dataclass import numpy as np import m.. 2022. 3. 18. 비밀번호 관리 매니저 만들기 using Python 비밀번호 관리 매니저 만들기 using Python Introduction 우리는 여러 웹사이트에 회원 가입 했습니다. 여러 아이디, 여러 패스워드 .. 보안에 취약합니다. 주기적인 비밀번호 변경 관리와 암호화가 필요합니다. 필요 라이브러리 1 pip install cryptography cs - 비밀번호를 encode, decode하는 데에 필요한 라이브러리입니다. 기능 파이썬으로 제작하는 비밀번호 관리 매니저는 key를 만들고, key를 로드하고, 패스워드 파일을 만들고, 패스워드 파일을 얻을 수 있습니다. Full Code 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 .. 2022. 3. 18. Pygorithm으로 알고리즘 공부하기 Pygorithm으로 알고리즘 공부하기 알고리즘 공부를 파이썬에서 간단한 라이브러리만 설치해서 할 수 있다면 얼마나 간편할까라는 기대가 섞인 질문을 현실적으로 가능하게 한 라이브러리가 pygorithm이다. 알고리즘 공부는 어렵다. 어려운 것이 맞다. 외워야 할 때도 있고, 복잡하기도 하고, 이해하기 어렵기도 하다. pygorithm 라이브러리는 다양한 모듈을 지원한다. sorting, binary, strings, data_structures, searching, geometry, greedy_algorithm, pathfinding 등 웬만한 알고리즘 모듈은 전부 있다. 설치 1 pip install pygorithm cs Bubble Sort 1 2 3 from pygorithm.sorting im.. 2022. 3. 17. Python 대역폭 모니터 만들어보기 (Bandwidth Monitor Using Python) Python 대역폭 모니터 만들어보기 (Bandwidth Monitor Using Python) Python으로 PC의 데이터 수송신 현황을 모니터할 수 있는 대역폭 모니터를 만들어보겠습니다. 로직은 간단합니다. 프로그램을 동작하기 시작했을 때의 수신 데이터, 송신 데이터를 저장합니다. 그 이후에 발생하는 수신 데이터와 송신 데이터에서 초기 수송신 데이터를 뺀 데이터 값을 매 초 마다 모니터 화면에 띄우는 것입니다. 어렵게 들릴 수 있지만 psutil이라는 라이브러리만 import한다면 아주 쉽게 작성할 수 있습니다. 그냥 util도 아니고 psutil은 process and system utilities의 줄임말입니다. 0. 필요 라이브러리 1 2 import time import psutil cs 1.. 2022. 3. 17. 지문 (fingerprint) 일치 알고리즘 구현하기 (Python) 지문 (fingerprint) 일치 알고리즘 구현하기 (Python) 0. OpenCV 특징 매칭 (Feature Matching) 알고리즘 종류 A. Brute-Force Matching with ORB detector 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 import numpy as np import cv2 as cv import matplotlib.pyplot as plt img1 = cv.imread('box.png',cv.IMREAD_GRAYSCALE) # queryImage img2 = cv.imread('box_in_scene.png',cv.IMREAD_GRAYSCALE) # trainImage # Initiate ORB detector .. 2022. 2. 27. GridSearchCV로 하이퍼파라미터 튜닝하기 GridSearchCV로 하이퍼파라미터 튜닝하기 Hyperparameter Tuning in Python with GridSearchCV Hyperparameter란 하이퍼 파라미터는 학습 알고리즘이 학습되기 전에 값이 선택되는 머신러닝 파라미터입니다. 하이퍼 파라미터는 매개 변수 와 혼동해서는 안 됩니다. 기계 학습에서 레이블 매개 변수는 훈련 중에 학습되는 값을 나타내는 변수를 식별하는 데 사용됩니다. Hyperparameter 종류 Learning Rate. Number of Epochs. Momentum. Regularization constant. Number of branches in a decision tree. Number of clusters in a clustering algorithm.. 2022. 2. 22. 이전 1 2 3 4 5 6 7 8 다음