본문 바로가기

개발 지식

데이터 파이프라인(Data Pipeline), 데이터 파이프라인 개발자 IT 프로젝트를 진행하거나, 데이터 관련 분야에 관심이 있는 분이라면 '데이터 파이프라인'이라는 단어를 들어보신 적이 있으실텐데요. 저는 IT분야에서 일하는 종사자이다보니 프로젝트에서, 그리고 관련 자격증 시험 등에서도 '데이터 파이프라인'이라는 단어를 종종 접하곤 합니다. 그렇지만 정확히 의미하는 바를 잘 알지는 못했습니다. 언젠가 질문을 하고서도 그 인풋을 제대로 저장하지 않아 날아가버렸을지도 모르겠네요.  만약 이 글을 읽는 분이 개발자이시라면,  IT 관련 용어들에 대해 정확히 그 의미들을 스스로 아는 것이 중요한 것 같습니다. 특히 회사에서는 모든 것을 떠먹여 주지 않기 때문에 개인적인 공부와 노력이 반드시 수반되어야 하는 것 같습니다.  이 글에서는 첫 번째로 데이터 파이프라인이란 무엇인지(데.. 더보기
[데이터 전처리] 결측치, 노이즈, 이상값 처리하기 안녕하세요. 티나입니다:) 오늘은 결측치, 노이즈, 이상값 처리에 대해 정리해봅니다. 결측치, 노이즈, 이상값 처리는 데이터를 전처리하는 하는 작업 중 데이터 정제 단계에 속하는 작업입니다. 그렇다면 데이터 전처리에 관해 간략하게 알아보고, 결측값과 노이즈, 이상값을 각각 어떻게 처리하는지 처리 방법에 대해 알아보겠습니다.데이터 전처리데이터 분석을 위해 데이터를 가공하는 작업으로 데이터 전처리는 분석 결과에 영향을 미칩니다.  일반적으로 가장 많은 시간이 소요되는 단계에 속합니다.데이터 전처리의 작업순서데이터 정제 (Data Cleaning) - 데이터 통합(Data Intergration) - 데이터 축소(Data Reduction) - 데이터 변환(Data Transformation) 데이터 정제 단.. 더보기
MLOps 에 관하여 chatgpt가 알려준 MLOps 정리해두기💡 MLOps는 어떤 일을 하나요?MLOps 엔지니어의 주 업무는 머신러닝 모델을 안정적이고 반복 가능한 방식으로 배포, 관리, 모니터링하는 것입니다. 아래는 주된 작업들을 단계별로 정리한 내용입니다. 1️⃣ 데이터 준비 및 파이프라인 구축데이터 수집, 정제, 전처리: 모델이 학습할 수 있도록 데이터를 준비합니다.ETL(Extract, Transform, Load) 파이프라인 설계: 데이터베이스나 외부 소스에서 데이터를 가져와 모델 학습에 적합하게 변환합니다.자동화된 데이터 파이프라인: 새로운 데이터가 들어오면 모델을 재학습할 수 있게 자동화합니다.🛠 사용 도구: Informatica, Apache Airflow, AWS Glue💡예시: 예를 들어, 세일즈.. 더보기
인터페이스란, 인터페이스와 API의 차이 인터페이스, 그리고 인터페이스와 API (Application Programming Interface)의 차이에 대해 검색했다가 읽게 된 새로비님의 글. 인터페이스는 '상호작용하는 곳' 이라고 단순하게 정리해주셨다. 단순한 이 정리가 아주 마음에 든다. 인터페이스는 상호작용하는 곳이다. 개발자가 말하는 인터페이스도 의미는 같다. 하지만 다른 프로그램 혹은 시스템으로 대상이 다를 뿐이다.API는 다른 프로그램과 상호작용하는 곳이다. 상호작용할 때는 프로그램 코드를 쓴다.출처:https://engkimbs.tistory.com/entry/인터페이스Interface-API-이것만-기억하면-된다#rp [새로비:티스토리]  요새 계속 인포매티카에서 세일즈포스 REST API를 사용하는 작업을 진행하고 있다. 이를.. 더보기
JSON - File 변환하기 JSON Data를 가져올 때 URL로 가져오는 방법이 있고, File 을 load 하는 방법이 있다. JSON 파일 데이터가 필요한데, URL만 알고 있는 경우 변환작업을 진행하는 여러 사이트가 있다. 아래 사이트를 사용하여 파일로 convert 하는 작업을 진행했다. https://editor.swagger.io/ Swagger Editor editor.swagger.io  1. 'https://koreanjson.com' 사이트에 접속 -> Resources 중 'users' 를 선택 ->  https://koreanjson.com/users   'url'복사2. https://editor.swagger.io/Swaggr Editor 사이트에서 'File' -> 'Import URL' 에 복사한 U.. 더보기
치킨 프랜차이즈 데이터 - 지도에 시각화 어제 한 분이 예비군 가셔서 R진도 시작하기 전에, 여러 치킨 프랜차이즈 목록 중 좋아하는 치킨집을 각자 2가지씩 선착순으로 선택해서 지도에 시각화하는 실습을 하였다. https://namu.wiki/w/%EC%B9%98%ED%82%A8/%EA%B0%80%EA%B2%8C%20%EB%AA%A9%EB%A1%9D 치킨/가게 목록 - 나무위키 ※ 순서는 가나다순. namu.wiki 누구나 홀딱 반한 닭 오븐에 빠진 닭 나는 내가 좋아하는 치킨 프랜차이즈인 누구나 홀딱 반한 닭, 오븐에 빠진 닭을 선택했다. '오븐에 빠진 닭'만 일단 성공했고, '누구나 홀딱 반한 닭'은 데이터 불러오는 작업을 다시 진행하고 있다. 오늘은 다른 분들이 작업한 내용을 보면서~ 치킨 프랜차이즈 집이 전국에 어떻게 분포해있나 살펴보았다.. 더보기
selenium - 네이버뉴스 정보 가져오기, 댓글 수 포함 파이썬 selenium 을 사용하여 네이버 뉴스의 정보 가져오기 (참고로 저는 '주피터'에디터를 사용하였습니다.) 필요한 아이들을 셋팅해줍니다 from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.common.by import By from bs4 import BeautifulSoup import requests import time 네이버 뉴스 기사에서 댓글 수.. 더보기
0916 수업 중 - 머신러닝에 대한 이야기 https://www.aladin.co.kr/shop/wproduct.aspx?ItemId=292601583 파이썬 머신러닝 완벽 가이드 이론 위주의 머신러닝 책에서 탈피해, 다양한 실전 예제를 직접 구현해 보면서 머신러닝을 체득할 수 있도록 만들었다. 캐글과 UCI 머신러닝 리포지토리에서 난이도가 있는 실습 데이터를 기반 www.aladin.co.kr 수업에서 이 책을 참고한다고 한다. - 파일럿 프로젝트의 마지막 단계인 [7.데이터분석] 중 오늘은 머하웃을 이용한 머신러닝에 대한 진도를 나간다. 선생님께서 이 부분에 대한 내용을 설명해주시다가, 추천시스템에 대한 얘기가 나오고. 이에 대해 관련한 글들을 소개시켜주시고. 머신러닝에 대한 주제로 잠시 넘어왔다. 이 추천만 공부해도 양이 엄청나다. 어떠한 .. 더보기