본문 바로가기

728x90
반응형

Analysis

[DL개념]Bootstrapping & Bagging & Boosting Bootstrapping이란 간단히 어떤 테스트나 평가 메트릭에서 랜덤 하게 샘플링하여 사용하는 것을 의미한다. Bagging 이란 Bootstrapping Aggregating의 축약어이다. bootstrapping 기법으로 학습한 여러 개의 모델을 의미한다. 예를들어, 100개 데이터가 있을 경우, 100개를 한 번에 다 사용하는 것이 아니라 80개의 데이터를 랜덤 하게 추출하여 학습한 모델을 여러 개 만든다. 이 모델의 결괏값의 consensus, 얼마나 일치하는지 확인하여 그 활용 여부를 판단하는 것이다. 모델의 결과 값들은 평균이나 투표 등을 통해 최종 값을 결정하는데 일반적으로 많은 데이터를 한 번에 사용한 단일 모델보다 일부 데이터를 사용한 여러 개의 모델의 결괏값을 활용하는 것이 더 좋은 .. 더보기
로지스틱 회귀 편미분 정리 및 구현 편미분 계산 과정 기본 구현 모델 import torch import torchvision import torch.nn as nn from torchvision import datasets, models, transforms import os import numpy as np class LR(nn.Module): def __init__(self, dim, lr=torch.scalar_tensor(0.01)): super(LR, self).__init__() self.w = torch.zeros(dim, 1, dtype=torch.float).to(device) self.b = torch.scalar_tensor(0).to(device) self.grads = {'dw': torch.zeros(dim, 1.. 더보기
[그래프] 5-2. 군집 구조 : 군집 탐색 알고리즘 1. Girvan-Newman 알고리즘 1. 개념 설명 대표적인 하향식(Top-down) 군집 탐색 알고리즘 = 전체 그래프에서 탐색을 시작함. 즉, 군집들이 서로 분리되도록 간선을 순차적으로 제거함 어떤 간선을 제거해야 하나? → 서로 다른 군집을 연결하는 다리(Bridge) 역할의 간선 아래 예시에서 빨간 선을 따라 간선을 제거한다고 생각해보면 → 각각의 군집들이 다른 요소가 되어 떨어져 나옴을 상상할 수 있음 그럼 다리 역할의 간선을 어떻게 찾아낼 수 있을까? 간선의 매개 중심성(Between Centrality)을 사용함. 매개 중심성은 정점간의 최단 경로에 놓이는 횟수를 의미함 정점 i 로부터 j로의 최단 경로를 $\sigma_{i, j}$ 그중 간선 (x, y)를 포함한 것을 $\sigma_{.. 더보기
[그래프] 5-1. 군집 구조 : 군집 탐색 문제 1. 군집(Community)의 정의 군집(Community)이란 다음 조건들을 만족하는 정점들의 집합을 의미하지만 수학적으로 엄밀한 정의는 아니다. 집합에 속하는 정점 사이에는 많은 간선이 존재 집합에 속하는 정점과 그렇지 않은 정점 사이에는 상대적으로 적은 수의 간선이 존재 온라인 소셜 네트워크의 군집들은 사회적 무리(Social Circle)를 의미하는 경우가 많다. 뉴런 간 연결 그래프에서는 군집들이 뇌의 기능적 구성단위를 의미 2. 군집 탐색 문제 그래프를 여러 군집으로 '잘' 나누는 문제를 군집 탐색(Community Detection) 문제라고 함. 비지도 기계학습 문제인 클러스터링과 상당히 유사함 군집 탐색 문제는 '정점'들을 그룹으로 묶는데 비해 클러스터링은 feature들을 벡터 형태로.. 더보기
[그래프]4-3. 그래프를 통한 전파 : 바이럴 마케팅과 전파 최대화 문제 1. 바이럴 마케팅이란 소비자들로 하여금 상품에 대한 긍정적인 입소문을 내게 하는 기법 바이럴 마케팅의 효과를 위해서는 소문의 시작점이 중요함. 시작점에 따라 전파 범위가 달라지기 때문 인플루언서가 높은 광고비를 받는 이유 2. 시드 집합의 중요성 시드 집합(소문의 시작점)이 전파 크기에 많은 영향을 미침. 즉, 시드 집합을 어떤 정점으로 구성하느냐에 따라 결과가 크게 달라질 수 있음. 이전 포스트에서 다뤘던 확률적 전파 모형에서 u, v를 시드 집합을 했을 경우 총 9명이 A를 선택하게 되었지만, 아래와 같이 x, y를 선택하는 경우 추가적인 전파가 이뤄지지 않아 총 2명만 A를 선택하게 됨 3. 전파 최대화 문제 전파 최대화(Influence Maximization) 문제 : 그래프, 전파 모형, 시.. 더보기
[그래프]4-2. 그래프를 통한 전파 : 확률적 전파 모형 그래프를 통해 다양한 것들이 전파되고 상호작용한다. 온라인 소셜 네트워크를 통해 정치 상황, 과학 정보, 챌린지 등 다양한 정보, 행동이 전파되고, 컴퓨터 네트워크 장비 고장의 전파, 파워 그리드의 정전 등의 고장이 전파될 수도 있다. 또한 코로나19, 사스, 메르스 등의 질병 전파도 그래프를 통한 전파로 설명될 수 있다. 전파 과정은 다양하고 매우 복잡한데 이를 이해하고 대처하기 위한 많은 수학 모형 중 두 가지를 살펴보려 한다. 1. 확률적 전파 모형 전염병의 경우를 생각해보면 의사결정 기반 모형은 적합하지 않다. 전염병에 걸리기로 '의사결정'을 내리지는 않기 때문이다. 전파가 확률적 과정으로 일어나는 경우 확률적 전파 모형을 고려해야 한다. 가장 간단한 형태인 독립 전파 모형(Independent .. 더보기
[그래프] 4-1. 그래프를 통한 전파 : 의사결정 기반의 전파모형 그래프를 통해 다양한 것들이 전파되고 상호작용한다. 온라인 소셜 네트워크를 통해 정치 상황, 과학 정보, 챌린지 등 다양한 정보, 행동이 전파되고, 컴퓨터 네트워크 장비 고장의 전파, 파워 그리드의 정전 등의 고장이 전파될 수도 있다. 또한 코로나19, 사스, 메르스 등의 질병 전파도 그래프를 통한 전파로 설명될 수 있다. 전파 과정은 다양하고 매우 복잡한데 이를 이해하고 대처하기 위한 많은 수학 모형 중 두 가지를 살펴보려 한다. 1. 의사결정 기반의 전파 모형 주변 사람들의 의사 결정이 본인의 의사결정에 영향을 미치는 경우 사용 예를 들어 어떤 메신저(e.g., 카카오톡, 라인 메신저)를 사용할지, 어떤 충전기 포트를 도입할지 등은 주변 상황이 의사결정에 영향을 미친다 가장 간단한 형태로 선형 임계치.. 더보기
[그래프] 3. 페이지랭크 페이지랭크의 배경 1. 웹과 그래프 웹 : 웹페이지와 하이퍼링크로 구성된 거대한 방향성 있는 그래프 웹페이지 = 정점 웹페이지가 포함하는 하이퍼링크 = 웹페이지에서 나가는 방향성 있는 간선 이때, 웹 페이지는 추가적으로 키워드 정보를 포함 2. 구글 이전의 검색 엔진 방법 1 : 웹을 거대한 디렉토리로 정리하는 것 웹페이지 수 증가 → 카테고리 수 & 깊이가 무한히 커짐 카테고리 구분이 모호한 경우가 많음 → 저장과 검색에 어려움 방법 2 : 웹페이지에 포함된 키워드에 의존한 검색 엔진 방법 : 사용자가 입력한 키워드에 대해 해당 키워드를 (여러번) 포함한 웹페이지 반환 단점 : 악의적인 웹페이지에 취약 (악성 키워드를 보이지 않게 여러 번 포함한다면?) 페이지랭크의 정의 1. 투표 관점의 정의 페이지랭.. 더보기

728x90
반응형