AI

AI

ViT : Vision Transformer 이해하기

ViT를 알아보기 전에 Transformer에 대해서 먼저 이해가 필요하다. 1. Transformer RNN과 CNN을 쓰지 않고 Attention과 Fully Connected Layer와 같은 기본 연산만을 이용하여 SOTA 성능을 이끌어낸 연구로 Encoder - Decoder 형식을 사용합니다. Transformer 구조는 Scaled Dot-Product Attention과 이를 병렬로 나열한 Multi-Head Attention 블록이 알고리즘의 핵심이며, normalization, residual connection등이 활용된다. Transformer는 RNN과 같이 시간적 연속성에 구애받지 않고, 병렬 계산이 가능하기 때문에 RNN 구조에 비하여 굉장히 효율적으로 연산할 수 있습니다. ※..

AI

KITTI Dataformat

KITTI 데이터 셋은 비전 태스크에 사용되는 데이터 셋이다. 전체 이미지 셋에 대하여 하나의 json 파일로 레이블을 표시하는 coco data set과 달리 이미지 데이터 한 장 당 레이블 txt 파일을 가진다. yolo나 자율 주행 등에서 활용된다. KITTI 형식의 데이터 셋은 위와 같이 생겼다. GitHub - bostondiditeam/kitti: Boston Team for the Udacity/Didi Challenge Boston Team for the Udacity/Didi Challenge. Contribute to bostondiditeam/kitti development by creating an account on GitHub. github.com 위의 레포에서 kitti 레이블..

AI

Image Augmentation: ImageDataGenerator & Albumentation

image segmentation을 할 때 마스킹 된 이미지가 부족하면 augmentation을 해주어야 한다. 주의점은 augmentation을 할때 정답이미지와 원본이미지가 동일하게 masking되어야한다. 방법1 Tensorflow ImageDataGenrator 이용하기 ImageDataGenerator를 이용하면 각 이미지별로 랜덤으로 augmentation을 해주는데, flow를 할 때 seed값을 잡아주면 동일하게 augmentation된 결과를 얻을 수 있다 seed = 909 # (IMPORTANT) to transform image and corresponding mask with same augmentation parameter. image_datagen = ImageDataGener..

AI

Image segmentation: U-Net

U-Net Biomedical 분야에서 이미지 분할(Image Segmentation)을 목적으로 제안된 End-to-End 방식의 Fully-Convolutional Network 기반 모델 Grand Challenge for Computer-Automated Detection of Caries in Bitewing Radiography at ISBI 2015와 Cell Tracking Challenge at ISBI 2015에서 수상한 모델이다. end-to-end로 이미지를 학습하고 약 30장의 매우 적은 데이터 수로도 학습이 가능하다. 근접해 있는 객체들은 분리해주어야한다. U 모양이라서 U-Net이라는 이름이 붙었다. U-Net은 컨볼루션을 통해서 이미지 피처정보를 추출하고 ( localize)..

AI

[CNN] Pooling

Pooling, Subsampling CNN과정에서 Convolution Layer를 계속 거치다보면 데이터의 양이 계속적으로 많아진다. 너무 많은 데이터의 양은 학습과정을 방해할 수 있기때문에 데이터의 양을 효율적으로 줄여주는 것이 필요한데, 이를 위해 feature map의 공간해상도(spatial resolution)를 축소시키는 Pooling Layer를 이용한다. Pooling의 기법은 여러가지가 있다 가장 대표적인 Pooling으로 Max Average Min 이 세 가지가 있다. CNN에서는 Max pooling을 선호한다. Max pooling이 feature의 특징을 잘 살려주기 때문이다. pooling은 kernel과 stride 옵션이 있다 kernel은 pooling의 사이즈이고 s..

AI

Computer vision에 들어가기 전 - Digital Image와 처리

computer vision 컴퓨터가 이미지나 비디오를 보고 객체를 식별하고 파악할 수 있도록 지원하는 computer science 분야 Pixel 이미지를 이루는 가장 작은 단위 Image Coordinate; 영상 좌표계 일반적으로 우리가 알고 있는 좌표계는 데카르트 좌표계이다 하지만 이미지의 경우 다른 좌표계를 사용한다. 오른쪽 상단을 기준점으로 잡아 오른쪽, 하단으로 갈 수록 좌표가 커진다. 영상 좌표계를 이용함으로써 이미지를 행렬로 표현할 수 있다. Digital Image의 종류 1.Binary Image pixel의 값이 0(흑)과 1(백)로만 이루어져 있다. ex. 문서, Fax, 청사진 pixel을 표현하는데 1bit만 필요하므로 이미지 크기가 작다고 생각할 수 있지만, 실제 구조상 구..

AI

[ML] Classification Metrics

이전 글에서 회귀 문제의 경우 평가 지표를 알아보았다. 분류 문제에서는 어떤 평가 지표를 사용하는지 알아보자 Confusion Matrix 먼저 confusion matrix를 알 필요가 있다. 실제값이 True일 때, 예측값이 True이면 True Positive, TP 실제값이 False일 때, 예측값이 True이면 False Positive, FP 실제값이 True일 때, 예측값이 False이면 False Negative, FN 실제값이 Negative일 때, 예측값이 Negative이면 True Negative, TN 이렇게 정의한다. True ~~ 일 때 정답을 맞춘 것이다. 참고로 FP(False Positive)의 경우 Type 1 Error라고 하며 FN(False Negative)의 경우..

AI

[ML] Model Evaluation & Regression Metrics

Evaluation 만든 모델이 잘 학습되었는지 평가하는 것은 중요하다. 지도학습에서 평가는 예측값과 실제 정답을 비교해서 이뤄지는데 평가시에 학습에 사용한 데이터를 가지고 예측을 진행하고 평가를 하는 것은 조금 이상할 수 있다. 모의고사로 치면 모의고사 답을 미리 알려주고 난 후 시험을 보는 느낌?? 그래서 머신러닝에서는 데이터셋을 나누어 사용을 한다. 원래 가지고 있는 Original Data Set을 train set, test set으로 나눈다. train set은 모델 학습에 이용하면 test set은 모델의 최종 평가에 사용한다. Test Data Set : 모델의 최종 성능을 평가하기 위해 사용 세 번째 줄에 Training set이 또 다시 Training set과 Validatation ..

Heaea
'AI' 카테고리의 글 목록 (3 Page)