ABOUT ME
전상민
96.08.12
010-4388-7703
toxj17@naver.com
충북 청주시
단국대학교 (소프트웨어학과)
탁구
NLP Research RecSys
SKILLS
🟢🟢🟢🟢🟢 파이썬을 능숙하게 사용할 줄 압니다. 효율적인 코드를 좋아합니다. 메모리나 런타임 코드 리팩토링을 매우 신경씁니다. 대부분의 알고리즘 문제도 잘 풉니다. IDE는 파이참 프로를 사용합니다.
기본적인 활용 능력을 갖추고 있습니다. 대부분의 기본 명령어는 검색 없이도 거의 사용하지만 좀 더 전문적이거나 세분화된 명령어까지는 검색이 필요한 정도의 수준입니다.
🟢🟢🟢🟢 거의 모든 프로젝트를 깃허브로 관리했으며, PR과 Issue, Project와 Wiki를 활용해서 협업합니다. 협업을 잘 할수 있게끔 직관적이고 명료한 가이드라인을 짜는 편이며 깃허브답지 않게 깔끔하고 다채롭게 구성하려고 합니다.
🟢🟢 현재 딥러닝 개발 환경을 도커로 구성하고 있습니다. 파이썬 가상 환경보다는 리눅스 컨테이너 환경에서 작업하는 게 편해서 Jupyer Lab 이미지로 활용하고 있습니다.
🟢🟢 기본적인 Torch 명령어를 잘 활용할 수 있습니다. 모델 학습에 필요한 명령어도 잘 활용할 수 있으며 view나 contiguous와 같이 자주 쓰이는 함수를 사용할 수 있습니다. clamp나 gather같은 가끔 쓰이는 함수들은 검색이 필요합니다.
🟢🟢🟢 HuggingFace 라이브러리를 이용해서 모델 학습을 진행할 수 있습니다. Wandb와 연동해서 결과를 확인할 수 있으며 dataset 라이브러리를 이용해 개인 데이터셋을 저장하고 불러올 수 있습니다.
🟢🟢 컨텐츠 기반 필터링, 협업 필터링과 머신러닝 기반 추천 시스템을 공부했습니다. 현재는 Charu_C_Aggarwal의 추천시스템 교재를 가지고 공부중입니다.
PROJECTS
COMPETITIONS
[부스트캠프] Image Classification
[Aug. 2021 - Nov. 2021] 카메라로 비춰진 사람 얼굴 이미지만으로 이 사람이 마스크를 쓰고 있는지, 쓰지 않았는지, 정확히 쓴 것이 맞는지, 성별과 연령대는 어떻게 되는지를 예측하는 대회입니다. 최신 모델 중 구현하기 쉬우면서 성능이 매우 잘 나왔던 EfficientNet을 선택 했습니다. b5 부터는 pretrained model이 아니어서 가장 크기가 큰 b4 버전을 선택했습니다. 사람 얼굴을 겹쳐놓는 Cutmix를 구현하여 성능을 높였습니다. 또, 이미지에서 옷이나 배경을 자르고 얼굴만을 Crop하여 학습하여 성능을 높였습니다. 최종적으로, 38팀 중 F1 77점으로 4위를 달성했습니다.
[부스트캠프] KLUE/Relation Extraction
[Nov. 2021 - Oct. 2021] 주어진 문장과 문장의 단어(subject entity, object entity)를 이용하여, subject entity와 object entity가 어떤 관계가 있는지 예측하는 대회입니다. 데이터가 한글이었고 KLUE데이터 기반으로 작업된 데이터여서 KLUE/RoBERTa를 모델링했습니다. 실험은 small로 진행하고 주된 성능 평가는 large로 진행했습니다. 카카오의 Pororo모델을 사용하였는데 이 중 Back Translation을 이용하여 데이터 Augmentation을 하였습니다. 또, Typed Entity Marker를 추가하여 성능을 높였습니다. 최종적으로, 19팀 중 F1 72점으로 12위를 달성했습니다.
[부스트캠프] Open-Domain Question Answering
[Oct. 2021 - Nov. 2021] 주어지는 지문이 따로 존재하지 않고 사전에 구축되어 있는 Knowledge resource 에서 질문에 대답할 수 있는 문서를 찾을 수 있는 Retriever & Reader 시스템을 구축하는 대회입니다. KLUE/RoBERTa for QA를 가지고 모델링했습니다. 데이터 자체가 적은 대회여서 모델보다는 데이터가 관건인 대회였기 때문에 데이터의 수에 대해 많은 초점을 맞추었습니다. KorQuAD Question Generation과 Pororo Back Translation을 이용해 성능을 높였습니다. 또, LSTM과 CNN을 BERT에 부착해 성능을 높였습니다. 19팀 중 EM 70점으로 6위를 달성했습니다.