본문 바로가기 주 메뉴 바로가기

산업문제 해결

문제 해결 결과

무역과 관련된 상품명을 숫자 코드에 매칭하는 단어 분류 문제(2019)

작성일2020-02-20 기업한국무역정보통신
모더레이터
### ※ 기업체와의 비밀유지동의서에 의한 비밀유지 의무로 인하여 개략적인 내용만 서술하였습니다. **1. 기업소개** ![한국무역정보통신](/file/20c838ad543741d4af9532831e57c4ce.png) * 한국무역정보통신은 인터넷을 통한 무역 자동화 서비스를 제공하는 기업으로 복잡한 수출입 업무 전 과정의 자동화를 위해 전자 무역 인프라를 구축 **2. 문제배경 및 소개** * 무역과 관련된 제품에 대한 텍스트 정보를 활용하여 상품 품목명을 숫자 코드에 매칭하는 알고리즘 고도화 * 품목명 단어를 수치 벡터로 표현하는 수학적인 방법 탐색과 정확도 높은 단어 분류(text classification) 딥러닝 모델 개발을 의뢰 **3. 해결 과정** (2019년 3월 ~ 2019년 6월, 4개월) * 품목명을 수치화하는 과정에서 필요한 단계인 토큰화(tokenization), 표제화(lemmatization), 단어 임베딩(word embedding) 알고리즘에 대한 과정을 설명하고 비교 분석한 자료 전달 * 품목명의 임베딩된 벡터를 이용하여 숫자코드에 매칭하는 다양한 딥러닝 모델 네트워크를 설계하여 모델 정확도를 계산 **4. 성과 및 향후계획** * 단일 숫자코드 분류가 아닌 top3 또는 top5 예측 시 80% 이상의 정확도를 얻음 * 무역과 관련된 상품명을 숫자코드에 매칭할 수 있는지 사업의 타당성을 판단하기 위한 결과로 활용 예정 * 최근 구글에서 개발한 Bidirectional Encoder Representations from Transformer(BERT)를 적용하여 기존 결과와 비교 분석하여 결과를 향상시킬 것으로 기대
모더레이터