타닥타닥4: 데이터의 품질 본문
#참고한 사이트
이 글은 아래 참고한 사이트의 내용들에 대한 개인적인 생각을 정리하는 식으로 진행된다.
기고 II: 인공지능 학습용 데이터의 품질 기준 및 평가 문제
딥러닝 기술의 발전과 더불어 인공지능 시스템이 실용적으로 활용되기 시작하면서 학습 데이터의 중요성이 주목받고 있다.
webzine.aihub.or.kr
기고 I: 인공지능 학습데이터 수급 시 고려사항
인공지능 알고리듬이 더욱 좋은 성능을 발휘하기 위해선 양질의 ‘빅 데이터’를 필요로 한다는 것은 추가적인 설명이 필요 없는 주지의 사실로 받아들여지고 있다. 이제는 클리쉐가 되어 버린
webzine.aihub.or.kr
Data quality - Wikipedia
Data quality refers to the state of qualitative or quantitative pieces of information. There are many definitions of data quality, but data is generally considered high quality if it is "fit for [its] intended uses in operations, decision making and planni
en.m.wikipedia.org
#학습용 데이터
현업에서 머신러닝을 구현하다 보면 어떤 모델을 쓸지 어떤 기술을 써서 결과를 낼지 보다 '데이터'를 먼저 보게 된다. 데이터를 알아야 분류를 하던, 예측을 하던, 차원을 축소하던, 중요 특징을 찾아내던, 빈칸을 채우던지 할 테니 말이다. 아래는 참고 사이트에 그려져 있던 데이터를 활용하기까지의 프로세스이다.
위의 그림에서 모든 프로세스가 지나고 '활용' 단계에 도달해서야 머신러닝 기술을 적용해 볼 수 있는 학습용 데이터의 형태를 띄게 되는 것이다. 실제로 여러 프로젝트를 진행하다 보니, 특히 특정 분야(기상, 천문, 해양, 환경, 기후, 오염, 금융 등등)의 데이터를 다룰 때는 위의 과정이 모델을 다루는 기간보다 훨씬 길고 길다. 어쩔 때는 정말 데이터의 특성을 한 땀 한 땀 바느질하듯 분석해서 정제하고 라벨링 하는 지난한 과정이 사업의 전부일 때도 있다.(e.g: 데이터 구축 사업)
#데이터의 품질
데이터의 품질을 결정하는 요인들이다. 각 요인들의 특성을 보다보니 그동안 다뤄왔던 데이터들은 어떤 특성을 갖추었고, 어떤 특성은 가지지 못했는지가 일목요연하게 보인다. 스스로가 다루게 된 데이터가 아래의 요인들 중 몇 가지를 온전하게 갖추고 있는지를 판단해보는 것이 데이터의 품질을 따져보는 1차 지표가 될 듯하다.
- 접근성(accessibility or availability)
- 정확성(accuracy or correctness
- 비교성(comparability)
- 완전성(completeness or comprehensiveness)
- 일관성(consistency, coherence, or clarity)
- 신뢰성(credibility, reliability, or reputation)
- 연관성(relevance, pertinence, or usefulness)
- 현재성(timeliness or latency)
- 유일성(uniqueness)
- 유효성(validity or reasonableness)
하지만 데이터라는 것은 문제를 풀기 위해 해당 문제가 가진 현실 세계를 표상하는 것이라 한다. 실제 현실 세계를 그대로 데이터로 옮겨오지 않는 한 데이터에는 그 한계가 있을 수밖에 없으며, 고로 완전한 데이터라는 것은 존재할 수 없다. 그렇기에 데이터의 품질은 데이터를 이용하여 구현된 의사 결정 시스템 또는 예측 시스템의 성능 수준에 의해 평가되며, 완벽한 성능보다는 가능한 수준을 최대한 끌어올리는 식으로 정제된다.
#데이터셋 품질 검증
대상 | 품질 지표 | 내용 |
원시 데이터 | 적합성 | 대표성, 포괄성, 다양성, 사실성 등 AI 학습용으로 해당 문제를 해결하는데 데이터셋이 적합하게 구성되어 있는지 확인 |
학습 데이터 | 정확성 | AI 학습용 정답 라벨링이 정확하고 일관성 있게 구축되었는지 측정 |
유효성 | 학습용 데이터로 인공지능 알고리즘을 훈련시켰을 때 목표로 했던 수준의 성능을 달성하는지 측정 |
데이터를 다루는 업무를 하다 보면, 그 업무가 수행되는 집단의 인지 정도에 따라 검증 방식과 정도가 천차만별이다. 데이터의 검증을 아예 하지 않고, 그냥 결과만 잘 나오면 된다는 고객도 만나봤고, 결과가 잘 나와도 데이터가 제대로 정제되었는지를 더 중요시하는 곳도 있었다. 논문이나 국제 표준 등의 기준을 제시해주기를 원하는 곳도 있고, 데이터셋의 데이터 하나하나가 가지는 의미와 특성을 분석해주기를 원하는 곳도 있었다. 그나마 학습 데이터의 적합성을 평가할 때는 지표라도 낼 수 있지, 전문 분야의 데이터를 가져다가 데이터 엔지니어에게 그 의미가 무엇인지를 물어볼 때는 참 난감할 때가 많다.
#데이터 설명력
단순히 데이터를 통해서 결과만을 내기를 원하는 것이 아닌, 특정 데이터가 가지는 중요도 때문에 그러한 결과를 얻었는지를 알기 원하는 고객이 많기에 최소한 현업에서는 모델의 결과를 데이터를 통해 설명할 수 있는 XAI(eXplainable Artificial Intelligence)가 중요시 여겨진다.
데이터에 대한 이해도를 높이는 다음 스텝으로는 XAI에 대해서 공부해볼까 한다.
[리뷰] XAI 설명 가능한 인공지능 (인공지능을 해부하다)
위키북스 출판사의
theorydb.github.io
'공부' 카테고리의 다른 글
마케팅, 추천시스템 (영어 기사 한글 정리) (0) | 2023.03.06 |
---|---|
타닥타닥8: 협업 필터링(Collaborative Filtering, CF) 알고리즘 (0) | 2022.12.05 |
타닥타닥7: 웹로그 분석 (0) | 2022.07.09 |
타닥타닥6: Autoencoder based Recommendation: Autoencoder based Collaborative Deep Learning (0) | 2022.06.11 |
타닥타닥2: 추천 알고리즘 정리 (0) | 2022.03.20 |