🚀 Amazon 데이터셋 기반 추천 시스템 설계 프로젝트

📌 프로젝트 개요

이번 프로젝트는 Amazon 데이터셋을 기반으로 고객 맞춤형 추천 시스템을 설계하고 구현하는 작업입니다. Amazon은 전 세계적으로 가장 큰 전자상거래 플랫폼 중 하나로, 방대한 고객 리뷰와 제품 데이터를 보유하고 있습니다.

이번 프로젝트에서는 이러한 데이터를 SQL만을 사용하여 분석하고, 고객의 구매 경험을 향상시킬 수 있는 추천 시스템의 기초를 설계하는 것이 목표입니다.

🎯 학습 목표

데이터 이해 및 탐색

먼저 Amazon 데이터셋을 분석하여 고객과 제품 간의 상호작용 데이터를 이해합니다. 고객 리뷰, 평점, 제품 카테고리 등 다양한 데이터를 활용해 주요 인사이트를 도출합니다.

📌 주요 개념

필드명	설명
product_id	제품의 고유 식별자
product_name	제품의 이름
category	제품이 속한 카테고리 정보
discounted_price	할인된 가격
actual_price	정가
discount_percentage	할인율
rating	제품의 평균 평점
rating_count	제품에 대한 총 평점 수
about_product	제품에 대한 간단한 설명
user_id	리뷰를 작성한 사용자의 고유 식별자 (쉼표로 구분된 여러 사용자)
user_name	리뷰를 작성한 사용자 이름 (쉼표로 구분된 여러 사용자)
review_id	리뷰의 고유 식별자 (쉼표로 구분된 여러 리뷰)
review_title	리뷰 제목 (쉼표로 구분된 여러 리뷰 제목)
review_content	리뷰 내용 (쉼표로 구분된 여러 리뷰 내용)
img_link	제품 이미지 URL
product_link	제품 페이지 URL

전체 데이터 몇 행 몇 컬럼? 1465행 / 16컬럼
데이터 타입

데이터 헤드

📌 데이터 전처리

불필요 컬럼 제거(16컬럼 → 14컬럼)

img_link, product_link : 두 컬럼은 분석에 불필요하다 판단되어 제거했습니다.

CREATE OR REPLACE TABLE `modulabs_project.amazon`  AS
SELECT
  product_id,
  product_name,
  category,
  discounted_price,
  actual_price,
  discount_percentage,
  rating,
  rating_count,
  about_product,
  user_id,
  user_name,
  review_id,
  review_title,
  review_content
FROM `modulabs_project.amazon_raw`

결측치 처리

rating_count 결측치 확인 → 결측값 2행 존재했으나, 실제 리뷰 데이터가 1개씩 있음 → 1로 채우기로 결정

UPDATE `modulabs_project.amazon`
SET rating_count = 1
WHERE rating_count IS NULL

중복 데이터 확인

완전 동일 행 중복 여부 : 전체 55행(완전 동일 행이 각각 2~3개 존재함)

SELECT *, COUNT(*) as cnt
FROM `modulabs_project.amazon`
GROUP BY ALL
HAVING cnt > 1

완전 동일 행 제거 후 테이블 업데이트(1465행 → 1400행)

CREATE OR REPLACE TABLE `modulabs_project.amazon` AS
SELECT DISTINCT *
FROM `modulabs_project.amazon`

product_id , product_name중복 여부 : 같은 id, name을 가진 상품 총 45개(각각 2~3개 존재함)

SELECT product_id, product_name, COUNT(*) as cnt
FROM `modulabs_project.amazon`
GROUP BY product_id, product_name
HAVING cnt > 1

B0B5B6PQCT : 같은 상품인데 시기에 따라 할인율이 다르고 리뷰 개수가 다름 → 리뷰 개수가 더 많은 상품이 더 최신 데이터라고 가정하고 선택하여 업데이트

B096MSW6CT : 리뷰 개수가 같은데 원가가 다름 데이터 오류거나 시기가 다를 가능성이 있어보임

B08BCKN299 : 눈으로 확인했을 때, 완전 동일해보임

3가지 상품을 뽑아서 직접 중복 데이터 확인한 후 중복 데이터 정리 3가지 기준 정의

→ 같은 상품 중에서 리뷰 수가 더 많은 상품이 최신 데이터일 확률이 높기 때문에 선택

→ 리뷰 수가 같으면 할인율이 큰 상품으로 소비자 입장에서 더 싸게 살 수 있는 상품으로 선택

→ 할인율도 같다면 평점이 더 높은 상품으로 선택

중복 상품 데이터 제거 후 테이블 업데이트(1400행 → 1351행)

CREATE OR REPLACE TABLE `modulabs_project.amazon` AS
SELECT *
EXCEPT(rn)
FROM (
  SELECT *,
    ROW_NUMBER() OVER (
      PARTITION BY product_id
      ORDER BY rating_count DESC, discount_percentage DESC, rating DESC
    ) AS rn
  FROM `modulabs_project.amazon`
)
WHERE rn = 1

rating : STRING 타입으로 되어있음

→ | 들어가 있는 1행 삭제하고 FLOAT64 타입으로 수정 (1351행 → 1350행)

# 이렇게 변경해주면 해당 rating 컬럼 테이블에서 제일 마지막에 들어감
# FLOAT로 하면 에러남 FLOAT64로 변경해줘야함
CREATE OR REPLACE TABLE `modulabs_project.amazon` AS
SELECT
  * EXCEPT(rating),
  CAST(rating AS FLOAT64) AS rating
FROM `modulabs_project.amazon`

# 원하는 위치에 넣으려면 전체 컬럼 순서에 맞춰서 넣어줘야함
CREATE OR REPLACE TABLE `modulabs_project.amazon` AS
SELECT
  product_id,
  product_name,
  category,
  discounted_price,
  actual_price,
  discount_percentage,
  CAST(rating AS FLOAT64) AS rating,
  rating_count,
  about_product,
  user_id,
  user_name,
  review_id,
  review_title,
  review_content
FROM `modulabs_project.amazon`

📌 데이터 EDA

고유한 product_id 가 몇 개인가? 1350개
고유한 product_name은 몇 개인가? 1336개
product_id 컬럼을 제외 product_name뿐 아니라 전체 컬럼이 완전 동일한 제품인지 확인

→ product_id 는 다르고 나머지 컬럼 완전히 동일 3개짜리 1개, 2개짜리 5개 총 6개 상품 그룹에서 중복 발생 → id를 제외한 모든 컬럼이 동일한 상품 중복 제거(1350행 → 1343행)

고유한 product_id 가 몇 개인가? 1343개
고유한 product_name은 몇 개인가? 1336개

Firestick Remote : 2개 → 다른 상품으로 확인 그대로 유지

Fire-Boltt India's No 1 Smartwatch Brand Talk 2 Bluetooth Calling Smartwatch with Dual Button, Hands On Voice Assistance, 60 Sports Modes, in Built Mic & Speaker with IP68 Rating : 2개 → 같은 상품으로 판단하여 리뷰 수 적은 상품 1개 제거

Fire-Boltt Ninja Call Pro Plus 1.83" Smart Watch with Bluetooth Calling, AI Voice Assistance, 100 Sports Modes IP67 Rating, 240*280 Pixel High Resolution : 3개 → 같은 상품으로 판단하여 2개 제거

Fire-Boltt Phoenix Smart Watch with Bluetooth Calling 1.3",120+ Sports Modes, 240*240 PX High Res with SpO2, Heart Rate Monitoring & IP67 Rating : 3개 → 같은 상품으로 판단하여 리뷰 수 적은 상품 2개 제거

Fire-Boltt Visionary 1.78" AMOLED Bluetooth Calling Smartwatch with 368*448 Pixel Resolution 100+ Sports Mode, TWS Connection, Voice Assistance, SPO2 & Heart Rate Monitoring : 2개 → 같은 상품으로 판단하여 리뷰 수 적은 상품 1개 제거

중복 상품 6행 제거 (1343행 → 1337행) : product_name 기준 중복 상품은 Firestick Remote 2개만 있는 것으로 확인

고평점 상품이 많은가? 평점 별 개수는? 1점대는 없는 것으로 확인되었고 대부분 3~4점대에 몰려있음

평점 별 평균 리뷰 수는? 5점짜리 상품은 3개에 리뷰 수도 굉장히 적음

카테고리를 '|’ 기준으로 cat_1, cat_2, cat_3까지 나눴을 때, cat_1의 분포는? 총 9종류

cat_2 에는 어떤 상품들이 있는가? 총 29종류

cat_1(Electronics) 하위 카테고리 분포

SELECT cat_2, COUNT(*) AS cut
FROM `modulabs_project.amazon_cat_split`
WHERE cat_1 = 'Electronics'
GROUP BY cat_2

cat_1(Home&Kitchen) 하위 카테고리 분포

cat_1(Computers&Accessories) 하위 카테고리 분포

cat_3 에는 어떤 상품들이 있는가? 총 72종류

cat_3 기준으로 카운트 세고 cat_1, cat_2 함께 확인

같은 소분류(cat_3) 안에서 MIN, MAX, AVG은 얼마인지? 전체적으로 카테고리별 가장 싼 상품과 가장 비싼 상품의 가격 차이가 많이 남

SQL with 빅쿼리 - 유저 행동 변화 분석 및 오프라인 매장 분석 (0)	2026.04.25
SQL with 빅쿼리 - 마케팅 캠페인 성과분석 (0)	2026.04.24
SQL with 빅쿼리 - 이커머스 전환율 분석 및 상품 추천 전략 수립 (1)	2026.04.23
SQL with 빅쿼리 - PV, UV, ARPU, ARPPU, AARRR, 리텐션 분석 (1)	2026.04.23
SQL with 빅쿼리 - WITH문, WHERE문, 순위함수, 집계함수, 그룹함수 (0)	2026.04.23

데이터의 모든 것

SQL with 빅쿼리 - Amazon 데이터셋 기반 추천 시스템 설계

🚀 Amazon 데이터셋 기반 추천 시스템 설계 프로젝트

📌 프로젝트 개요

🎯 학습 목표

데이터 이해 및 탐색

추천 시스템 설계 및 구현

📌 주요 개념

📌 데이터 전처리

불필요 컬럼 제거(16컬럼 → 14컬럼)

결측치 처리

중복 데이터 확인

📌 데이터 EDA

추천 시스템 1️⃣

추천 시스템 2️⃣

추천 시스템 3️⃣

추천 시스템 4️⃣

추천 시스템 5️⃣

'IT' 카테고리의 다른 글

티스토리툴바

SQL with 빅쿼리 - Amazon 데이터셋 기반 추천 시스템 설계

🚀 Amazon 데이터셋 기반 추천 시스템 설계 프로젝트

📌 프로젝트 개요

🎯 학습 목표

데이터 이해 및 탐색

추천 시스템 설계 및 구현

📌 주요 개념

📌 데이터 전처리

불필요 컬럼 제거(16컬럼 → 14컬럼)

결측치 처리

중복 데이터 확인

📌 데이터 EDA

추천 시스템 1️⃣

추천 시스템 2️⃣

추천 시스템 3️⃣

추천 시스템 4️⃣

추천 시스템 5️⃣

'IT' 카테고리의 다른 글

관련글

티스토리툴바