일단 저는 제가속한 네트워크 자체가 tor를 막아버려서 접속이 되질 않는 듯 합니다.
이 정보에는 기여자 정보라는 것이 들어있다고 하는데, DB만으로도 나무위키 내에 있는 항목들을 CCL을 준수한다면 그대로 웹상에 개제하여 사용할 수 있는 것으로 보입니다. 좀 더 자세한 부분을 확인해주실 수 있는 분이 계시다면 이 DB덤프에 대한 분석을 해주실 수 있다면 감사합니다.
일단 저는 제가속한 네트워크 자체가 tor를 막아버려서 접속이 되질 않는 듯 합니다.
이 정보에는 기여자 정보라는 것이 들어있다고 하는데, DB만으로도 나무위키 내에 있는 항목들을 CCL을 준수한다면 그대로 웹상에 개제하여 사용할 수 있는 것으로 보입니다. 좀 더 자세한 부분을 확인해주실 수 있는 분이 계시다면 이 DB덤프에 대한 분석을 해주실 수 있다면 감사합니다.
json 포맷으로 바뀌고 나서 기여자 정보가 포함되어 있다고 하길래 어떻게 기여자 정보가 포함되어 있는지 확인해보려고 하나 압축 해제하는데 1TB..라는 제가 가진 저장공간 크기를 아득히 넘는 결과가 나오길래 뭔가 할 수가 없더라고요; 이 기여자 정보가 어떤 방식으로 있는지는 [[카더라 통신]]으로 어느정도 짐작은 하지만(비교 방식으로 기여자 정보가 있다고 합니다.) 정확히 어떤 구조로 되어있는지는 잘 모르길래 질문해 보았습니다. (로그인 사용자의 경우 로그인 사용자의 ip로 기여자 정보를 넣었는지는 불명. 이러면 불완전한 DB가 되겠네요;)
음.. 놀라운 정보네요.
뭐 아무튼, 문서의 모든 버전 정보를 가졌을 리는 없을텐데 압축 해제해서 1TB가 넘는다니 문서의 모든 버전을 가졌을지도 모르겠네요.
(리그베다위키 문서의 경우 ~25만 문서 최종 버전 압축하면 800MB 수준. 압축 안하면 ~2.5GB였음)
아무튼 1TB라 할지라도 압축 해제하고난 후에 모든 문서를 열 필요는 없습니다. head 명령등을 써서 간단히 파일 앞 부분만 확인해 볼 수도 있는 등등등..
json 포맷으로 바뀐 후에는 테스트 안해봤네요.
일단 예전의 SQL DB덤프 자체에는 기여자 정보가 전혀 없었고,
DB덤프 자체만으로는 CCL BY를 지킬 방식이 없었습니다.
웹상에 올리려면 출처를 나무위키로 명시하거나 CCL BY를 지키게끔 사용자 목록을 제공하거나 링크를 걸어야 합니다.
json으로 포맷이 바뀌거나 했다고 해서 특별히 분석이 필요할 것 같지는 않네요. 어짜피 페이지이름/내용/최종 변경 시간 등의 정보가 있을 것이고, 이걸 파싱하는 것도 어렵지 않습니다.