new script added

ehanson8 · ehanson8 · commit ce76806b1dd9 · 2018-10-12T11:14:07.000-04:00
diff --git a/README.md b/README.md
@@ -36,6 +36,9 @@ No collections skipped:
 #### [compareTwoKeysInCommunity.py](compareTwoKeysInCommunity.py)
 Based on user input, extracts the values of two specified keys from a specified community to a CSV file for comparison.
 
+#### [countInitialedNamesByCollection.py](countInitialedNamesByCollection.py)
+Based on [mjanowiecki's](https://github.com/mjanowiecki) [findInitialedNamesByCollection.py](https://github.com/mjanowiecki/dspace-data-collection/blob/master/findInitialedNamesByCollection.py), find values in name fields that appear to have first initials that could be expanded to full names and provides a count for each collection when the count is more than zero.
+
 #### [exportSelectedRecordMetadataToCSV.py](exportSelectedRecordMetadataToCSV.py)
 Based a CSV of item handles, extracts all metadata (except 'dc.description.provenance' values) from the selected items to a CSV file.
 
diff --git a/countInitialedNamesByCollection.py b/countInitialedNamesByCollection.py
@@ -0,0 +1,102 @@
+import json
+import requests
+import secrets
+import csv
+import re
+import time
+import urllib3
+
+secretsVersion = raw_input('To edit production server, enter the name of the secrets file: ')
+if secretsVersion != '':
+    try:
+        secrets = __import__(secretsVersion)
+        print 'Editing Production'
+    except ImportError:
+        print 'Editing Stage'
+else:
+    print 'Editing Stage'
+
+urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)
+
+baseURL = secrets.baseURL
+email = secrets.email
+password = secrets.password
+filePath = secrets.filePath
+verify = secrets.verify
+
+startTime = time.time()
+data = {'email':email,'password':password}
+header = {'content-type':'application/json','accept':'application/json'}
+session = requests.post(baseURL+'/rest/login', headers=header, verify=verify, params=data).cookies['JSESSIONID']
+cookies = {'JSESSIONID': session}
+headerFileUpload = {'accept':'application/json'}
+cookiesFileUpload = cookies
+status = requests.get(baseURL+'/rest/status', headers=header, cookies=cookies, verify=verify).json()
+userFullName = status['fullname']
+print 'authenticated'
+
+collectionIds = []
+endpoint = baseURL+'/rest/communities'
+communities = requests.get(endpoint, headers=header, cookies=cookies, verify=verify).json()
+for community in communities:
+    communityID = community['uuid']
+    collections = requests.get(baseURL+'/rest/communities/'+str(communityID)+'/collections', headers=header, cookies=cookies, verify=verify).json()
+    for collection in collections:
+        collectionID = collection['uuid']
+        if collectionID != '45794375-6640-4efe-848e-082e60bae375':
+            collectionIds.append(collectionID)
+
+names = []
+keys = ['dc.contributor.advisor', 'dc.contributor.author', 'dc.contributor.committeeMember', 'dc.contributor.editor', 'dc.contributor.illustrator', 'dc.contributor.other', 'dc.creator']
+
+f = csv.writer(open('initialCountInCollection.csv', 'wb'))
+f.writerow(['collectionName']+['handle']+['initialCount'])
+
+for number, collectionID in enumerate(collectionIds):
+    initialCount = 0
+    collectionsRemaining = len(collectionIds) - number
+    print collectionID, 'Collections remaining: ', collectionsRemaining
+    collection = requests.get(baseURL+'/rest/collections/'+str(collectionID), headers=header, cookies=cookies, verify=verify).json()
+    collectionName = collection['name'].encode('utf-8')
+    collectionHandle = collection['handle']
+    collSels = '&collSel[]=' + collectionID
+    offset = 0
+    recordsEdited = 0
+    items = ''
+    while items != []:
+        for key in keys:
+            endpoint = baseURL+'/rest/filtered-items?query_field[]='+key+'&query_op[]=exists&query_val[]='+collSels+'&limit=100&offset='+str(offset)
+            print endpoint
+            response = requests.get(endpoint, headers=header, cookies=cookies, verify=verify).json()
+            items = response['items']
+            for item in items:
+                itemLink = item['link']
+                metadata = requests.get(baseURL + itemLink + '/metadata', headers=header, cookies=cookies, verify=verify).json()
+                for metadata_element in metadata:
+                    if metadata_element['key'] == key:
+                        individual_name = metadata_element['value'].encode('utf-8')
+                        for metadata_element in metadata:
+                            if metadata_element['key'] == 'dc.identifier.uri':
+                                uri = metadata_element['value']
+                                contains_initials = re.search(r'(\s|,|[A-Z]|([A-Z]\.))[A-Z](\s|$|\.|,)', individual_name)
+                                contains_middleinitial = re.search(r'((\w{2,},\s)|(\w{2,},))\w[a-z]+', individual_name)
+                                contains_parentheses = re.search(r'\(|\)', individual_name)
+                                if contains_middleinitial:
+                                    continue
+                                elif contains_parentheses:
+                                    continue
+                                elif contains_initials:
+                                    initialCount += 1
+                                else:
+                                    continue
+        offset = offset + 200
+        print offset
+    if initialCount > 0:
+        f.writerow([collectionName]+[baseURL+'/'+collectionHandle]+[str(initialCount).zfill(6)])
+
+logout = requests.post(baseURL+'/rest/logout', headers=header, cookies=cookies, verify=verify)
+
+elapsedTime = time.time() - startTime
+m, s = divmod(elapsedTime, 60)
+h, m = divmod(m, 60)
+print 'Total script run time: ', '%d:%02d:%02d' % (h, m, s)