MITLibraries
diff --git a/‎python3/checkInventory.py‎
Lines changed: 52 additions & 0 deletions b/‎python3/checkInventory.py‎
Lines changed: 52 additions & 0 deletions
diff --git a/‎python3/compareTwoKeysInCommunity.py‎
Lines changed: 122 additions & 0 deletions b/‎python3/compareTwoKeysInCommunity.py‎
Lines changed: 122 additions & 0 deletions
diff --git a/‎python3/countInitialedNamesByCollection.py‎
Lines changed: 103 additions & 0 deletions b/‎python3/countInitialedNamesByCollection.py‎
Lines changed: 103 additions & 0 deletions
diff --git a/‎python3/exportCollectionMetadataToCSV.py‎
Lines changed: 114 additions & 0 deletions b/‎python3/exportCollectionMetadataToCSV.py‎
Lines changed: 114 additions & 0 deletions
@@ -0,0 +1,52 @@
+import argparse
+import pandas as pd
+import os
+
+
+def main():
+    # begin: argument parsing
+    parser = argparse.ArgumentParser()
+
+    parser.add_argument('-i', '--inventory', required=True,
+                        help='csv file containing the inventory. the path, if given, can be absolute or relative to this script')
+
+    parser.add_argument('-d', '--dataDir',
+                        help='directory containing the data. if omitted, data will be read from the directory containing the inventory file')
+
+    parser.add_argument('-f', '--field',
+                        help='field in the csv containing the fileNames. default: name')
+
+    parser.add_argument('-v', '--verbose', action='store_true',
+                        help='increase output verbosity')
+
+    args = parser.parse_args()
+
+    if not args.dataDir:
+        (args.dataDir, null) = os.path.split(args.inventory)
+
+    if not args.field:
+        args.field = 'name'
+
+    if args.verbose:
+        print('verbosity turned on')
+        print('reading inventory from {}'.format(args.inventory))
+        print('fileNames read from field named {}'.format(args.field))
+        print('searching for files in {}'.format(args.dataDir))
+    # end: argument parsing
+
+    inventory = pd.read_csv(args.inventory, usecols=[args.field])
+    fileNames = inventory[args.field]
+    foundfiles = 0
+    missingfiles = 0
+    for fileName in fileNames:
+        if os.path.isfile(args.dataDir + '/' + fileName):
+            if args.verbose: print('{} is not missing'.format(fileName))
+            foundfiles += 1
+        else:
+            print('{} is missing'.format(fileName))
+            missingfiles += 1
+
+    print('{} files found and {} files missing'.format(foundfiles, missingfiles))
+
+
+if __name__ == "__main__": main()
@@ -0,0 +1,122 @@
+import json
+import requests
+import secrets
+import csv
+import time
+import urllib3
+import argparse
+
+secretsVersion = input('To edit production server, enter the name of the secrets file: ')
+if secretsVersion != '':
+    try:
+        secrets = __import__(secretsVersion)
+        print('Editing Production')
+    except ImportError:
+        print('Editing Stage')
+else:
+    print('Editing Stage')
+
+parser = argparse.ArgumentParser()
+parser.add_argument('-1', '--key', help='the first key to be output. optional - if not provided, the script will ask for input')
+parser.add_argument('-2', '--key2', help='the second key to be output. optional - if not provided, the script will ask for input')
+parser.add_argument('-i', '--handle', help='handle of the community to retreive. optional - if not provided, the script will ask for input')
+args = parser.parse_args()
+
+if args.key:
+    key = args.key
+else:
+    key = input('Enter first key: ')
+if args.key2:
+    key2 = args.key2
+else:
+    key2 = input('Enter second key: ')
+if args.handle:
+    handle = args.handle
+else:
+    handle = input('Enter community handle: ')
+
+urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)
+
+
+baseURL = secrets.baseURL
+email = secrets.email
+password = secrets.password
+filePath = secrets.filePath
+verify = secrets.verify
+skippedCollections = secrets.skippedCollections
+
+startTime = time.time()
+data = {'email':email,'password':password}
+header = {'content-type':'application/json','accept':'application/json'}
+session = requests.post(baseURL+'/rest/login', headers=header, verify=verify, params=data).cookies['JSESSIONID']
+cookies = {'JSESSIONID': session}
+headerFileUpload = {'accept':'application/json'}
+cookiesFileUpload = cookies
+status = requests.get(baseURL+'/rest/status', headers=header, cookies=cookies, verify=verify).json()
+print('authenticated')
+
+endpoint = baseURL+'/rest/handle/'+handle
+community = requests.get(endpoint, headers=header, cookies=cookies, verify=verify).json()
+communityID = community['uuid']
+
+itemList = []
+endpoint = baseURL+'/rest/communities'
+collections = requests.get(baseURL+'/rest/communities/'+str(communityID)+'/collections', headers=header, cookies=cookies, verify=verify).json()
+for j in range (0, len (collections)):
+    collectionID = collections[j]['uuid']
+    print(collectionID)
+    if collectionID not in skippedCollections:
+        offset = 0
+        items = ''
+        while items != []:
+            items = requests.get(baseURL+'/rest/collections/'+str(collectionID)+'/items?limit=200&offset='+str(offset), headers=header, cookies=cookies, verify=verify)
+            while items.status_code != 200:
+                time.sleep(5)
+                items = requests.get(baseURL+'/rest/collections/'+str(collectionID)+'/items?limit=200&offset='+str(offset), headers=header, cookies=cookies, verify=verify)
+            items = items.json()
+            for k in range (0, len (items)):
+                itemID = items[k]['uuid']
+                itemList.append(itemID)
+            offset = offset + 200
+            print(offset)
+elapsedTime = time.time() - startTime
+m, s = divmod(elapsedTime, 60)
+h, m = divmod(m, 60)
+print('Item list creation time: ','%d:%02d:%02d' % (h, m, s))
+
+valueList = []
+for number, itemID in enumerate(itemList):
+    itemsRemaining = len(itemList) - number
+    print('Items remaining: ', itemsRemaining, 'ItemID: ', itemID)
+    metadata = requests.get(baseURL+'/rest/items/'+str(itemID)+'/metadata', headers=header, cookies=cookies, verify=verify).json()
+    itemTuple = (itemID,)
+    tupleValue1 = ''
+    tupleValue2 = ''
+    for l in range (0, len (metadata)):
+        if metadata[l]['key'] == key:
+            metadataValue = metadata[l]['value']
+            tupleValue1 = metadataValue
+        if metadata[l]['key'] == key2:
+            metadataValue = metadata[l]['value']
+            tupleValue2 = metadataValue
+    itemTuple = itemTuple + (tupleValue1 , tupleValue2)
+    valueList.append(itemTuple)
+    print(itemTuple)
+print(valueList)
+
+elapsedTime = time.time() - startTime
+m, s = divmod(elapsedTime, 60)
+h, m = divmod(m, 60)
+print('Value list creation time: ','%d:%02d:%02d' % (h, m, s))
+
+f=csv.writer(open(filePath+key+'-'+key2+'Values.csv', 'w'))
+f.writerow(['itemID']+[key]+[key2])
+for i in range (0, len (valueList)):
+    f.writerow([valueList[i][0]]+[valueList[i][1]]+[valueList[i][2]])
+
+logout = requests.post(baseURL+'/rest/logout', headers=header, cookies=cookies, verify=verify)
+
+elapsedTime = time.time() - startTime
+m, s = divmod(elapsedTime, 60)
+h, m = divmod(m, 60)
+print('Total script run time: ', '%d:%02d:%02d' % (h, m, s))
@@ -0,0 +1,103 @@
+import json
+import requests
+import secrets
+import csv
+import re
+import time
+import urllib3
+
+secretsVersion = input('To edit production server, enter the name of the secrets file: ')
+if secretsVersion != '':
+    try:
+        secrets = __import__(secretsVersion)
+        print('Editing Production')
+    except ImportError:
+        print('Editing Stage')
+else:
+    print('Editing Stage')
+
+urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)
+
+baseURL = secrets.baseURL
+email = secrets.email
+password = secrets.password
+filePath = secrets.filePath
+verify = secrets.verify
+skippedCollections = secrets.skippedCollections
+
+startTime = time.time()
+data = {'email':email,'password':password}
+header = {'content-type':'application/json','accept':'application/json'}
+session = requests.post(baseURL+'/rest/login', headers=header, verify=verify, params=data).cookies['JSESSIONID']
+cookies = {'JSESSIONID': session}
+headerFileUpload = {'accept':'application/json'}
+cookiesFileUpload = cookies
+status = requests.get(baseURL+'/rest/status', headers=header, cookies=cookies, verify=verify).json()
+userFullName = status['fullname']
+print('authenticated')
+
+collectionIds = []
+endpoint = baseURL+'/rest/communities'
+communities = requests.get(endpoint, headers=header, cookies=cookies, verify=verify).json()
+for community in communities:
+    communityID = community['uuid']
+    collections = requests.get(baseURL+'/rest/communities/'+str(communityID)+'/collections', headers=header, cookies=cookies, verify=verify).json()
+    for collection in collections:
+        collectionID = collection['uuid']
+        if collectionID not in skippedCollections:
+            collectionIds.append(collectionID)
+
+names = []
+keys = ['dc.contributor.advisor', 'dc.contributor.author', 'dc.contributor.committeeMember', 'dc.contributor.editor', 'dc.contributor.illustrator', 'dc.contributor.other', 'dc.creator']
+
+f = csv.writer(open('initialCountInCollection.csv', 'w'))
+f.writerow(['collectionName']+['handle']+['initialCount'])
+
+for number, collectionID in enumerate(collectionIds):
+    initialCount = 0
+    collectionsRemaining = len(collectionIds) - number
+    print(collectionID, 'Collections remaining: ', collectionsRemaining)
+    collection = requests.get(baseURL+'/rest/collections/'+str(collectionID), headers=header, cookies=cookies, verify=verify).json()
+    collectionName = collection['name']
+    collectionHandle = collection['handle']
+    collSels = '&collSel[]=' + collectionID
+    offset = 0
+    recordsEdited = 0
+    items = ''
+    while items != []:
+        for key in keys:
+            endpoint = baseURL+'/rest/filtered-items?query_field[]='+key+'&query_op[]=exists&query_val[]='+collSels+'&limit=100&offset='+str(offset)
+            print(endpoint)
+            response = requests.get(endpoint, headers=header, cookies=cookies, verify=verify).json()
+            items = response['items']
+            for item in items:
+                itemLink = item['link']
+                metadata = requests.get(baseURL + itemLink + '/metadata', headers=header, cookies=cookies, verify=verify).json()
+                for metadata_element in metadata:
+                    if metadata_element['key'] == key:
+                        individual_name = metadata_element['value']
+                        for metadata_element in metadata:
+                            if metadata_element['key'] == 'dc.identifier.uri':
+                                uri = metadata_element['value']
+                                contains_initials = re.search(r'(\s|,|[A-Z]|([A-Z]\.))[A-Z](\s|$|\.|,)', individual_name)
+                                contains_middleinitial = re.search(r'((\w{2,},\s)|(\w{2,},))\w[a-z]+', individual_name)
+                                contains_parentheses = re.search(r'\(|\)', individual_name)
+                                if contains_middleinitial:
+                                    continue
+                                elif contains_parentheses:
+                                    continue
+                                elif contains_initials:
+                                    initialCount += 1
+                                else:
+                                    continue
+        offset = offset + 200
+        print(offset)
+    if initialCount > 0:
+        f.writerow([collectionName]+[baseURL+'/'+collectionHandle]+[str(initialCount).zfill(6)])
+
+logout = requests.post(baseURL+'/rest/logout', headers=header, cookies=cookies, verify=verify)
+
+elapsedTime = time.time() - startTime
+m, s = divmod(elapsedTime, 60)
+h, m = divmod(m, 60)
+print('Total script run time: ', '%d:%02d:%02d' % (h, m, s))
@@ -0,0 +1,114 @@
+import json
+import requests
+import secrets
+import time
+import csv
+from collections import Counter
+import urllib3
+import argparse
+
+secretsVersion = input('To edit production server, enter the name of the secrets file: ')
+if secretsVersion != '':
+    try:
+        secrets = __import__(secretsVersion)
+        print('Editing Production')
+    except ImportError:
+        print('Editing Stage')
+else:
+    print('Editing Stage')
+
+#login info kept in secrets.py file
+baseURL = secrets.baseURL
+email = secrets.email
+password = secrets.password
+filePath = secrets.filePath
+verify = secrets.verify
+skippedCollections = secrets.skippedCollections
+
+parser = argparse.ArgumentParser()
+parser.add_argument('-i', '--handle', help='handle of the collection to retreive. optional - if not provided, the script will ask for input')
+args = parser.parse_args()
+
+if args.handle:
+    handle = args.handle
+else:
+    handle = input('Enter collection handle: ')
+
+urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)
+
+#authentication
+startTime = time.time()
+data = {'email':email,'password':password}
+header = {'content-type':'application/json','accept':'application/json'}
+session = requests.post(baseURL+'/rest/login', headers=header, verify=verify, params=data).cookies['JSESSIONID']
+cookies = {'JSESSIONID': session}
+headerFileUpload = {'accept':'application/json'}
+cookiesFileUpload = cookies
+status = requests.get(baseURL+'/rest/status', headers=header, cookies=cookies, verify=verify).json()
+userFullName = status['fullname']
+print('authenticated')
+
+endpoint = baseURL+'/rest/handle/'+handle
+collection = requests.get(endpoint, headers=header, cookies=cookies, verify=verify).json()
+collectionID = collection['uuid']
+collectionTitle = requests.get(endpoint, headers=header, cookies=cookies, verify=verify).json()
+itemList = {}
+offset = 0
+items = ''
+while items != []:
+    items = requests.get(baseURL+'/rest/collections/'+str(collectionID)+'/items?limit=200&offset='+str(offset), headers=header, cookies=cookies, verify=verify)
+    while items.status_code != 200:
+        time.sleep(5)
+        items = requests.get(baseURL+'/rest/collections/'+str(collectionID)+'/items?limit=200&offset='+str(offset), headers=header, cookies=cookies, verify=verify)
+    items = items.json()
+    for k in range (0, len (items)):
+        itemID = items[k]['uuid']
+        itemHandle = items[k]['handle']
+        itemList[itemID] = itemHandle
+    offset = offset + 200
+    print(offset)
+
+keyList = []
+for itemID in itemList:
+    print(baseURL+'/rest/items/'+str(itemID)+'/metadata')
+    metadata = requests.get(baseURL+'/rest/items/'+str(itemID)+'/metadata', headers=header, cookies=cookies, verify=verify).json()
+    for metadataElement in metadata:
+        key = metadataElement['key']
+        if key not in keyList and key != 'dc.description.provenance':
+            keyList.append(key)
+            print(itemID, key)
+
+keyListHeader = ['itemID']
+keyListHeader = keyListHeader + keyList
+print(keyListHeader)
+f=csv.writer(open(filePath+handle.replace('/','-')+'Metadata.csv', 'w'))
+f.writerow(keyListHeader)
+
+itemRows = []
+for itemID in itemList:
+    itemRow = dict.fromkeys(keyListHeader, '')
+    itemRow['itemID'] = itemID
+    print(itemID)
+    metadata = requests.get(baseURL+'/rest/items/'+str(itemID)+'/metadata', headers=header, cookies=cookies, verify=verify).json()
+    for metadataElement in metadata:
+        for key in keyListHeader:
+            if metadataElement['key'] == key:
+                try:
+                    value = metadataElement['value']+'|'
+                except:
+                    value = ''+'|'
+                try:
+                    itemRow[key] = itemRow[key] + value
+                except:
+                    itemRow[key] = value
+    itemList = []
+    for key in keyListHeader:
+        itemList.append(itemRow[key][:len(itemRow[key])-1])
+    f.writerow(itemList)
+
+logout = requests.post(baseURL+'/rest/logout', headers=header, cookies=cookies, verify=verify)
+
+elapsedTime = time.time() - startTime
+m, s = divmod(elapsedTime, 60)
+h, m = divmod(m, 60)
+print('Total script run time: ','%d:%02d:%02d' % (h, m, s))