dho qa: rand_readwrite

Adds the rand_readwrite utility. Updates realistic.py with a file verifier class. Updates generate_objects.py to allow the filename seed to be set.
2011-07-08 13:00:09 -07:00 · 2011-07-08 13:00:09 -07:00 · a1e5c50dc6
commit a1e5c50dc6
parent a4e5be5f41
3 changed files with 214 additions and 2 deletions
--- a/generate_objects.py
+++ b/generate_objects.py
@ -38,7 +38,7 @@ def connect_s3(host, access_key, secret_key):
    return conn


-def generate_objects(bucket, quantity, mean, stddev, seed, checksum=False):
+def generate_objects(bucket, quantity, mean, stddev, seed, checksum=False, name_seed=None):
    """Generate random objects with sizes across a normal distribution
       specified by mean and standard deviation and write them to bucket.
       IN:
@ -48,14 +48,18 @@ def generate_objects(bucket, quantity, mean, stddev, seed, checksum=False):
         standard deviation from mean file size
         seed for RNG
         flag to tell the method to append md5 checksums to the output
+         seed to use for the file names. defaults to use the other seed
       OUT:
         list of urls (strings) to objects valid for 1 hour.
         If "checksum" is true, each output string consists of the url
         followed by the md5 checksum.
    """
+    if name_seed == None:
+        name_seed = seed
+
    urls = []
    file_generator = realistic.files(mean, stddev, seed)
-    name_generator = realistic.names(15, 4,seed=seed)
+    name_generator = realistic.names(15, 4,seed=name_seed)
    for _ in xrange(quantity):
        fp = file_generator.next()
        print >> sys.stderr, 'sending file with size %dB' % fp.size
--- a/rand_readwrite.py
+++ b/rand_readwrite.py
@ -0,0 +1,188 @@
+#!/usr/bin/python
+
+import gevent
+import gevent.queue
+import gevent.monkey; gevent.monkey.patch_all()
+import optparse
+import time
+import random
+
+import generate_objects
+import realistic
+import common
+
+class Result:
+    TYPE_NONE   = 0
+    TYPE_READER = 1
+    TYPE_WRITER = 2
+    def __init__(self, name, type=TYPE_NONE, time=0, success=True, size=0, details=''):
+        self.name = name
+        self.type = type
+        self.time = time
+        self.success = success
+        self.size = size
+        self.details = details
+
+    def __repr__(self):
+        type_dict = {Result.TYPE_NONE : 'None', Result.TYPE_READER : 'Reader', Result.TYPE_WRITER : 'Writer'}
+        type_s = type_dict[self.type]
+        if self.success:
+            status = 'Success'
+        else:
+            status = 'FAILURE'
+
+        return "<Result: [{success}] {type}{name} -- {size} KB in {time}s = {mbps} MB/s {details}>".format(
+            success=status,
+            type=type_s,
+            name=self.name,
+            size=self.size,
+            time=self.time,
+            mbps=(self.size/self.time/1024.0),
+            details=self.details
+            )
+
+def reader(seconds, bucket, name=None, queue=None):
+    with gevent.Timeout(seconds, False):
+        while (1):
+            count = 0
+            for key in bucket.list():
+                fp = realistic.FileVerifier()
+                start = time.clock()
+                key.get_contents_to_file(fp)
+                end = time.clock()
+                elapsed = end - start
+                if queue:
+                    queue.put(Result(name, 
+                        type=Result.TYPE_READER,
+                        time=elapsed,
+                        success=fp.valid(),
+                        size=(fp.size/1024)
+                        )
+                    )
+                count += 1
+            if count == 0:
+                gevent.sleep(1)
+
+def writer(seconds, bucket, name=None, queue=None, quantity=1, file_size=1, file_stddev=0, file_name_seed=None):
+    with gevent.Timeout(seconds, False):
+        while (1):
+            r = random.randint(0, 65535)
+            start = time.clock()
+            generate_objects.generate_objects(bucket, quantity, 1024*file_size, 1024*file_stddev, r,
+                name_seed=file_name_seed
+                )
+            end = time.clock()
+            elapsed = end - start
+            if queue:
+                queue.put(Result(name, 
+                    type=Result.TYPE_WRITER,
+                    time=elapsed,
+                    size=file_size*quantity,
+                    details="stddev={stddev}".format(stddev=file_stddev)
+                    )
+                )
+
+def parse_options():
+    parser = optparse.OptionParser()
+    parser.add_option("-t", "--time", dest="duration", type="float",
+        help="duration to run tests (seconds)", default=5, metavar="SECS")
+    parser.add_option("-r", "--read", dest="num_readers", type="int",
+        help="number of reader threads", default=0, metavar="NUM")
+    parser.add_option("-w", "--write", dest="num_writers", type="int",
+        help="number of writer threads", default=2, metavar="NUM")
+    parser.add_option("-s", "--size", dest="file_size", type="float",
+        help="file size to use, in kb", default=1024, metavar="KB")
+    parser.add_option("-q", "--quantity", dest="quantity", type="int",
+        help="number of files per batch", default=1, metavar="NUM")
+    parser.add_option("-d", "--stddev", dest="stddev", type="float",
+        help="stddev of file size", default=0, metavar="KB")
+    parser.add_option("-W", "--rewrite", dest="rewrite", action="store_true",
+        help="rewrite the same files (total=quantity)")
+    parser.add_option("--no-cleanup", dest="cleanup", action="store_false",
+        help="skip cleaning up all created buckets", default=True)
+
+    return parser.parse_args()
+
+def main():
+    # parse options 
+    (options, args) = parse_options()
+    
+    try:
+        # setup
+        common.setup()
+        bucket = common.get_new_bucket()
+        print "Created bucket: {name}".format(name=bucket.name)
+        r = None
+        if (options.rewrite): 
+            r = random.randint(0, 65535)
+        q = gevent.queue.Queue()
+
+        # main work
+        print "Using file size: {size} +- {stddev}".format(size=options.file_size, stddev=options.stddev)
+        print "Spawning {r} readers and {w} writers...".format(r=options.num_readers, w=options.num_writers)
+        greenlets = []
+        greenlets += [gevent.spawn(writer, options.duration, bucket,
+            name=x,
+            queue=q,
+            file_size=options.file_size,
+            file_stddev=options.stddev,
+            quantity=options.quantity,
+            file_name_seed=r
+            ) for x in xrange(options.num_writers)]
+        greenlets += [gevent.spawn(reader, options.duration, bucket,
+                name=x,
+                queue=q
+                ) for x in xrange(options.num_readers)]
+        gevent.spawn_later(options.duration, lambda: q.put(StopIteration))
+
+        total_read = 0
+        total_write = 0
+        read_success = 0
+        read_failure = 0
+        write_success = 0
+        write_failure = 0
+        for item in q:
+            print item
+            if item.type == Result.TYPE_READER:
+                if item.success:
+                    read_success += 1
+                    total_read += item.size
+                else:
+                    read_failure += 1
+            elif item.type == Result.TYPE_WRITER:
+                if item.success:
+                    write_success += 1
+                    total_write += item.size
+                else:
+                    write_failure += 1
+
+        # overall stats
+        print "--- Stats ---"
+        print "Total Read:  {read} MB ({mbps} MB/s)".format(
+            read=(total_read/1024.0),
+            mbps=(total_read/1024.0/options.duration)
+            )
+        print "Total Write: {write} MB ({mbps} MB/s)".format(
+            write=(total_write/1024.0),
+            mbps=(total_write/1024.0/options.duration)
+            )
+        print "Read filures: {num} ({percent}%)".format(
+            num=read_failure,
+            percent=(100.0*read_failure/max(read_failure+read_success, 1))
+            )
+        print "Write failures: {num} ({percent}%)".format(
+            num=write_failure,
+            percent=(100.0*write_failure/max(write_failure+write_success, 1))
+            )
+
+        gevent.joinall(greenlets, timeout=1)
+    except Exception as e:
+        print e
+    finally:
+        # cleanup
+        if options.cleanup:
+            common.teardown()
+
+if __name__ == "__main__":
+    main()
+
--- a/realistic.py
+++ b/realistic.py
@ -47,6 +47,26 @@ class RandomContentFile(object):

        return ''.join(r)

+class FileVerifier(object):
+    def __init__(self):
+        self.size = 0
+        self.hash = hashlib.md5()
+        self.buf = ''
+
+    def write(self, data):
+        self.size += len(data)
+        self.buf += data
+        digsz = -1*self.hash.digest_size
+        new_data, self.buf = self.buf[0:digsz], self.buf[digsz:]
+        self.hash.update(new_data)
+
+    def valid(self):
+        """
+        Returns True if this file looks valid. The file is valid if the end
+        of the file has the md5 digest for the first part of the file.
+        """
+        return self.buf == self.hash.digest()
+
 def files(mean, stddev, seed=None):
    """
    Yields file-like objects with effectively random contents, where