Database Normalization

In the field of relational database design, normalization is a systematic way of ensuring that a database structure is suitable for general-purpose querying and free of certain undesirable characteristics—insertion, update, and deletion anomalies—that could lead to a loss of data integrity.[1] E.F. Codd, the inventor of the relational model, introduced the concept of normalization and what we now know as the first normal form in 1970.[2] Codd went on to define the second and third normal forms in 1971[3]; and Codd and Raymond F. Boyce defined the Boyce-Codd normal form in 1974 .[4] Higher normal forms were defined by other theorists in subsequent years, the most recent being the sixth normal form introduced by Chris Date, Hugh Darwen, and Nikos Lorentzos in 2002.[5]

Informally, a relational database table (the computerized representation of a relation) is often described as "normalized" if it is in the third normal form (3NF).[6] Most 3NF tables are free of insertion, update, and deletion anomalies, i.e. in most cases 3NF tables adhere to BCNF, 4NF, and 5NF (but typically not 6NF).

A standard piece of database design guidance is that the designer should begin by fully normalizing the design, and selectively denormalize only in places where doing so is absolutely necessary to address performance issues.[7] However, some modeling disciplines, such as the dimensional modeling approach to data warehouse design, explicitly recommend non-normalized designs, i.e. designs that in large part do not adhere to 3NF.[8]

Objectives of normalization

A basic objective of the first normal form defined by Codd in 1970 was to permit data to be queried and manipulated using a "" grounded in first-order logic.[9] (SQL is an example of such a data sub-language, albeit one that Codd regarded as seriously flawed.)[10] Querying and manipulating the data within an unnormalized data structure, such as the following non-1NF representation of customers' credit card transactions, involves more complexity than is really necessary:


Customer Transactions
__Tr. ID____Date______Amt._
Jones
12890 14-Oct-2003 -87
12904 15-Oct-2003 -50
Wilkins
12898 14-Oct-2003 -21
Stevens
12907 15-Oct-2003 -18
14920 20-Nov-2003 -70
15003 27-Nov-2003 -60


To each customer there corresponds a repeating group of transactions. The automated evaluation of any query relating to customers' transactions therefore would broadly involve two stages:

  1. Unpacking one or more customers' groups of transactions so that the individual transactions in a group can be examined, and
  2. Deriving a query result based upon the results of the first stage

For example, if we wanted to find out the monetary sum of all transactions that occurred in October 2003 for all customers, the system would have to know that it must first unpack the Transactions group of each customer, then sum the Amounts of all transactions thus obtained where the Date of the transaction falls in October 2003.

One of Codd's important insights was that this structural complexity could always be removed completely, leading to much greater power and flexibility in the way queries could be formulated (by users and applications) and evaluated (by the DBMS). The normalized equivalent of the structure above would look like this:


Customer Tr. ID Date Amount
Jones 12890 14-Oct-2003 -87
Jones 12904 15-Oct-2003 -50
Wilkins 12898 14-Oct-2003 -21
Stevens 12907 15-Oct-2003 -18
Stevens 14920 20-Nov-2003 -70
Stevens 15003 27-Nov-2003 -60


Now each row represents an individual credit card transaction, and the DBMS can obtain the answer we are interested in simply by finding all rows with a Date falling in October, and summing their Amounts. All of the values in the data structure are on an equal footing: they are all exposed to the DBMS directly, and can directly participate in queries, whereas in the previous situation some values were embedded in lower-level structures that had to be handled specially. Accordingly, the normalized design lends itself to general-purpose query processing, whereas the unnormalized design does not.

The objectives of normalization beyond 1NF were stated as follows by Codd:

1. To free the collection of relations from undesirable insertion, update and deletion dependencies;

2. To reduce the need for restructuring the collection of relations as new types of data are introduced, and thus increase the life span of application programs;

3. To make the relational model more informative to users;

4. To make the collection of relations neutral to the query statistics, where these statistics are liable to change as time goes by.

—E.F. Codd, "Further Normalization of the Data Base Relational Model"[11]

Free the database of modification anomalies

An update anomaly. Employee 519 is shown as having different addresses on different records.
An insertion anomaly. Until the new faculty member, Dr. Newsome, is assigned to teach at least one course, his details cannot be recorded.
A deletion anomaly. All information about Dr. Giddens is lost when he temporarily ceases to be assigned to any courses.

When an attempt is made to modify (update, insert into, or delete from) a table, undesired side-effects may follow. Not all tables can suffer from these side-effects; rather, the side-effects can only arise in tables that have not been sufficiently normalized. An insufficiently normalized table might have one or more of the following characteristics:

  • The same information can be expressed on multiple rows; therefore updates to the table may result in logical inconsistencies. For example, each record in an "Employees' Skills" table might contain an Employee ID, Employee Address, and Skill; thus a change of address for a particular employee will potentially need to be applied to multiple records (one for each of his skills). If the update is not carried through successfully—if, that is, the employee's address is updated on some records but not others—then the table is left in an inconsistent state. Specifically, the table provides conflicting answers to the question of what this particular employee's address is. This phenomenon is known as an update anomaly.
  • There are circumstances in which certain facts cannot be recorded at all. For example, each record in a "Faculty and Their Courses" table might contain a Faculty ID, Faculty Name, Faculty Hire Date, and Course Code—thus we can record the details of any faculty member who teaches at least one course, but we cannot record the details of a newly-hired faculty member who has not yet been assigned to teach any courses. This phenomenon is known as an insertion anomaly.
  • There are circumstances in which the deletion of data representing certain facts necessitates the deletion of data representing completely different facts. The "Faculty and Their Courses" table described in the previous example suffers from this type of anomaly, for if a faculty member temporarily ceases to be assigned to any courses, we must delete the last of the records on which that faculty member appears. This phenomenon is known as a deletion anomaly.

Minimize redesign when extending the database structure

When extending the structure of a database that is fully normalized, i.e. giving it the ability to accommodate new types of data, this can typically be done with minimal change to the database structure that is already there. As a result, applications interacting with the database are themselves minimally affected.

Make the data model more informative to users

Normalized tables, and the relationship between one normalized table and another, mirror real-world concepts and their interrelationships.

Avoid bias towards any particular pattern of querying

Normalized tables are suitable for general-purpose querying. This means any queries against these tables, including future queries whose details cannot be anticipated, are supported. In contrast, tables that are not normalized lend themselves to some types of queries, but not others.

Background to normalization: definitions

  • Functional dependency: Attribute B has a functional dependency on attribute A (i.e., A → B) if, for each value of attribute A, there is exactly one value of attribute B. If value of A is repeating in tuples then value of B will also repeat. In our example, Employee Address has a functional dependency on Employee ID, because a particular Employee ID value corresponds to one and only one Employee Address value. (Note that the reverse need not be true: several employees could live at the same address and therefore one Employee Address value could correspond to more than one Employee ID. Employee ID is therefore not functionally dependent on Employee Address.) An attribute may be functionally dependent either on a single attribute or on a combination of attributes. It is not possible to determine the extent to which a design is normalized without understanding what functional dependencies apply to the attributes within its tables; understanding this, in turn, requires knowledge of the problem domain. For example, an Employer may require certain employees to split their time between two locations, such as New York City and London, and therefore want to allow Employees to have more than one Employee Address. In this case, Employee Address would no longer be functionally dependent on Employee ID.

Another way to look at the above is by reviewing basic mathematical functions:

Let F(x) be a mathematical function of one independent variable. The independent variable is analogous to the attribute A. The dependent variable (or the dependent attribute using the lingo above), and hence the term functional dependency, is the value of F(A); A is an independent attribute. As we know, mathematical functions can have only one output. Notationally speaking, it is common to express this relationship in mathematics as F(A) = B; or, B → F(A).

There are also functions of more than one independent variable--commonly, this is referred to as multivariable functions. This idea represents an attribute being functionally dependent on a combination of attributes. Hence, F(x,y,z) contains three independent variables, or independent attributes, and one dependent attribute, namely, F(x,y,z). In multivariable functions, there can only be one output, or one dependent variable, or attribute.

Trivial functional dependency
A trivial functional dependency is a functional dependency of an attribute on a superset of itself. {Employee ID, Employee Address} → {Employee Address} is trivial, as is {Employee Address} → {Employee Address}.
Full functional dependency
An attribute is fully functionally dependent on a set of attributes X if it is
  • functionally dependent on X, and
  • not functionally dependent on any proper subset of X. {Employee Address} has a functional dependency on {Employee ID, Skill}, but not a full functional dependency, because it is also dependent on {Employee ID}.
Transitive dependency
A transitive dependency is an indirect functional dependency, one in which XZ only by virtue of XY and YZ.
Multivalued dependency
A multivalued dependency is a constraint according to which the presence of certain rows in a table implies the presence of certain other rows.
Join dependency
A table T is subject to a join dependency if T can always be recreated by joining multiple tables each having a subset of the attributes of T.
Superkey
A superkey is an attribute or set of attributes that uniquely identifies rows within a table; in other words, two distinct rows are always guaranteed to have distinct superkeys. {Employee ID, Employee Address, Skill} would be a superkey for the "Employees' Skills" table; {Employee ID, Skill} would also be a superkey.
Candidate key
A candidate key is a minimal superkey, that is, a superkey for which we can say that no proper subset of it is also a superkey. {Employee Id, Skill} would be a candidate key for the "Employees' Skills" table.
Non-prime attribute
A non-prime attribute is an attribute that does not occur in any candidate key. Employee Address would be a non-prime attribute in the "Employees' Skills" table.
Primary key
Most DBMSs require a table to be defined as having a single unique key, rather than a number of possible unique keys. A primary key is a key which the database designer has designated for this purpose.
From Wikipedia, the free encyclopedia

Revolusi Digital 7 Komputer Personal dari IBM

Sukses komputer kecil Apple memacu perusahaan lain untuk membuat peralatan serupa. Meski begitu, IBM, si raja mainframe (komputer besar), sama sekali belum bergeming. Alasannya sepele, divisi pemasaran–kekuatan utama mereka–kurang dapat menyetujui perubahan tersebut. Bagi para wiraniaga, menjual komputer kecil seharga seribu dollar mendatangkan komisi yang terlalu kecil. Mereka terbiasa mendapat persenan dari berdagang perlengkapan berbandrol $20.000.

Tetapi, ketika Apple II mulai mengerogoti pasar komputer besar, mau tidak mau IBM harus berpaling pada komputer meja. Untungnya, IBM mempunyai seorang insinyur yang mempunyai minat besar pada produk tersebut, yakni Lew Eggebrecht.

Sebenarnya, sudah berkali-kali Eggebrecht (melalui atasannya) mengusulkan pembuatan komputer kecil. Tapi, para pembesar IBM yang konservatif belum melihat perubahan yang ada di depan mata.

Tak Berfungsi

Meski akhirnya muncul perintah “OK!”, upaya IBM membuat komputer kecil tak berjalan mulus. Selain membuat perangkat keras komputer, IBM harus bisa menyediakan perangkat lunak. Komputer untuk keperluan umum tak bisa berfungsi tanpa software. Masalahnya, para programer perusahaan tak mampu membuat sistem operasi yang akan dijalankan pada komputer IBM. Sistem operasi sangat vital karena program itulah yang pertama kali “jalan” ketika komputer dihidupkan. Tanpa sistem operasi, komputer hang (tak berfungsi).

Untungnya Eggebrecht cukup cerdik. Ia mengabaikan divisi perangkat lunak perusahaannya dan berpaling kepada Microsoft. Perusahaan Bill Gates itulah yang selama ini menjadi penyuplai perangkat lunak bagi Apple. Setelah berhasil mendapatkan Dirty Operating Systems (DOS) dari Microsoft serta berbagai perangkat lunak lain, IBM meluncurkan IBM Personal Computer (IBM PC). Mengingat para wiraniaga enggan berjualan, Eggebrecht memasarkan PC melalui jaringan swalayan, langsung ke tangan konsumen.

PC IBM segera meraup sukses besar. IBM membiarkan para programer independen membuat software yang bisa dijalankan pada PC. Dengan tawaran perangkat lunak yang melimpah, konsumen tentu memilih PC. Kekukuhan Apple untuk menjual perangkat keras dan lunak dalam satu paket, pada akhirnya membuat perusahaan Steve Jobs tetinggal.

Dengan cepat penjualan PC IBM mendapatkan momentum. Pada 1982, IBM memproduksi 13.000 PC per hari. Kawasan Boca Roca, Florida, tempat perangkat itu diproduksi segera tumbuh menjadi kawasan industri besar. Hanya dua tahun setelah PC diperkenalkan, nilai saham IBM berlipat dua. Pada 1983, perusahaan itu bernilai sekitar $74,25 miliar, setara dengan seperempat nilai pasar dari seluruh saham teknologi yang tergabung dalam Dow Jones Industrial Average.

Namun begitu, bahaya segera mengancam. Para insinyur Texas Instrument (TI) membongkar PC IBM. Mereka pun mendapati tak ada yang unik di mesin itu. Satu-satunya yang khas adalah Basic Input Output System (BIOS). Ia adalah chip permanen yang berisi “kepribadian” dari keseluruhan sistem (semacam pencatat kode genetik PC).

Kompatibel

Tanpa harus meniru disain IBM, TI mampu membuat chip yang mempunyai fungsi sama sehingga tidak melanggar hak paten. Berkat chip baru itu, pada Natal 1982, munculah komputer COMPAQ yang kompatibel terhadap PC. Semua program yang bisa dijalankan pada IBM PC bisa dijalankan pada COMPAQ. Kemunculan COMPAQ merupakan awal bencana IBM.

Sejak saat itu bermunculanlah pembuat komputer yang kompatibel dengan sistem PC. Meski menciptakan standar dunia komputer modern, IBM tak bisa mengendalikan pasar. Keadaan diperparah karena Microsoft membuka diri menyediakan software bagi mesin merek apapun.

Kemudian, komponen pembuat komputer bahkan dijual secara terpisah. Intel menjual prosesor buatan mereka secara eceran. Demikian pula dengan pembuat memori, sound card (perangkat untuk memunculkan suara), video card (untuk menampilkan video) dan sebagainya. Beberapa perusahaan lalu menjual motherboard (papan kit serta arsitektur utama komputer) juga secara mandiri. Pembeli bisa merakit sendiri komputer pribadinya (biasa diistilahkan di Indonesia sebagai komputer jangkrik) yang tentunya PC Compatible.

Mampukah Riset Kita Berdiri Sejajar dengan Negara Maju

Sebenarnya Indonesia memiliki beberapa keunggulan, yang bahkan tidak dapat disamai oleh negara maju sekalipun. “Raksasa-raksasa” riset dunia, seperti Amerika Serikat, Jepang, dan Uni Eropa tentu saja memiliki keunggulan dana yang berlimpah, fasilitas yang memadai, dan referensi yang lengkap.

Sebenarnya Indonesia memiliki beberapa keunggulan, yang bahkan tidak dapat disamai oleh negara maju sekalipun. “Raksasa-raksasa” riset dunia, seperti Amerika Serikat, Jepang, dan Uni Eropa tentu saja memiliki keunggulan dana yang berlimpah, fasilitas yang memadai, dan referensi yang lengkap.

Jika akhirnya Indonesia memilih berhadapan dengan mereka, dengan menggunakan pola pikir mereka juga, maka sudah dipastikan Indonesia tidak akan bisa kemana-mana. Namun, apa saja keunggulan Indonesia, dibanding “raksasa-raksasa” itu, terutama bidang yang bisa dikembangkan untuk riset? Apakah masih ada harapan untuk berdiri sejajar dengan mereka? Mari kita simak.

Pemetaan Kekuatan Riset Kita

Selama ini, Indonesia memiliki kekuatan sumber daya manusia yang luar biasa. Banyak sekali ilmuwan dan dosen lulusan luar negeri, yang memiliki pengalaman riset internasional, yang akhirnya kembali ke Indonesia. Mereka pun mengabdi di institusi masing-masing. Adapun, dengan modal SDM yang kuat itu, ada baiknya kita mulai memetakan dimana kita bisa memfokuskan diri dalam riset. Pemetaan ini penting, sebab kita harus mencari niche, dimana keunggulan kita dapat tumbuh, ditengah para raksasa riset dunia.

Biologi Kelautan: Megabiodiveristas yang Luar Biasa

Sebagian besar luas Indonesia terdiri dari laut. Di dalamnya, terdapat megabiodiversity yang luar biasa variasinya. Indonesia merupakan salah satu negara, yang memiliki terumbu karang yang paling kaya. Salah satu rekan kami, Hawis Maduppa, merupakan salah satu peneliti yang aktif dalam kajian terumbu karang. Linknya ada disini: http://bunghaw.wordpress.com/. Sebagai salah satu sumber megabiodiversity, laut kita memiliki sumber daya hayati yang berlimpah untuk berbagai keperluan, seperti pangan dan obat. Adapun masalah yang dihadapi adalah bagaimana manajemen kelautan tersebut bisa mengatasi berbagai penyimpangan yang terjadi, misalnya menggunakan bahan peledak untuk menangkap ikan, dan membangkitkan semangat entrepreneurship bagi para nelayan. Dengan pemanfaatan sumber daya hayati secara sustainable, dan tetap menjaga kelestarian ekosistem, maka Indonesia akan memiliki posisi tawar yang lebih baik dengan negara-negara maju.

Penyakit Tropis: Kajian yang Hanya Bisa Dilakukan di Negara Tropis

Demam Berdarah dan Malaria adalah penyakit mengerikan yang belum ada obatnya sampai sekarang. Vaksin masih dikembangkan, namun belum selesai. Selain itu, penyakit-penyakit ‘klasik’ di dunia tropis, seperti Kolera, disentri, dan tiphus juga tetap masih mengancam. Namun, dokter-dokter kita merupakan pakar yang sangat terlatih dalam menghadapi penyakit tropis. Dengan pengalaman ratusan tahun, dari sejak jaman kolonial Belanda, dokter kita telah menangani berbagai macam penyakit tropis. Para dokter dari negara maju, bisa dipastikan tidak akan bisa menangani penyakit tropis sebaik dokter kita, karena pengalaman mereka sehari-hari memang tidak menjumpai penyakit seperti demikian.

Cultural and Humanity Studies :Indonesia sebagai “Magnet Kultural”

Indonesia merupakan bangsa yang memiliki kekayaan budaya paling lengkap. Dengan 300 suku bangsa, yang memiliki bahasa sendiri-sendiri (bukan dialek), menjadikan Indonesia sebagai tempat paling ideal untuk studi kemanusiaan. Indonesia telah memiliki pakar ilmu kemanusiaan, seperti alm Prof Koentjaraningrat dan alm Prof Parsudi Suparlan, yang telah memberi warna bagi perkembangan sains kemanusiaan Indonesia. Dinamika sosial kemanusiaan yang luar biasa di Indonesia, seperti interaksi antar kelompok, interaksi antar suku, interaksi intra suku, dll, menjadikan Indonesia sebagai kajian yang sukar ditandingi oleh negara maju sekalipun. Justru banyak peneliti dari negara maju, yang datang ke Indonesia untuk melakukan penelitian di bidang ilmu kemanusiaan. Contoh yang paling terkenal, adalah Clifford Geertz, yang membagi Islam di Jawa menjadi tiga kelompok, santri, priayi dan abangan dan Snouck Hourgrenje, yang membedakan peran ulama dan hulubalang di Aceh. Walau teori mereka banyak dikritisi, namun hal itu sudah menjadi contoh, bahwa Indonesia memang merupakan ‘magnet kultural’ yang luar biasa. Salah satu hal yang segera harus dibenahi, adalah supaya Indonesia bisa konsisten dalam pengembangan sains kemanusiaan, sesuai dengan tradisi yang diterapkan oleh Prof Koen dan Prof Parsudi.

Political Studies : Indonesia sebagai Salah Satu Negara Demokrasi Terbesar di Dunia

Indonesia merupakan salah satu negara demokrasi terbesar di dunia. Berbeda dengan Amerika Serikat, yang memilih presiden lewat sistim elektoral, Indonesia memilih presiden secara langsung. Setelah reformasi tahun 1998, Indonesia memiliki situasi politik yang sangat dinamis, mungkin yang paling dinamis di asia. Pemilu 2009 akan menjelang, dan situasi politik kita akan semakin dinamis. Inilah merupakan saat-saat yang paling menarik untuk melakukan kajian politik. Di era reformasi ini, banya istilah politik baru yang diperkenalkan. Salah satunya adalah ‘quick count’, dimana peneliti mengambil sampel dari pemilih untuk memprediksi siapa pemenang pemilu daerah dan nasional. Dalam kebanyakan kasus, prediksi mereka tepat.

Teknologi Informasi (TI): Dimana Open Source bisa Berperan

Hal ini sudah sangat jelas. Jika ingin melakukan penelitian yang high tech, namun dengan biaya yang sangat terjangkau, maka TI merupakan salah satu pilihan logis. Platform Linux, yang merupakan sistim operasi Open Source, telah memungkinkan dilakukannya riset TI high tech, namun dengan biaya rendah. Bahkan Indonesia telah membangun distro linux sendiri. Mengenai TI, sedang dibahas artikel saya di Netsains. Klik disini.

Demikian pembahasan saya soal ini. Jika diantara pembaca ada yang punya ide, mengenai apa ide riset yang bagus, maka saya terbuka saja. Paling tidak, dengan tulisan ini, saya berusaha ‘menggugah’, bahwa Indonesia sebenarnya masih memiliki nilai tawar yang tinggi dalam bursa riset dunia. Saya sepakat, bahwa berteriak-teriak menyalahkan kondisi riset Indonesia, yang dalam beberapa hal memiliki kelemahan, adalah tidak ada gunanya. Ada baiknya, daripada teriak-teriak menjelek-jelekkan Indonesia, kita berembuk mencari solusi untuk memperbaiki kondisi riset kita. Tulisan ini, memang dimaksudkan untuk mencari solusi, dan syukur-syukur menggugah kesadaran kita semua.

About this blog